Чому Baidu вирішила почати з «операційної системи», щоб створити «всеохопний та всепроникний» ШІ?

Автор: пампний гік

Велика модель може узагальнити, що сталося в Китаї за п'ять тисяч років, але не може відповісти, котра година; може пояснити, що таке квантова механіка, але навіть створити професійний PPT з ілюстраціями дуже важко.

Чому великі моделі здаються всезнаючими, але насправді їх використання завжди залишає бажати кращого?

Причина дуже проста: розумний, освічений не означає, що може працювати.

Розумний, потребує великої моделі, яка проходить навчання та навчання через величезну кількість знань, щоб розвинути розвинений мозок, який може добре відповісти на питання;

А одночасно, щоб задовольнити обидва фактори – розумний та здібний, потрібно забезпечити цьому розумному мозку гнучкі кінцівки, щоб реалізувати «глибоке мислення + глибока доставка».

Також тому, як просунути великі моделі від розумного мислення до реалізації еволюції «розумного та здібного», стало вирішальним чинником у тому, чи буде цей сплеск великих моделей миттєвим явищем, чи змінить історію.

百度 дала зразок.

25 квітня на конференції розробників AI Create 2025 засновник Baidu Лі Яньхун представив першу у світі операційну систему в галузі контенту — Cangzhou OS, спільно розроблену Baidu Wenku та Baidu Wangpan.

Повністю інтегруючи базову технологію, можливості та дані, накопичені Baidu Library та Netdisk у минулому, вони можуть бути інтегровані в різні сценарії, такі як вода, у найрозумнішій формі та найзручнішому інтерактивному інтерфейсі для користувачів, щоб досягти низького порогу та наскрізної високої якості доставки.

Спираючись на систему Cangzhou OS, бачення та очікування Baidu Wenku і Baidu Wangpan щодо ШІ полягає в тому, щоб у будь-який час, у будь-якому місці та на будь-якому кінцевому пристрої забезпечити справжню всебічну, кінцеву доставку, щоб ШІ міг бути «усеохоплюючим і всюдисущим».

01

沧舟 OS, що дозволяє AI досягти еволюції на рівні операційної системи

В технологічній промисловості існує така спільна думка, що будь-яка технологія, яка переходить з лабораторії до справжнього використання в тисячах домогосподарств, повинна пройти довгий шлях кривої Гартнера.

У цій кривій зростання першої стадії, в основному, залежить від ринкових очікувань, викликаних технологічними досягненнями, але з огляду на те, що результати впровадження технологій не є оптимальними, це зростання швидко перейде в спад, поки умови, необхідні для впровадження технологій, поступово не стануть зрілими і не матеріалізуються в практично безбар'єрну, всепроникну інфраструктуру, після чого прийде друга стадія екологічного вибуху.

Одним із символів початку другого етапу програмної індустрії зазвичай є поява зрілої операційної системи, як-от Windows для комп'ютерної індустрії, iOS для мобільної індустрії.

Отже, як визначити зрілу операційну систему? Близько 15 років тому в глобальній технологічній індустрії відбулася така дискусія: обидва можуть працювати на сенсорному екрані, мати великі екрани, телефонувати, фотографувати, слухати музику та надсилати текстові повідомлення, чому Apple або, говорячи про смартфони, є двома різними видами в порівнянні з минулими функціональними телефонами.

Однією з основних причин є те, що iOS успадкувала від MAC OS ядрову стабільність і багатозадачність, перетворивши це на відкриту екосистему, де розробники можуть вільно інтегрувати ці базові можливості Apple, створюючи свої інноваційні додатки. Це також змінило визначення того, що таке телефон, перетворивши його з справи однієї-двох гігантів, таких як Motorola та Nokia, на велику індустрію з безмежними можливостями, в яку залучена вся екосистема, і таким чином відкриваючи двері до мобільного Інтернету на наступні десять років.

Технології рухаються вперед, але бізнес-історії завжди повторюють свої сюжети в схожому ритмі. Базова логіка, перевірена в мобільних ОС, залишається актуальною і для побудови ОС в епоху великих моделей.

Підсумовуючи, можна виділити три аспекти: повноцінні базові можливості, гнучке центральне управління та процвітаюча екосистема сервісів додатків. Це якраз відповідає трьом рівням архітектури Cangzhou OS: базова інфраструктура, центральна система та сервіси додатків. Єдина різниця полягає в тому, що міст між додатками і центральною системою, а також базою, замість звичайного API, став більш стандартизованим і доступним MCP.

Серед них, інфраструктура бази MCP Server, її основним компонентом є Chatfile plus, основна роль якого полягає в елементному розбиранні та аналізі різного контенту різних модальностей, форм та форматів за допомогою знаннєвої структури, а також у багатомодальному розумінні, багатомодальному пошуку, перетворенні файлів та аналізі тощо.

Водночас, Baidu Wenku та Wangpan створили три основні бази знань: публічну базу знань, приватну базу знань та пам'яткову базу. Конкретно це стосується публічних знань, накопичених Baidu Wenku за багато років (публічна база знань), знань, які користувачі авторизували для використання в Wangpan (приватна база знань), а також команд, звичок використання та історичних записів, створених користувачами в Wenku або Wangpan (пам'яткова база).

Ці дані часто представлені в різних модальностях, формах та форматах. Серед них, публічна база знань надає загальні знання, тоді як приватна база знань і пам'ятка зберігають персоналізовані дані користувача.

У структурі, заснованій на знаннях, ОС Цанчжоу буде векторизувати і позначати мультимодальний контент в «трьох основних бібліотеках», тобто неструктуровані дані, такі як картинки, текст, відео, аудіо і документи, будуть перетворені в багатовимірні векторні дані, які можуть бути прочитані комп'ютерами за допомогою різних професійних моделей, тобто набору токенів.

А в центральній системі Baidu Wenku та хмарне сховище розробили «три основні інструменти», а саме: редактор (для редагування документів, PPT тощо), рідер (для читання документів та контенту PPT тощо), програвач (для відтворення аудіо та відео).

Одночасно, Cangzhou OS також може через «центральний диспетчер» за допомогою інтерактивних компонентів, моделей намірів та транспортної інфраструктури, комбінуючи пам'ять користувача та дані профілю, зрозуміти наміри користувача та ефективно розподілити диспетчерського агента.

На найвищому рівні знаходиться ряд AI Agent. «Cangzhou OS» інтегрує бібліотеку, хмарний диск, PPT, AI малюнки, AI карти думок, AI плакати, AI нотатки, AI сканування, AI транскрипцію та сотні інших AI Agent, що генерують модальності, які охоплюють різні типи, такі як зображення, текст, відео, аудіо тощо, повністю покриваючи сценарії навчання, роботи, життя та розваг, а також спираючись на можливості редагування, модифікації та тонкого налаштування інтегрованого редактора, що дозволяє підвищити якість пошуку та генерування контенту, щоб вони більше відповідали реальним потребам в індивідуальних завданнях.

02

На платформі Cangzhou OS,

Створити більше "розумних і спритних" Агентів

Навколо найвищого рівня сервісів застосування, Baidu Wenkù та Baidu Wangpan запустили сотні AI-агентів, перевірених мільйонами користувачів, а також підключили велику кількість професійних агентів третьої сторони для розширення екосистеми застосувань.

Як «універсальна платформа для збору та створення контенту зі штучним інтелектом», Baidu Wenku має понад 40 мільйонів платних користувачів і 97 мільйонів активних користувачів штучного інтелекту щомісяця. Baidu Netdisk також був оновлений до «універсальної платформи контент-сервісу», яка обслуговує понад 1 мільярд користувачів, використовує понад 100 мільярдів ГБ загального простору та понад 80 мільйонів активних користувачів штучного інтелекту щомісяця. Baidu Library і Baidu Netdisk стали справжньою «суперпродуктивністю» в епоху великих моделей.

На конференції Baidu Wenku та Baidu Wangpan також продемонстрували нові можливості, розроблені на базі «Cangzhou OS»: «GenFlow супер здібності» та «AI нотатки».

GenFlow 超能搭子 є можливістю багатогранної співпраці, запущеною додатком Baidu Wenku. Завдяки підтримці «沧舟 OS», генерація контенту може здійснюватися з паралельним виконанням кількох завдань, а також може виконувати різні завдання, спираючись на найповнішу професійну мережеву інформацію, а також на звички та вподобання користувача.

Наприклад, користувач хоче організувати весільне святкування, але на початку є лише одне просте речення: я хочу провести виїзну весільну церемонію на Хайнані на Першотравень, допоможіть мені скласти план та запрошення.

Попит здається простим: достатньо заповнити шаблон за історичними прикладами. Але для того, щоб задовольнити користувача, потрібно знати його естетичні уподобання, очікування бюджету, переваги в процесі, а також знати погоду, кількість людей і розподіл місць в Хайнані під час святкування 1 травня. Після цього потрібно скомбінувати ці графічні та текстові матеріали за допомогою інструмента PPT, щоб створити повний план, а в кінці, на основі плану та естетичних уподобань користувача, створити повну весільну запрошувальну афішу.

А щоб виконати вищевказане, потрібно окремо обробити історію чату користувача, історію перегляду, а також розпізнавання намірів, пошук в мережі, інструмент PPT, проаналізувати наміри користувача, зрозуміти уподобання користувача, вільно комбінувати інструменти, і лише потім надати користувачу дуже конкретний повний план, що включає процес, дати, місця, бюджет, тему, деталі виконання, стиль, організацію людей.

Водночас, концепції та плакати, які потрібні користувачам, мають бути взаємодоповнюючими, що також вимагає від них збереження всієї інформації в一致ності, використовуючи одну й ту ж операційну систему для паралельного виводу.

Звичайно, штучний інтелект не може одноразово створити результат, який задовольнить усіх. Це означає, що як плани весіль, так і плакати повинні мати можливість редагування, а підтримкою цієї можливості є функція інтегрованого редактора «Цан Чжоу OS».

Не важко помітити, що від глибокого мислення до глибокої доставки, GenFlow 超能搭子 майже є єдиним справжнім продуктом класу «мультиагентна співпраця» на ринку. Він не тільки вирішує загальні проблеми продуктів мультиагентної співпраці, такі як висока вартість, тривалий час генерації, низька ефективність, нестабільна доставка та неможливість налаштування багатократних діалогів, але й безпосередньо вбудований у зрілі продукти та поєднаний з приватними даними, наданими користувачами, даючи AI справжню можливість досягти цілей «все може, всюди».

AI нотатки Baidu Netdisk - це незамінний помічник для безлічі офісних працівників та тих, хто готується до іспитів або працює на державній службі.

AI нотатки є першими в індустрії мультимодальними AI нотатками, які можуть вбудовувати різноманітні відео та нотатки для підготовки до іспитів, збережені користувачем у Baidu Wangpan, в один інтерфейс, забезпечуючи безперервну взаємодію. Вміст відео та нотатки тісно пов'язані один з одним: від перегляду відео до створення AI нотаток, до підсумування AI мапи розуму та, нарешті, до AI тестування для перевірки результатів навчання, що повністю охоплює весь навчальний цикл користувача.

Наприклад, складність іспитів з англійської мови для вступу до магістратури стала популярною темою останнім часом, користувачі хочуть зосередитися на інтенсивному повторенні матеріалу з англійської мови для вступу. AI нотатки спочатку здійснять пошук відповідних матеріалів, збережених у користувача в хмарному сховищі, одночасно перевіряючи публічно доступні матеріали в Інтернеті на предмет важливих тем. Але весь процес не зупиняється на цьому, AI нотатки також поєднують завдання з попередніх років для остаточної перевірки згенерованих важливих тем, тільки після перевірки важливі теми можуть бути використані для подальшого створення ментальних карт і прогнозів питань, що допоможе користувачеві прискорити процес навчання.

А в цьому процесі використання інструментів не менше, ніж при плануванні весілля. Наприклад, пошук іспитних пунктів і справжніх завдань вимагає можливості виконання пошуку по всій мережі, причому справжні завдання часто представлені у форматі PDF або навіть зображень, тоді як роз'яснення відомих викладачів подаються у відеоформаті, що вимагає здатності до аналізу мультимодального контенту. В кінцевому підсумку, генерація мапи думок і прогнозування питань вимагає здатності до розуміння великих моделей, генерації мультимодального контенту, а також здатності до відображення зв'язків між різними змістами, при цьому необхідно забезпечити абсолютну точність створюваного контенту.

Це за спиною є надання можливостей «沧舟 OS».

Звичайно, Baidu підтримує розробників у повному обсязі приймати MCP, тому операційна система Cangzhou OS не лише служить внутрішній екосистемі Baidu, але й найбільш важливим етапом розвитку операційної системи є відкритість, що стимулює інноваційні можливості широкого кола розробників.

Отже, для того щоб екосистема та застосунки реалізували максимальну цінність, Baidu Wenku та Baidu Wangpan на основі «Cangzhou OS» першими повністю застосували MCP для зв'язку продуктів та екосистеми, створивши трирівневу систему MCP Server-Client-Host. Можливості Wenku та Wangpan відкриті у формі MCP Server, а через MCP Client SDK зручно підключати більше корпоративних користувачів, розробників, застосунків для інтелектуальних агентів та інших MCP Host.

Серед них, найбільш представницьким прикладом є смартфони Samsung. Смартфони Samsung інтегрують завантаження, скачування, пошук, обмін файлами та розуміння контенту в декілька MCP серверів Baidu Wenku.

З одного боку, користувачі на інтерфейсі голосового помічника на телефоні можуть безпосередньо реалізувати функції завантаження файлів на хмарний диск, резервного копіювання, спільного використання в хмарі, підсумовування документів і запитань до вмісту, просто говорить.

З іншого боку, ці сервери також можуть збагачувати можливості хмарного зберігання в системі смартфонів Samsung, вирішуючи проблеми зі складністю масового резервного копіювання та обміну великими файлами та багатьма файлами.

Наприклад, користувач у телефонній галереї викликає голосового помічника і каже: «Зроби резервну копію фотографій, зроблених вчора в Осон, у Baidu Wangpan, та надішли фото Сяо Міня йому». Відповідні фотографії будуть завантажені в обліковий запис хмарного сховища, на який користувач дав згоду, і згенеровано посилання для спільного доступу. Потім мобільний помічник викликає телефонну книгу, щоб надіслати це посилання через SMS на телефон іншої особи; достатньо лише натиснути на посилання, щоб користувач міг безпосередньо перейти до Baidu Wangpan для перегляду або збереження.

Безсумнівно, перевірка надійності базових можливостей ОС не полягає в кількості інструментів або в наявності «чорних технологій». Найкращим критерієм оцінки можливостей ОС є зручність, зрілість і різноманітність екосистеми прикладних сервісів.

03

Історія ОС не має кінця

У капітальному ринку найбільш визнаним типом підприємства є «друг часу».

Так звані друзі часу – це коли підприємство робить щось правильно, і далі просто потрібно продовжувати, тоді результати зберігатимуться у вигляді вічного зростання, а екосистемні розробники також зможуть постійно отримувати вигоду.

А операційна система - це такий типовий вічний двигун ринку. Доки існує ринок комп'ютерів та мобільних телефонів, історія операційних систем, що належать Microsoft, Apple, Google, не матиме кінця.

Великі моделі теж так само. Коли «глибоке мислення + глибока доставка + публічні та приватні дані + екосистема MCP» об'єднуються, у майбутньому стане безмежним і всюдисущим ШІ нової ери, тоді подібні до Камбрійського періоду нові види почнуть безперервно з'являтися.

У цьому процесі, дивлячись вниз, це відкриття таких можливостей, як Baidu Wenku, Baidu Wangpan тощо. Активно обіймаючи екосистему, стати творцем нових видів великих моделей та розробником нових правил.

Дивлячись вгору, можна побачити численні нові агенти, створені на основі «Цанжоу OS», які формують величезну та бурхливу екосистему нових сервісів застосування.

А зараз усі історії лише починаються.

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • 1
  • Поділіться
Прокоментувати
0/400
GateUser-b76d427bvip
· 04-28 17:47
дякую за цікаву статтю
Переглянути оригіналвідповісти на0
  • Закріпити