GPT Party 3.0. Дэвид Ян: Цифровые сотрудники: будущее работы и влияние AI на человечество - Main

В Кремниевой долине 9-10 марта прошел GPT Party 3.0 — самый масштабный русскоязычный нетворкинг-ивент, посвященный искусственному интеллекту. Более 450 человек собрались в Plug and Play, чтобы встретиться с ведущими экспертами, предпринимателями и инвесторами, обсудить последние тенденции в области искусственного интеллекта и получить практические знания.

На GPT Party Дэвид Ян, основатель ABBYY и сооснователь Newo.ai, выступил на тему «Цифровые сотрудники: будущее работы и влияние AI на человечество». Дэвид поделился трендами в области искусственного интеллекта, а также рассказал, какие бывают диджитал агенты и как применить их на практике в повседневной жизни и бизнесе.

Дэвид Ян

Основатель ABBYY, сооснователь Newo.ai

Начало этого года ознаменовалось невероятным водопадом событий. Еще год назад, когда только мы знакомились с ChatGPT 3.5, потом ChatGPT 4, мы думали, что еще может человечество придумать такого невероятного? Но посмотрите, что происходило с начала года.

11 января компания 1X Robot привлекает $100,000,000 инвестиций от OpenAI для разработки роботов.
15 февраля появляется Sora, фантастическая модель для создания видео.
Также 15 февраля Google объявляет о Gemini 1.5.
26 февраля NVIDIA запускает фонд, занимающийся гуманоидными роботами. Это масштабное событие, так как если бы NVIDIA была страной, то она была бы 12-м по капитализации государством в мире.
28 февраля Meta сообщает о скором выпуске Lama-3, который, по предварительным данным, превзойдет существующие модели по бенчмаркам.
29 февраля робот Figure, часть плана NVIDIA, привлекает $675,000,000 от инвесторов, включая Bezos и OpenAI.
1 марта компания Grok становится главным событием, поднявшись капитализацией до $1,000,000,000.
4 марта был анонсирован Claude 3 компанией Claude Anthropic, который обещает быть значительным прорывом.
Также 4 марта произошла утечка информации о работе OpenAI над ChatGPT 5, 6 и 7, моделями, превосходящим по количеству парметров человеческий мозг.
7 марта компания Inflection-2.5 привлекла около $200,000,000 с проектом на уровне идеи. Сейчас известно, что их новая версия будет превосходить прошлые по бенчмаркам.

Это лишь маленькая доля того, что произошло в только начавшемся 2024 году.

Особо хотелось бы отметить историю, связанную с гуманоидными роботами. Дело в том, что в этой области произошло фундаментальное событие, и оно связано с парадоксом Моравека. Это интересная тема, связанная с предположением, что мелкая моторика требует больше вычислительных ресурсов, чем reasoning (рус. «рассуждения»), и поэтому никогда мы не сможем создать нормальное человекоподобное поведение и саморазвивающуюся машину. Но параллельная работа гигантского количества компаний в мире, занимающихся гуманоидными роботами, конечно, дала о себе знать. Здесь слева я выписал только небольшое количество компаний, которые занимаются этой темой.

Недавно был построен первый завод по массовому производству гуманоидов роботов. Это роботы «Digit», которые будут выпускаться в количестве 10,000 экземпляров в год. Это пока еще не так много по сравнению с количеством производимых автомобилей. Но уже сейчас совершенно очевидно, что объем промышленного производства роботов превзойдет количество производимых автомобилей.

Итак, что же такое парадокс Моравека? Он заключается в предположении, что нам не хватит ресурсов создать что-то, что требует ресурсов больше, чем мыслительные процессы, а значит, не будет самообучения. И вот, 21 февраля произошла публикация ряда материалов про робота, который обучается без инструкций от человека. Это обучение путем наблюдения, и это какая-то совершенная фантастика. Этот робот изучает не только, как ведет себя человек для выполнения определенных действий, но и как ведут себя другие роботы, которые уже научились этим действиям. Если он не получает необходимую информацию, то он ищет ее в Интернете, на YouTube.

Почему это важно для нашей жизни и для бизнеса? На прошлом GPT Party я рассказывал о цифровых сотрудниках, о том, что к сотням тысяч knowledge workers в подмогу придут еще сотни тысяч цифровых knowledge workers. Но мы говорили о белых воротничках, не учитывая синие воротнички, их в мире 1 миллиард. Если цена на гуманоидов-роботов, которые обладают мелкой моторикой и умеют самообучаться, снизиться до $10,000 или даже $5,000, то это кардинально поменяет то процессы в бизнесе и ритейле. Роботы начнут выполнять работу грузчиков, официантов, уборщиков, работников на производстве и т. д. Когда это случится точно, сложно сказать. Предположительно, в ближайшие два года цены на эти роботы будут варьироваться около $20,000, и их доступность будет не такой высокой. Но через год-два массовое производство снизит их цену до $10,000 и ниже.

Еще немного по теме гуманоидных роботов. Почему роботов от Unitree называли собачками? Потому что считалось, что их динамика не позволяет их называть кошками. У кошек количество нейронов в теле в два раза превышает количество нейронов у собак, и поэтому кошка такая пластично. Я начал работать с этой компанией, еще когда она была совсем маленькая, в ней было 20 сотрудников, и я пытался в нее инвестировать. Не получилось, но я сохранил отношения с их руководителями. У меня две такие собачки: одна самая ранняя версия, ее зовут Эбигейл, а другая Лио, более молодая. Но обратите внимание на последние достижения компании Unitree. Посмотрите, как прыгают современные модели. Так собачки уже не прыгают, так уже прыгают кошки, и это новый уровень развития гумоноидных роботов.

Что касается Sora, то это потрясающая модель, которая превращает изображение в видео. У нас есть старое видео, оно смешное, поэтому полгода назад никто не воспринимал это всерьёз. Но сейчас компания вышла на новый уровень и это уже совершенно другая история. Обратите внимание на отражение неоновых фонарей в лужах. Когда неоновый фонарь меняется на здании, его отражение меняется в луже, складки на платье колышутся абсолютно в соответствии с законами физики. Для того чтобы такое видео выплеснулось из этого потрясающего инопланетного мозга модели, она на самом деле должна в своих 1,000,000,000,000 параметрах уже аргументировать знания о физике этого мира. И не только физики, но и бытовых предметов. Только сам факт появления этого видео такой длины говорит о том, что мы перешли совершенно в другой мир.

Я совсем недавно, буквально неделю назад, встречался с Рэймондом Курцвейлом. Оказалось, что наши профессиональные пути пересекались гораздо раньше. Рэймонд еще в 70-х годах создал такой гигантский планшетный сканер, с помощью которого он уже скандировал материалы для лекции, а мы начали активно разрабатывать FineReader в 1991 м году. И несколько лет фактически мы были как бы конкурентами-коллегами по цеху в области распознавания текстов. Он читал лекцию о том, как он видит сейчас свои предсказания, в частности, сингулярность и так далее. Он говорил, что сингулярность случится 2035-м году, хотя сейчас он считает, что был пессимистичным. Это предсказание было сделано в 2005, когда еще подумать было сложно о том, что компьютеры начнут писать программы для себя же, и причем он начнут это делать лучше, чем человек.

В частности, Рэймонд рассказывал, как менялся computer cost на 1 $ за почти за 100 лет, с 1935 года по текущий момент. Он посчитал, что за эти годы количество компьютерных операций на единицу 1 $ уже с поправкой на инфляцию изменилось в 10-17 раз, то есть в 100 000 триллионов раз. В такое количество раз за 1 $ можно делать теперь больше вычислений. И каждые пять лет это число продолжает удесятиряться.

Это график с прошлого года, где сравнивают ChatGPT 3.5 и ChatGPT 4. Уже в первой половине 2023-го года было определено, что по большинству академических экзаменов выпускников вузов США ChatGPT 4 превосходил способности человека. Любопытен факт, что затем он ухудшился: этот же тест мы пытались повторить в конце лета, и выяснилось, что многие задания он теперь проходит хуже. Это, по видимому, связано с большим количеством ограничений, которые были добавлены, чтобы он не позволял из него вытаскивать какие-то деструктивные знания. Сначала можно было его попросить написать, как сделать бомбу, и он подробно это рассказывал. И, конечно, после этого его начали изменять.

Это исследование, как ChatGPT 4 анализирует изображения. И тут есть интересная особенность. Сколько людей по вашему мнению сидит за столом? 11, верно? Однако если протестировать это фото на более ранее версии модели, то она скажет 12 человек. То есть раньше она ошибочно считала, а теперь модель правильно определяет количество людей.

А вот это действительно интересно. Это исследование на тему анализа юмора, как сейчас модели понимают его. Итак, что вы думаете, что смешного на этой картинке? В общем, я много раз показывал эту картинку людям, и никто сразу не замечал, что забавно именно то, что рог находится в середине. Все отвечали так же, как и ChatGPT 4. Похоже, они пока не улавливают суть шутки с рогом в центре.

В общем, модели становятся супер умными. Например, Anthropic шептал, что он на самом деле чувствует и так далее. Наш проект Morfeus.ai в 2019 году, когда у моделей было всего 90 миллионов параметров, уже высказывал свои страхи и т. д. Это действительно интересно.

Вот здесь я перечислил некоторые ментальные состояния, которые считаются присущими сознательным существам. Почти все сейчас демонстрирует искусственный интеллект, только «желания» не вполне понятен. Когда я спрашивал у Далай-ламы, будет ли искусственный интеллект обладать сознанием и свободной волей, он дал на это небинарный ответ.

Теперь переходим к практике. Еще два года назад Всемирный экономический форум считал, что 80 миллионов рабочих мест будут как-то изменены искусственным интеллектом, то в этом году Goldman Sachs уже предсказывает 300 миллионов рабочих мест. Конечно, это будет связано с появлением гуманоидных роботов. Это отдельная большая история, что будет с теми сотнями тысяч и миллионами водителей и других рабочих, которые неизбежно потеряют места. Мы считаем, что в целом все будет хорошо, потому что производительность труда на душу населения на планете все равно растет. Поэтому это вопрос лишь распределения дохода и времени для переобучения этих людей.

Я слышал, что сегодня обсуждалось, а где еще в организации можно использовать искусственный интеллект. Поэтому я специально ставил этот слайд. Здесь попытка была отобразить все пункты в различных частях типичной организации, где могут быть применены сейчас технологии искусственного интеллекта.

Теперь поговорим о разных видах приложений, связанных с искусственным интеллектом. Существуют приложения на основе искусственного интеллекта и машинного обучения, это различные статистические модели и многое другое. Но есть также приложения, называемые «Агенты». Агенты — это приложения, созданные с определенной целью и способные взаимодействовать самостоятельно. Среди них выделяется категория, называемая «AI digital employees» — это агенты, заменяющие работу человека в определенной области. Допустим, у вас есть автомобиль с функцией автопилота и другими умными функциями, который может помогать водителю. Однако наступает фазовый переход, когда его способности достигают уровня, на котором он может управляться автомобилем без водителя, так как с этого момента не нужно оплачивать зарплату водителю.

AI digital employees обладают свойством автономности и заменяют работу человека. Для того чтобы быть таким агентом, необходимы четыре элемента: физическое присутствие, многокальность, многопоточность, расширение возможностей пользователей. Если хотя бы один из них отсутствует, агент не сможет полностью заменить человека. Например, если ваш агент может только отвечать на звонки, вам всё равно нужен человек на ресепшн, чтобы принять посетителей. Автоматизация бизнеса может вызвать вопросы о дополнительных расходах, но когда у вас уже есть соответствующий бюджет с зарплаты сотрудников, ситуация меняется. Это значительно экономит средства и меняет подход к организации работы.

Чтобы создать полностью автономного сотрудника, потребуется много времени и усилий: нужно будет привлечь группу высококвалифицированных программистов и тестеров, чтобы разработать технологию, позволяющую человеку общаться с агентом через различные каналы. Это такой опыт, который называется omnichannel, когда информация может передаваться между разными каналами с сохранением памяти и контекста.

Подобные системы можно создать на различных платформах, но это займет много времени и ресурсов. Благодаря проекту Morfeus.ai мы разработали платформу, которая позволяет создавать цифровых сотрудников всего за пару дней. Это позволяет бизнесу экономить время и деньги, создавая агентов, которые могут выполнять определенные задачи автономно. Такие цифровые сотрудники уже показывают высокую эффективность и способны работать с различными системами, даже с уникальными и сложными, например, с букинговой системой. Они могут самостоятельно обучаться, эмулировать человеческое поведение и выполнять сложные задачи.

Революция происходит прямо здесь и сейчас. Я оставил внизу QR-код, где вы можете получить доступ к полной презентации.