Крупные компании начали гонку за создание ИИ, понимающего реальность

Глубокое понимание мира — то, что дается человеку с младенчества, — долгое время оставалось недосягаемой мечтой для искусственного интеллекта. Самые продвинутые нейросети, способные писать стихи и генерировать картинки, на самом деле не имеют ни малейшего представления о том, как этот мир устроен. Они не знают, что чашка упадет со стола и разобьется, если ее толкнуть. Не понимают, что часть дома может находиться и за углом. Сейчас эта фундаментальная преграда начинает рушиться. На смену языковым моделям приходит новый тип ИИ — модели мира, которые учатся не на текстах, а на видео и симуляциях, постигая саму суть физической реальности.

Последние несколько лет в цифровом мире господствовали большие языковые модели. Эти системы, обученные на колоссальных массивах текстовых данных, научились генерировать связные, осмысленные ответы. Они могут поддерживать беседу, писать код, сочинять истории и обобщать информацию. Однако у этого подхода есть фундаментальный изъян. Эти модели существуют в мире символов и статистических связей между словами. Они лишены сенсорного опыта и не обладают интуитивным, «физическим» пониманием окружающей среды.

Ребенок, играя с мячом, очень быстро усваивает, что мяч подпрыгнет, если его уронить, отскочит от стены и покатится по наклонной поверхности. Даже если языковая модель «читала» тысячи описаний, без визуального или физического опыта ей трудно точно предсказать траекторию мяча. Ей не хватает внутренней модели мира — ментальной симуляции, которая позволяет людям и животным предвосхищать последствия своих действий, планировать и безопасно взаимодействовать с физическим пространством. Именно эту проблему и призваны решить новые модели мира.

Искусственный интеллект может лишить работы 100 миллионов американцев

Тихая революция назревает в американской экономике, и ее последствия могут коснуться почти каждой профессии. Согласно новому отчету, под удар в ближайшие годы могут попасть не только работники производства, но и бухгалтеры, дальнобойщики и даже сотрудники ресторанов быстрого питания. Демократы в Сенате бьют тревогу, предсказывая кардинальное изменение рынка труда, в то время как администрация Трампа делает ставку на ускоренное развитие технологий.

Сфера искусственного интеллекта переживает стремительную революцию. Ключевые игроки индустрии и ведущие исследователи объявили о своем переходе к новой парадигме — созданию моделей мира. Эти системы не просто обрабатывают информацию, они строят внутреннее представление о том, как устроена реальность. В их основе лежит архитектура, которая формирует внутреннюю картину мира на основе пространственных данных.

Гонка за создание цифрового разума, способного понимать окружающий мир, уже началась. Компания World Labs под руководством известнейшего эксперта Фэй-Фэй Ли анонсировала свою первую коммерческую разработку — модель под названием Marble. 

Ветеран машинного обучения, главный научный сотрудник американской транснациональной холдинговой компании Ян Лекун, заявил о намерении основать стартап, посвященный именно моделям мира, как только покинет своего нынешнего работодателя. Два технологических гиганта также ведут активные внутренние разработки. Они видят применение этим моделям в двух ключевых областях — в создании более разумных и автономных роботов и в генерации невероятно реалистичных видеороликов.

Статья по теме: Пользователи Reddit подверглись тайному эксперименту с использованием искусственного интеллекта

Конкуренция приобретает глобальный масштаб. Китайская корпорация Tencent подключилась к этой гонке, разрабатывая модели, которые понимают не только абстрактные закономерности, но и конкретные законы физики, работая с трехмерными данными. В ноябре 2025 года сотрудники Университета искусственного интеллекта имени Мохаммеда бин Заида (ОАЭ) представили свою первую модель мира PAN.

Ян Лекун, один из пионеров современного ИИ, не скрывает своего скепсиса по поводу нынешнего подхода. На симпозиуме в Массачусетском технологическом институте он сделал провокационное заявление. Ученый рассказал, что нажил себе недругов в Кремниевой долине, открыто заявляя, что через три-пять лет именно модели мира, а не большие языковые модели, станут основной архитектурой для искусственного интеллекта. По его мнению, в будущем от языковых моделей в их теперешнем виде, скорее всего, откажутся.

Принцип работы этих новых систем коренным образом отличается от подхода их текстовых предшественников. Если языковая модель учится предсказывать следующее слово в последовательности, то модель мира учится предсказывать следующее событие в визуальной или физической среде. Она поглощает огромные объемы видеозаписей, данных из симуляций и других источников пространственной информации. В процессе обучения система выстраивает внутренние, сжатые представления об объектах, сценах и их динамике. Она начинает моделировать, как предметы двигаются, сталкиваются друг с другом, падают, взаимодействуют и продолжают существовать с течением времени.

Искусственный интеллект прочитал 600 бестселлеров и показал, как менялись предрассудки в обществе

ИИ, обученный на книгах из списков бестселлеров, превратился в «машину времени», которая показала, как западное общество с 1950-х годов меняло отношение к полу, расе и религии. Ученые доказали, что литература хранит не только сюжеты, но и скрытые социальные предубеждения.

Конечная цель чрезвычайно амбициозна — создать модель, которая самостоятельно, без прямого программирования, постигнет фундаментальные концепции нашего мира. Речь идет о гравитации, о том, что один объект может закрывать собой другой, о постоянстве объекта, который продолжает существовать, даже когда мы его не видим, и, наконец, о причинно-следственных связях.

Стоит отличать модели мира от другой популярной концепции — «цифровых двойников». Цифровой двойник представляет собой точную виртуальную копию конкретного объекта, например, ветряной турбины или целого завода. Его часто насыщают данными с датчиков в реальном времени для удаленного мониторинга и прогнозирования поломок. Модель мира — это не копия одного объекта, а обобщенная система знаний об универсальных законах, управляющих бесчисленным множеством объектов и сред.

Одной из главных проблем на этом пути становится вопрос данных. Разработчики языковых моделей черпали информацию из всего интернета — из статей, книг, форумов и социальных сетей. Данные для обучения моделей мира должны быть не менее масштабными, но при этом они гораздо более сложны для сбора. Это не просто текст, а видео, аудио, трехмерные сканы и результаты физических симуляций. Такая информация не собрана в одном месте и не так легко доступна.

Искусственный интеллект обучили узнавать пароли по движению пальцев пользователя

Обученный американскими исследователями искусственный интеллект смог украсть пароли в виртуальном мире у пользователей на VR-совещании лишь анализируя то, как стучат пальцы аватара по клавиатуре.

Эксперты называют сбор высококачественных мультимодальных данных в огромных масштабах самым большим препятствием для развития моделей мира. Именно эти данные позволяют уловить, как интеллектуальные агенты воспринимают физическое окружение и взаимодействуют с ним. 

Некоторые компании уже стали предлагать крупнейшие базы данных для таких целей. В них входят изображения, видео, тексты, аудио и трехмерные формы объектов и их симуляции. Кроме того, набор содержит миллион человеческих аннотаций, которые собирали в течение нескольких месяцев. Однако, как отмечают некоторые специалисты, даже этот массив — лишь начало, отправная точка. Реальные промышленные системы будут нуждаться в значительно большем объеме информации.

Будущее искусственного интеллекта лежит не в области бездушных статистических машин, перемалывающих тексты, а в создании систем, наделенных подобием здравого смысла и интуитивного понимания реальности. Модели мира откроют путь к принципиально новому уровню взаимодействия между человеком и машиной. Они — ключ к автономным роботам, которые смогут ориентироваться в непредсказуемом мире, к виртуальным пространствам, неотличимым от настоящих, и к системам, способным предсказывать сложные последствия наших действий.

Остается главный вопрос — смогут ли модели мира повторить головокружительный успех своих языковых собратьев и так же быстро выйти на передовые позиции? Пока ответ неизвестен. Но ясно одно: на них сделали ставку ведущие лаборатории, а инвестиции в это направление стремительно растут. Очередной виток эволюции ИИ начался, и на этот раз он касается самой сути реальности.

Нашли ошибку? Пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Подписывайтесь на нас в социальных сетях

Реклама
Реклама

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: