Мета-гуру искусственного интеллекта ЛеКун Большинство современных подходов к искусственному интеллекту никогда не приведут к настоящей интеллектуальности.

Мета-гуру искусственного интеллекта ЛеКун утверждает, что большинство современных подходов к искусственному интеллекту не приведут к настоящей интеллектуальности.

“Я считаю, что ИИ-системы должны уметь рассуждать”, – говорит Ян ЛеКун, главный ИИ-ученый в Meta. Сегодняшние популярные подходы к ИИ, такие как Transformers, многие из которых основаны на его собственной прорывной работе в этой области, не будут достаточными. “Вы должны отойти на шаг назад и сказать: хорошо, мы построили эту лестницу, но мы хотим попасть на Луну, и этой лестницей мы туда не попадем”, – говорит ЛеКун.

(Статья обновлена с опровержениями Гэри Маркуса и Юргена Шмидхубера в контексте.)

Ян ЛеКун, главный ИИ-ученый в Meta, владельце Facebook, Instagram и WhatsApp, скорее всего, разозлит многих людей в своей области.

С публикацией в июне обзорной статьи на сервере Open Review ЛеКун предложил общий обзор подхода, который, по его мнению, обещает достичь уровня интеллекта, сравнимого с человеческим, в машинах.

В статье, неявно, если не явно, утверждается, что большинство современных крупных проектов в области ИИ никогда не смогут достичь этой цели на уровне человека.

В ходе обсуждения в этом месяце с ENBLE через Zoom ЛеКун ясно выразил свое скептическое отношение к многим из наиболее успешных направлений исследований в глубинном обучении в настоящее время.

“Я считаю, что они необходимы, но недостаточны”, – сказал ЛаКун, обладатель премии Тьюринга, о стремлениях его коллег.

К ним относятся большие языковые модели, такие как Transformer-based GPT-3 и их подобные. Как охарактеризовал ЛеКун, поклонники Transformer верят, “Мы токенизируем все и обучаем гигантские модели для дискретных предсказаний, и таким образом ИИ возникнет из этого”.

“Они не ошибаются”, – говорит он, – “в том смысле, что это может быть компонентом будущей интеллектуальной системы, но, по моему мнению, здесь не хватает важных элементов”.

Также: ИИ-знаменитость Meta ЛеКун исследует энергетическую границу глубинного обучения

Это поразительная критика того, что, казалось бы, работает, исходя от ученого, который совершенствовал использование сверточных нейронных сетей, практической техники, которая дала колоссальные результаты в программах глубинного обучения.

ЛеКун обнаруживает недостатки и ограничения во многих других высокоуспешных областях этой дисциплины.

Он также утверждает, что обучение с подкреплением никогда не будет достаточным. Исследователи, такие как Дэвид Сильвер из DeepMind, разработавший программу AlphaZero, владеющую шахматами, шоги и го, сосредотачиваются на программах, которые “очень активны”, наблюдает ЛеКун, но “большую часть обучения мы получаем, наблюдая”.

ЛеКун, 62 года, с точки зрения десятилетий достижений, тем не менее, выражает настороженность в отношении того, что, по его мнению, является тупиками, к которым многие могут спешить, и пытается убедить свою область в том, какими путями следует идти.

“Мы видим много заявлений о том, что мы должны сделать, чтобы продвигаться к ИИ на уровне человека”, – говорит он. – “И есть идеи, которые, по моему мнению, ошибочны”.

“Мы еще не достигли точки, где наши интеллектуальные машины обладают таким же здравым смыслом, как кошка”, – наблюдает ЛеКун. – “Итак, почему бы нам не начать с этого?”

Он отказался от своей прежней веры в использование генеративных сетей в таких вещах, как предсказание следующего кадра в видео. “Это был полный провал”, – говорит он.

ЛеКун осуждает тех, кого он называет “религиозными вероятностниками”, которые “считают, что теория вероятностей – это единственная система, которую можно использовать для объяснения машинного обучения”.

Чисто статистический подход неразрешим, говорит он. “Слишком многое требуется от модели мира, чтобы она была полностью вероятностной; мы не знаем, как это сделать”.

Задуматься необходимо не только ученым, но и промышленному ИИ, утверждает ЛеКун. Компании, занимающиеся автономными автомобилями, стартапы, такие как Wayve, “немного слишком оптимистичны”, думая, что они могут “закидывать данные” в большие нейронные сети “и практически все можно изучить”.

“Знаете, я думаю, что совершенно возможно, что у нас будут автономные автомобили уровня пять без здравого смысла”, – говорит он, отсылая к терминам “ADAS”, системам передовой помощи водителю для самоуправляемых автомобилей, “но вам придется инженерно довести это до совершенства.”

Такая излишне сложная технология самоуправляемых автомобилей будет такой же хрупкой и неповоротливой, как все программы компьютерного зрения, которые устарели из-за глубокого обучения, считает он.

“В конечном итоге, будет более удовлетворительное и, возможно, лучшее решение, которое включает системы, лучше понимающие, как работает мир”, – говорит ЛеКун.

По пути ЛеКун высказывает свое мнение о своих самых главных критиках, таких как профессор НЮЙ Гэри Маркус – “он никогда не внес ничего в искусственный интеллект” – и Юрген Шмидхубер, со-директор Института искусственного интеллекта Далле Молле – “это очень легко сделать флаг-плантинг”.

Помимо критики, более важным моментом, отмеченным ЛеКуном, является то, что все ИИ сталкиваются с определенными фундаментальными проблемами, в частности, с тем, как измерять информацию.

“Вы должны отойти на шаг назад и сказать: Хорошо, мы построили эту лестницу, но мы хотим попасть на Луну, и этой лестницей мы туда не попадем”, – говорит ЛеКун о своем желании вызвать пересмотр базовых концепций. “В основном, то, что я пишу здесь, это то, что нам нужно построить ракеты, я не могу дать вам детали о том, как мы строим ракеты, но вот основные принципы”.

Статью и мысли ЛеКуна в интервью можно лучше понять, прочитав его интервью в этом году с ENBLE, в котором он аргументирует, что энергетическое самообучение является путем вперед для глубокого обучения. Эти размышления дают представление о основном подходе к тому, что он надеется построить в качестве альтернативы вещам, которые, по его словам, не дойдут до финиша.

Робототехника

  • Эта протезная рука, работающая на искусственном интеллекте, приносит дизайн и стиль в жизненно важный продукт
  • Лучшие роботы-пылесосы, доступные сейчас
  • Почему у студентов колледжей есть все крутые роботы?
  • 5 лучших роботов-газонокосилок: уход за газоном без усилий

Далее приведен слегка отредактированный транскрипт интервью.

ENBLE: Тема нашего разговора – это статья “Путь к автономному машинному интеллекту”, версия 0.9.2 которой является текущей версией, верно?

Янн ЛеКун: Да, я считаю это своего рода рабочим документом. Так что я опубликовал его на Open Review, ожидая комментариев и предложений от людей, возможно, дополнительных ссылок, и затем я сделаю пересмотренную версию.

ENBLE: Я вижу, что Юрген Шмидхубер уже добавил некоторые комментарии на Open Review.

ЯЛ: Ну да, он всегда это делает. Я цитирую одну из его статей в своей статье. Я думаю, что аргументы, которые он высказывал в социальных сетях, что он в основном изобрел все это в 1991 году, как он делал в других случаях, это просто не так. Я имею в виду, что очень легко сделать флаг-плантинг и предложить идею без каких-либо экспериментов, без какой-либо теории, просто предположить, что можно сделать это таким образом. Но, знаете, есть большая разница между просто иметь идею, и затем довести ее до работы на игрушечной проблеме, и затем довести ее до работы на реальной проблеме, и затем создать теорию, которая показывает, почему она работает, и затем развернуть ее. Есть целая цепочка, и его представление о научном кредите заключается в том, что это первый человек, который просто, так сказать, придумал эту идею, должен получить весь кредит. И это нелепо.

(Обновление: Юрген Шмидхубер отвечает: “ЛеКун утверждает, что моя ‘идея научного кредита заключается в том, что это первый человек, который просто, так сказать, придумал эту идею, должен получить весь кредит’. В ни одной вселенной это не так. Как я написал [DLC]: ‘изобретатель важного метода должен получить заслуги за его изобретение. Он не всегда может быть тем, кто популяризирует его. Затем популяризатор должен получить заслуги за его популяризацию (но не за его изобретение)’. Однако ЛеКун, по-видимому, не удовлетворяется только заслугами за популяризацию изобретений других; он также хочет заслуги изобретателя. Он утверждает неприемлемую позицию, несовместимую с основными всеобщепризнанными правилами научной честности [T22].”)

ENBLE: Не верьте всему, что слышите в социальных сетях.

YL: Я имею в виду, главная статья, которую он говорит, что я должен цитировать, не содержит главных идей, о которых я говорю в статье. Он делал это также с ГАНами и другими вещами, которые оказались ложными. Легко выдвигать флаг, но гораздо сложнее внести вклад. Кстати, в этой конкретной статье я явно сказал, что это не научная статья в обычном понимании этого термина. Это скорее позиционная статья о том, куда должно двигаться это дело. И там есть несколько новых идей, но большинство из них нет. Я не претендую на приоритет в большинстве того, что я написал в этой статье, в основном.

(Обновление: Шмидхубер отвечает: “ЛеКун утверждает обо мне: ‘… главная статья, о которой он говорит, что я должен цитировать, не содержит главных идей, о которых я говорю в статье.’ Это не имеет смысла. Я перечислил не только одну, но несколько соответствующих статей (включая [AC90][UN1][AC02][HRL1] [PLAN4]), которые содержат большую часть того, что ЛеКун явно называет своими ‘главными оригинальными вкладами’ [LEC22a]. ЛеКун говорит [LEC22c]: ‘Я не претендую на приоритет в большинстве того, что я написал в этой статье, в основном.’ Однако он перечислил свои ‘главные оригинальные вклады’ [LEC22a], и я показал, что они являются чем-то иным [LEC]. ЛеКун утверждает обо мне ‘Он делал это также с ГАНами.’ Это ложное утверждение не имеет обоснования и ссылок. Мои градиентные генеративные и адверсариальные нейронные сети 1990 года [AC90-AC90b] описали (часто цитируемые, реализованные и использованные) основные принципы ГАН 2014 года, статья о которой [GAN1] не правильно присвоила им заслуги [T22]. Моя публикация, прошедшая рецензирование [AC20], по-прежнему остается без вызова.)

Также обучение с подкреплением никогда не будет достаточным, считает ЛеКун. Исследователи, такие как Дэвид Сильвер из DeepMind, разработавший программу AlphaZero, овладевшую шахматами, шоги и го, “очень действиеориентированы”, наблюдает ЛеКун, но “большую часть обучения мы получаем, наблюдая”.

ENBLE: И, возможно, это хорошее место для начала, потому что я интересуюсь, почему вы выбрали этот путь сейчас? Что заставило вас задуматься об этом? Почему вы хотели написать это?

YL: Дело в том, что я думал об этом очень долгое время, о пути к достижению интеллекта или обучения на уровне человека или животного. И в своих выступлениях я был довольно откровенен по этому поводу, что и обучение с учителем, и обучение с подкреплением недостаточны для эмуляции того типа обучения, которое мы наблюдаем у животных и людей. Я занимаюсь этим уже около семи или восьми лет. Так что это не новое. У меня был доклад на конференции NeurIPS много лет назад, где я высказал эту точку зрения, и разные выступления, есть записи. Теперь, почему написать статью сейчас? Я дошел до точки, – [исследователь Google Brain] Джефф Хинтон сделал нечто подобное, – то есть, конечно, его больше, чем меня, мы видим, что время истекает. Мы не молодые.

ENBLE: Шестьдесят – новые пятьдесят.

YL: Это правда, но дело в том, что мы видим много заявлений о том, что нужно сделать, чтобы продвинуться к уровню искусственного интеллекта, приближенного к уровню человеческого. И есть идеи, которые, на мой взгляд, направлены не туда. Так, одна идея заключается в том, что мы просто должны добавить символическое рассуждение поверх нейронных сетей. И я не знаю, как это сделать. Так что, возможно, то, что я объяснил в статье, может быть одним подходом, который сделает то же самое без явной манипуляции символами. Это то, о чем говорят традиционно люди вроде Гэри Маркуса. Кстати, Гэри Маркус не является специалистом по искусственному интеллекту, он психолог. Он никогда не внес никакого вклада в искусственный интеллект. Он проделал очень хорошую работу в экспериментальной психологии, но никогда не написал рецензируемую статью по искусственному интеллекту. И есть такие люди.

(Обновление: Гэри Маркус опровергает утверждение об отсутствии рецензируемых статей. Он предоставил в письме ENBLE следующие рецензируемые статьи: Commonsense Reasoning about Containers using Radically Incomplete Information in Artificial Intelligence; Reasoning from Radically Incomplete Information: The Case of Containers in Advances In Cog Sys; The Scope and Limits of Simulation in Automated Reasoning in Artificial Intelligence; Commonsense Reasoning and Commonsense Knowledge in Communications of the ACM; Rethinking eliminative connectionism, Cog Psy)

В мире есть такие ученые-исследователи принципов [DeepMind] Дэвид Сильверс, которые говорят, что награда достаточна, по сути, все сводится к обучению с подкреплением, нам просто нужно сделать это немного более эффективным, понятно? И я считаю, что они не ошибаются, но я считаю, что необходимые шаги для повышения эффективности обучения с подкреплением фактически сводят его к своего рода вишенке на торте. И главная недостающая часть – это изучение того, как работает мир, в основном путем наблюдения без действий. Обучение с подкреплением очень основано на действиях, вы узнаете о мире, выполняя действия и видя результаты.

ENBLE: И оно сосредоточено на наградах.

YL: Оно сосредоточено на наградах, а также на действиях. Поэтому вам нужно действовать в мире, чтобы иметь возможность узнать что-то о мире. И главное утверждение, которое я делаю в статье о самообучении, заключается в том, что большую часть обучения мы получаем, наблюдая, а не действуя. И это очень нестандартно, в особенности для людей, занимающихся обучением с подкреплением, но также и для многих психологов и когнитивных ученых, которые считают, что действие – я не говорю, что действие не является необходимым, оно является необходимым. Но я считаю, что большую часть того, что мы учимся, составляет структура мира, и включает, конечно же, взаимодействие, действие и игру, и так далее, но большая часть этого является наблюдательной.

ENBLE: Вы также сможете рассердить людей, работающих с Transformer, людей, сосредоточенных на языке, в то же время. Как можно создать это без языка? Вы можете рассердить множество людей.

YL: Да, я к этому привык. Итак, есть люди, предполагающие, что интеллект связан с языком, основа интеллекта – язык и так далее. Но это, так сказать, игнорирует животный интеллект. Мы еще не достигли точки, где наши интеллектуальные машины обладают таким же здравым смыслом, как у кошки. Итак, почему бы не начать с этого? Что позволяет кошке воспринимать окружающий мир, делать довольно умные вещи, планировать и так далее, а собакам даже лучше?

Затем есть люди, которые говорят: “Интеллект – это социальная вещь, верно? Мы интеллектуальны, потому что общаемся друг с другом и обмениваемся информацией и так далее. Есть все виды несоциальных видов, которые никогда не встречаются со своими родителями, и они очень умны, как осьминоги или орангутанги. Они, конечно, обучаются своей матерью, но они не являются социальными животными.

Но есть еще одна категория людей, которую я могу задеть этой статьей. Это вероятностники, религиозные вероятностники. Люди, которые считают, что теория вероятности – это единственная рамка, которую можно использовать для объяснения машинного обучения. И, как я пытаюсь объяснить в статье, это слишком много требовать, чтобы модель мира была полностью вероятностной. Мы не знаем, как это сделать. Есть вычислительная неподвижность. Поэтому я предлагаю отказаться от этой идеи в целом. И, конечно, это огромный стержень не только машинного обучения, но и всей статистики, которая считает себя нормальной формализацией для машинного обучения.

Другая вещь –

ENBLE: Вы в хорошем настроении…

YL: — это то, что называется генеративными моделями. Идея заключается в том, что вы можете научиться предсказывать и, возможно, узнать много нового о мире через предсказание. Я даю вам кусок видео и прошу систему предсказать, что произойдет дальше в видео. И я могу попросить вас предсказать фактические кадры видео со всеми деталями. Но то, о чем я говорю в статье, это то, что это на самом деле слишком много и слишком сложно. И это то, в чем я изменил свое мнение. До примерно двух лет назад я был сторонником того, что я называю генеративными моделями с латентной переменной, моделями, которые предсказывают, что произойдет дальше или информацию, которой не хватает, возможно, с помощью латентной переменной, если предсказание не может быть детерминированным. Но я отказался от этого. И причина, по которой я отказался от этого, основана на эмпирических результатах, где люди пытались применить методы предсказания или восстановления, используемые в моделях BERT и больших языковых моделях, к изображениям, и это была полная неудача. И причина, по которой это полная неудача, снова заключается в ограничениях вероятностных моделей, где относительно легко предсказать дискретные токены, такие как слова, потому что мы можем вычислить вероятностное распределение для всех слов в словаре. Это легко. Но если мы попросим систему вычислить вероятностное распределение для всех возможных кадров видео, мы не знаем, как его параметризовать, или у нас есть некоторое представление о том, как его параметризовать, но мы не знаем, как его нормализовать. Здесь возникает неразрешимая математическая проблема, которую мы не знаем, как решить.

“Мы еще не достигли того уровня, на котором наши интеллектуальные машины обладают таким же здравым смыслом, как у кошки”, — замечает Лекун. “Итак, почему бы нам не начать с этого? Что позволяет кошке воспринимать окружающий мир, делать довольно умные вещи, планировать и так далее, а собакам даже лучше?”

Поэтому я говорю, давайте откажемся от теории вероятности или фреймворка для таких вещей, более слабого, моделей на основе энергии. Я отстаивал это также десятилетиями, так что это не новое. Но в то же время я отказываюсь от идеи генеративных моделей, потому что в мире много вещей, которые не поддаются пониманию и предсказанию. Если вы инженер, вы называете это шумом. Если вы физик, вы называете это теплом. А если вы специалист по машинному обучению, вы называете это, знаете, нерелевантными деталями или чем-то подобным.

Так что пример, который я использовал в статье или в выступлениях, заключается в том, что вы хотите систему предсказания мира, которая поможет в автономной машине, верно? Она должна быть способна предсказывать заранее траектории всех остальных автомобилей, что произойдет с другими объектами, которые могут двигаться, пешеходами, велосипедами, ребенком, бегущим за футбольным мячом и так далее. Так что много всего о мире. Но вдоль дороги могут быть деревья, и сегодня дует ветер, поэтому листья движутся на ветру, а за деревьями есть пруд, и на пруду есть волны. И все это в основном непредсказуемые явления. И вы не хотите, чтобы ваша модель тратила значительные ресурсы на предсказание тех вещей, которые сложно предсказать и не имеют значения. Поэтому я отстаиваю архитектуру совместного вложения, где переменная, которую вы пытаетесь моделировать, вы не пытаетесь предсказать, вы пытаетесь моделировать ее, но она проходит через энкодер, и этот энкодер может устранить много деталей о входных данных, которые не имеют значения или слишком сложны — в основном, эквивалент шуму.

ENBLE: Ранее в этом году мы обсуждали модели на основе энергии, архитектуру JEPA и H-JEPA. Если я правильно понимаю вас, вы находите точку низкой энергии, где эти два предсказания вложений X и Y наиболее схожи, что означает, что если в одном из них находится голубь на дереве, а на фоне сцены есть что-то, это могут быть несущественные моменты, делающие эти вложения близкими друг к другу.

YL: Правильно. Итак, архитектура JEPA на самом деле пытается найти компромисс между извлечением представлений, которые максимально информативны о входных данных, но также предсказуемы друг из друга с определенным уровнем точности или достоверности. Она находит баланс. Так что если у нее есть выбор между тем, чтобы тратить огромное количество ресурсов на включение деталей движения листьев и моделирование динамики, которая решит, как будут двигаться листья через секунду, или просто отбросить это, просто запустив переменную Y через предсказатель, который устраняет все эти детали, она, вероятно, просто их устранит, потому что это слишком сложно моделировать и учитывать.

Искусственный интеллект

  • 7 продвинутых советов по написанию промтов для ChatGPT, которые вам нужно знать
  • 10 лучших плагинов ChatGPT 2023 года (и как наиболее эффективно использовать их)
  • Я протестировал множество инструментов искусственного интеллекта для работы. Вот мои 5 любимых на данный момент
  • Человек или бот? Эта игра Тьюринга проверяет ваши навыки распознавания ИИ

ENBLE: Одна вещь, которая удивляет, это то, что вы раньше были сторонником утверждения “Оно работает, мы потом разберемся с теорией термодинамики, объясняющей это”. Здесь вы идете на подход “Я не знаю, как мы сможем решить это, но я хочу предложить некоторые идеи для размышления”, и, возможно, даже подходите к теории или гипотезе, по крайней мере. Это интересно, потому что много людей тратят много денег на создание автомобиля, который сможет видеть пешехода независимо от наличия у автомобиля здравого смысла. И я представляю себе, что некоторые из этих людей скажут: “Ничего, нам все равно, что у него нет здравого смысла, мы построили симуляцию, симуляция потрясающая, и мы будем ее улучшать, мы будем масштабировать симуляцию”. 

Так что интересно, что вы сейчас находитесь в ситуации, когда вы говорите, давайте сделаем шаг назад и подумаем о том, что мы делаем. И индустрия говорит, что мы просто будем масштабировать, масштабировать, масштабировать, потому что этот рычаг действительно работает. Я имею в виду, рычаг полупроводниковых GPU действительно работает.

YL: Здесь есть, как минимум, пять вопросов. Итак, я считаю, что масштабирование необходимо. Я не критикую факт того, что мы должны масштабироваться. Мы должны масштабироваться. Нейронные сети становятся лучше, когда они становятся больше. Вопросов о том, что мы должны масштабироваться, нет. И те, которые будут обладать некоторым уровнем здравого смысла, будут большими. В этом нет никаких сомнений, я думаю. Так что масштабирование хорошо, оно необходимо, но оно недостаточно. Это первый момент. 

Второй момент, это то, что теория приходит в первую очередь и тому подобное. Так что, я думаю, есть концепции, которые приходят в первую очередь и на которые нужно отойти и сказать: “хорошо, мы построили эту лестницу, но мы хотим попасть на Луну, и нет способа, чтобы эта лестница доставила нас туда”. Так что, фактически, то, что я пишу здесь, это, нам нужно построить ракеты. Я не могу дать вам детали о том, как мы строим ракеты, но вот основные принципы. И я не пишу теорию для этого или что-то подобное, но это будет ракета, хорошо? Или космический лифт или что-то в этом роде. У нас может не быть всех деталей всех технологий. Мы пытаемся заставить некоторые вещи работать, например, я работал над JEPA. Совместная вложенность очень хорошо работает для распознавания изображений, но для использования ее для обучения модели мира возникают сложности. Мы работаем над этим, мы надеемся, что мы скоро сделаем это работающим, но мы можем столкнуться с некоторыми преградами, которые мы, возможно, не сможем преодолеть. 

Затем есть ключевая идея в статье о рассуждении, где, если мы хотим, чтобы системы могли планировать, что вы можете рассматривать как простую форму рассуждений, им нужно иметь скрытые переменные. Другими словами, вещи, которые не вычисляются нейронной сетью, но вещи, значение которых выводится, чтобы минимизировать некую целевую функцию, некую функцию стоимости. Затем вы можете использовать эту функцию стоимости для управления поведением системы. И это совсем не новая идея, верно? Это очень классическое оптимальное управление, основы которого уходят в конец 50-х, начало 60-х годов. Так что я не утверждаю здесь никакую новизну. Но то, что я говорю, это то, что такой тип вывода должен быть частью интеллектуальной системы, способной планировать, и поведение которой может быть определено или управляться не жестким поведением, не имитационным обучением, а целевой функцией, которая управляет поведением – не обучает, обычно, но управляет поведением. Знаете, у нас есть это в нашем мозгу, и у каждого животного есть внутренняя стоимость или внутренние мотивации для вещей. Это заставляет девятимесячных младенцев хотеть встать. Стоимость быть счастливым, когда ты встаешь, это термин в функции стоимости, это жестко. Но как встать, это уже обучение.

“Масштабирование хорошо, это необходимо, но недостаточно”, говорит ЛеКун о гигантских языковых моделях, таких как программы на основе трансформера различных вариаций GPT-3. Приверженцы трансформера считают, “Мы токенизируем все и обучаем гигантские модели для получения дискретных предсказаний, и каким-то образом искусственный интеллект возникнет из этого… но, по-моему, здесь не хватает существенных частей.”

ENBLE: Просто чтобы закрыть этот вопрос, большая часть сообщества глубокого обучения кажется согласной продолжать работать с тем, что не имеет здравого смысла. Кажется, вы здесь ясно аргументируете, что в какой-то момент это приводит к тупику. Некоторые люди говорят: нам не нужен автономный автомобиль со здравым смыслом, потому что масштабирование справится с этим. Кажется, вы говорите, что нельзя просто продолжать идти по этому пути?

YL: Знаете, я думаю, что совершенно возможно, что у нас будут автономные автомобили пятого уровня без здравого смысла. Но проблема этого подхода в том, что это будет временным, потому что вам придется проделать огромную работу. Вы знаете, создать карту всего мира, прописать все виды специфического поведения угловых случаев, собрать достаточно данных, чтобы учесть все странные ситуации, которые могут возникнуть на дорогах, и так далее. И я думаю, что с достаточными инвестициями и временем вы можете просто проделать эту работу. Но в конечном счете будет более удовлетворительное и, возможно, более эффективное решение, которое включает в себя системы, лучше понимающие, как работает мир, и имеющие некий уровень того, что мы называем здравым смыслом. Не обязательно на уровне человека, но какой-то вид знаний, который система может приобрести, наблюдая за движением и понимая многое о мире, создавая фундамент фоновых знаний о том, как работает мир, на основе которого она может научиться водить.

Позвольте мне привести исторический пример. Классическое компьютерное зрение было основано на большом количестве сложных инженерных модулей, поверх которых имелся некий уровень обучения. Так, то, что было побеждено AlexNet в 2012 году, включало первый этап, некий ручной выделитель признаков, такой как SIFT [Scale-Invariant Feature Transform (SIFT), классическая техника компьютерного зрения для выделения существенных объектов на изображении] и HOG [Histogram of Oriented Gradients, другая классическая техника], и различные другие методы. Затем был второй уровень, некие среднего уровня признаки на основе ядер и прочего, и какой-то вид безнадзорного метода. И затем наверху вы помещали опорный векторный аппарат или относительно простой классификатор. И это была стандартная схема с середины 2000-х годов до 2012 года. А затем это было заменено на системы сверточных нейронных сетей, где вы не прописываете ничего руками, а просто имеете много данных и обучаете всю систему от начала до конца, это подход, который я отстаивал долгое время, но который, до тех пор, не был практичным для больших проблем.

Аналогичная история произошла в распознавании речи, где снова было много детальной инженерии для предварительной обработки данных, для извлечения массового цепструма [обратное преобразование быстрого Фурье для обработки сигналов], затем были скрытые марковские модели с предустановленной архитектурой, и так далее, смесь гауссианов. И таким же образом, как и в компьютерном зрении, была применена структура с ручным созданием фронтенда, затем некий безнадзорно обучаемый средний слой, а затем надзорный слой на верхнем уровне. И теперь все это было практически уничтожено конечными нейронными сетями. Так что я вижу что-то подобное в попытке научить систему всему, но вам нужно иметь правильное предварительное знание, правильную архитектуру, правильную структуру.

Группа самоуправляемых автомобилей, такие как Waymo и Wayve, были “немного слишком оптимистичными”, говорит он, думая, что “можно просто бросить данные и вы можете выучить практически все”. Автономные автомобили уровня 5 ADAS возможны, “Но вам придется проделать огромную работу”, и результат будет “хрупким”, как ранние модели компьютерного зрения.

ENBLE: Вы говорите о том, что некоторые люди будут пытаться инженерить то, что на данный момент не работает с глубоким обучением для применения, скажем, в промышленности, и они начнут создавать то, что станет устаревшим в компьютерном зрении?

YL: Да. И в этом частично заключается причина, почему люди, работающие над автономным вождением, были немного слишком оптимистичными в последние несколько лет, потому что у вас есть эти общие вещи, такие как сверточные сети и Трансформеры, к которым вы можете бросить данные, и они могут выучить практически все. Так что вы говорите: Окей, у меня есть решение этой проблемы. Первое, что вы делаете, это создаете демо, где машина сама ездит несколько минут, не причиняя вреда никому. И затем вы понимаете, что есть много угловых случаев, и вы пытаетесь построить кривую, показывающую, насколько я становлюсь лучше, удваивая объем обучающих данных, и вы понимаете, что никогда не достигнете этого, потому что есть много угловых случаев. И вам нужно иметь автомобиль, который будет причинять смертельные аварии реже, чем раз в 200 миллионов километров, верно? И что вы делаете? Вы идете в двух направлениях.

Первое направление заключается в том, как я могу уменьшить объем данных, необходимых для обучения моей системы? И вот тут на помощь приходит самообучение. Многие компании, занимающиеся разработкой автономных автомобилей, очень заинтересованы в самообучении, потому что это способ использовать огромные объемы учебных данных для обучения по имитации, но при этом достигать лучшей производительности за счет предварительного обучения. Пока это еще не совсем сработало, но скоро сработает. А затем есть другой вариант, который большинство компаний, находящихся на более продвинутом уровне, приняли, а именно, мы можем использовать обучение “от входа до выхода”, но есть много крайних случаев, с которыми мы не можем справиться, поэтому мы просто создаем системы, которые будут обрабатывать эти крайние случаи, и, в основном, рассматривать их как особые случаи, и жестко прописывать управление, а затем жестко прописывать множество базовых поведений для обработки специальных ситуаций. И если у вас достаточно большая команда инженеров, вы можете справиться с этим. Но это займет много времени, и в конце концов это все равно будет немного хрупким, возможно, достаточно надежным для развертывания, но с некоторой степенью хрупкости, которой не будет у автомобилей с более основанным на обучении подходом, который может появиться в будущем, потому что он может иметь некоторую степень здравого смысла и понимания о том, как работает мир.

В краткосрочной перспективе, “инженерный” подход победит – он уже побеждает. Это Waymo, Cruise и Wayve и все такое, вот что они делают. Затем есть подход самообучения, который, вероятно, поможет “инженерному” подходу продвинуться. Но затем, в долгосрочной перспективе, что может быть слишком долго для этих компаний, вероятно, будет более интегрированная автономная интеллектуальная система вроде того.

ENBLE: Мы говорим о горизонте инвестиций большинства инвесторов.

YL: Верно. Итак, вопрос в том, потеряют ли люди терпение или закончится ли у них деньги до того, как достигнется желаемый уровень производительности.

ENBLE: Есть ли что-то интересное, что можно сказать о том, почему вы выбрали некоторые элементы модели, которые вы выбрали? Потому что вы цитируете Кеннета Крейка [1943, The Nature of Explanation], и вы цитируете Брайсона и Хо [1969, Applied optimal control], и я интересуюсь, почему вы начали с этих влияний, если вы особенно верили, что эти люди сделали все правильно. Почему вы начали именно с этого?

YL: Ну, я не думаю, что они, конечно, уловили все детали. Так что Брайсон и Хо, это книга, которую я прочитал в 1987 году, когда я был постдоком у Джеффри Хинтона в Торонто. Но я знал об этой линии работы еще до того, как писал свою диссертацию, и установил связь между оптимальным управлением и обратным распространением ошибки, по сути. Если вы действительно хотите быть, знаете, еще одним Шмидхубером, вы бы сказали, что настоящими изобретателями обратного распространения ошибки были оптимальные контролеры Генри Дж. Келли, Артур Брайсон и, возможно, даже Лев Понтрягин, русский теоретик оптимального управления конца 50-х годов.

Так что они разобрались в этом, и, на самом деле, вы можете увидеть корень этого, математику под этим, в лагранжевой механике. Так что вы можете вернуться к Эйлеру и Лагранжу, на самом деле, и найти намек на это в их определении лагранжевой классической механики. Так что в контексте оптимального управления эти ребята были заинтересованы в основном в вычислении траекторий ракеты. Знаете, это была ранняя космическая эра. И если у вас есть модель ракеты, она говорит вам, вот состояние ракеты в момент времени t, и вот действие, которое я собираюсь предпринять, так что тяга и актуаторы различных видов, вот состояние ракеты в момент времени t+1.

ENBLE: Модель состояния-действия, модель значения.

YL: Верно, основа управления. Теперь вы можете смоделировать запуск вашей ракеты, представив последовательность команд, и у вас есть некоторая функция стоимости, которая представляет собой расстояние от ракеты до цели, космической станции или чего-то еще. И затем с помощью некоторого вида градиентного спуска вы можете выяснить, как я могу обновить свою последовательность действий так, чтобы моя ракета действительно приблизилась к цели как можно ближе. И это должно происходить путем обратного распространения сигналов назад во времени. И это обратное распространение, градиентное обратное распространение. Эти сигналы называются сопряженными переменными в лагранжевой механике, но на самом деле это градиенты. Так что они изобрели обратное распространение ошибки, но они не поняли, что этот принцип можно использовать для обучения многоступенчатой системы, которая может выполнять распознавание образов или что-то в этом роде. Это было понято не сразу, возможно, только в конце 70-х, начале 80-х годов, и на самом деле не было реализовано и заработало до середины 80-х годов. Хорошо, так что здесь обратное распространение действительно, так сказать, взлетело, потому что люди показали, что вот несколько строк кода, с помощью которых вы можете обучить нейронную сеть, от входа до выхода, многослойную. И это снимает ограничения перцептрона. И, да, есть связи с оптимальным управлением, но это нормально.

ENBLE: Итак, это долгий способ сказать, что эти влияния, с которыми вы начали, возвращались к методу обратного распространения ошибки, и это было важно как отправная точка для вас?

YL: Да, но я думаю, что люди немного забыли о том, что было довольно много работы над этим, знаете, в 90-х годах или даже в 80-х годах, включая работы таких людей, как Майкл Джордан [MIT отдел когнитивных наук и мозга] и других, которые уже не занимаются нейронными сетями, но идея использования нейронных сетей для управления и использования классических идей оптимального управления. Итак, вещи, такие как то, что называется модельно-предсказывающим управлением, то, что сейчас называется модельно-предсказывающим управлением, эта идея заключается в том, что вы можете симулировать или представить результат последовательности действий, если у вас есть хорошая модель системы, которую вы пытаетесь управлять, и окружающей среды. И затем, с помощью градиентного спуска, в основном – это не обучение, это умозаключение, – вы можете выяснить, какая последовательность действий будет наилучшей, чтобы минимизировать мою цель. Использование функции стоимости с латентной переменной для умозаключения, я думаю, что это то, что современные нейронные сети большого масштаба забыли. Но это была очень классическая составляющая машинного обучения в течение долгого времени. Итак, каждая байесовская сеть или графическая модель или вероятностная графическая модель использовали этот тип умозаключения. У вас есть модель, которая отражает зависимости между несколькими переменными, вам сообщают значение некоторых переменных, а затем вам нужно вывести наиболее вероятное значение остальных переменных. Это основной принцип умозаключения в графических моделях и байесовских сетях и тому подобном. И я думаю, что в основе рассуждений и планирования должно быть именно это.

ENBLE: Вы скрытый байесовец.

YL: Я небайесовец без вероятности. Я уже шутил об этом. Я действительно был на конференции NeurIPS несколько лет назад, это было, по-моему, в 2018 или 2019 году, и меня поймали на видео байесовцы, которые спросили меня, являюсь ли я байесовцем, и я сказал: «Да, я байесовец, но я небайесовец без вероятности, так сказать, байесовец на основе энергии, если хотите».

ENBLE: Что определенно звучит как что-то из Звездного пути. Вы упомянули в конце этой статьи, что потребуется многие годы усердной работы, чтобы реализовать то, что вы представляете себе. Расскажите мне о том, из чего состоит часть этой работы в данный момент.

YL: Так что, я объясняю, как тренировать и строить JEPA в статье. И критерием, который я пропагандирую, является наличие способа максимизировать информационное содержание, которое извлекают представления о входных данных. И затем второй критерий – минимизация ошибки предсказания. И если у вас есть латентная переменная в предикторе, которая позволяет предиктору быть недетерминированным, вам также нужно регуляризовать эту латентную переменную, минимизируя ее информационное содержание. Итак, у вас теперь две проблемы: как максимизировать информационное содержание вывода некоторой нейронной сети и как минимизировать информационное содержание латентной переменной? И если вы не делаете эти две вещи, система рушится. Она не учится ничем интересным. Она придает нулевую энергию всему, что-то вроде того, что не является хорошей моделью зависимости. Это проблема предотвращения обрушения, о которой я говорю.

И я говорю, что среди всех вещей, которые когда-либо делали люди, есть только две категории методов для предотвращения обрушения. Одно это контрастные методы, а другое – регуляризованные методы. Итак, эта идея максимизации информационного содержания представлений двух входов и минимизации информационного содержания латентной переменной относится к регуляризованным методам. Но много работы в этих совместных встраивающих архитектурах используют контрастные методы. Фактически, они, вероятно, наиболее популярны в настоящее время. Итак, вопрос заключается в том, как измерить информационное содержание таким образом, чтобы его можно было оптимизировать или минимизировать? И вот тут все становится сложным, потому что мы на самом деле не знаем, как измерять информационное содержание. Мы можем приближенно оценивать его, мы можем верхнюю оценку, мы можем делать подобные вещи. Но они на самом деле не измеряют информационное содержание, которое, на самом деле, в некотором смысле, даже не определено.

ENBLE: Это не Закон Шеннона? Это не теория информации? У вас есть определенное количество энтропии, хорошей энтропии и плохой энтропии, и хорошая энтропия – это символьная система, которая работает, а плохая энтропия – это шум. Разве все не решено по Шеннону?

YL: Вы правы, но здесь есть серьезный недостаток. Вы правы в том смысле, что если у вас есть данные, поступающие к вам, и вы каким-то образом дискретизируете данные в отдельные символы, а затем измеряете вероятность каждого из этих символов, то максимальное количество информации, передаваемой этими символами, равно сумме по возможным символам Pi log Pi, верно? Где Pi – вероятность символа i – это энтропия Шеннона. [Закон Шеннона обычно формулируется как H = – ∑ pi log pi.]

Вот проблема: что такое Pi? Просто, когда количество символов небольшое, и символы выбираются независимо друг от друга. Когда символов много и есть зависимости, это очень сложно. Так что если у вас есть последовательность битов и вы предполагаете, что биты независимы друг от друга, и вероятности одинаковы для нуля и единицы или еще чего-то, тогда вы можете легко измерить энтропию, без проблем. Но если то, что приходит к вам, является высокоразмерными векторами, например, видеокадрами или чем-то подобным, то что такое Pi? Что за распределение? Сначала вам нужно дискретизировать это пространство, которое является высокоразмерным непрерывным пространством. Вы не знаете, как правильно дискретизировать это. Вы можете использовать k-средние и тому подобное. Это то, что делают люди при видеокомпрессии и сжатии изображений. Но это только приближение. А затем вам нужно сделать предположения о независимости. Так что ясно, что в видео последовательные кадры не являются независимыми. Есть зависимости, и этот кадр может зависеть от другого кадра, который вы видели час назад, который был изображением того же объекта. Так что вы не можете измерить Pi. Чтобы измерить Pi, вам нужна система машинного обучения, которая научится предсказывать. Так что вы возвращаетесь к предыдущей проблеме. Так что вы можете только приближенно измерить информацию, по сути.

“Вопрос заключается в том, как точно измерить содержание информации таким образом, чтобы его можно было оптимизировать или минимизировать?” – говорит Ле Кун. “И вот здесь все становится сложным, потому что мы на самом деле не знаем, как измерить содержание информации”. Лучшее, что удалось сделать до сих пор, – это найти прокси-показатель, который “достаточно хорош для поставленной задачи”.

Позвольте привести более конкретный пример. Один из алгоритмов, с которым мы играли, и о котором я говорил в статье, называется VICReg, регуляризация дисперсии-инвариантности-ковариации. Он описан в отдельной статье, опубликованной на конференции ICLR, и ранее был выложен на arXiv примерно год назад, в 2021 году. Идея заключается в максимизации информации. И на самом деле эта идея возникла из нашей предыдущей статьи, называемой Barlow Twins. Вы максимизируете содержание информации вектора, получаемого из нейронной сети, предполагая, что единственной зависимостью между переменными является корреляция, линейная зависимость. Так что если вы предполагаете, что единственная возможная зависимость между парами переменных или между переменными в вашей системе – это корреляции между парами значений, что является крайне грубым приближением, то вы можете максимизировать содержание информации, выходящей из вашей системы, убедившись, что все переменные имеют ненулевую дисперсию – скажем, дисперсию один, не имеет значения, какая она. – и затем обратно коррелировать их, тот же процесс, который называется выравниванием, это тоже не ново. Проблема заключается в том, что между группами переменных или даже просто между парами переменных может быть крайне сложная зависимость, которая не является линейной зависимостью, и она не проявляется в корреляциях. Так что, например, если у вас есть две переменные, и все точки этих двух переменных выстраиваются в виде спирали, между этими двумя переменными есть очень сильная зависимость, верно? Но на самом деле, если вы вычислите корреляцию между этими двумя переменными, они не будут коррелировать. Вот пример, когда содержание информации этих двух переменных на самом деле очень мало, это только одна величина, потому что это ваше положение на спирали. Они декоррелированы, поэтому вы думаете, что у вас есть много информации, получаемой из этих двух переменных, когда на самом деле нет, вы можете предсказать одну переменную по другой, по сути. Это показывает, что у нас есть только очень приближенные способы измерения содержания информации.

ENBLE: И вот это то, над чем вы сейчас работаете? Это более общий вопрос о том, как мы знаем, когда мы максимизируем и минимизируем содержание информации?

YL:  Или насколько прокси, которыми мы пользуемся для этого, достаточно хорош для поставленной задачи. Фактически, мы делаем это все время в машинном обучении. Функции стоимости, которые мы минимизируем, никогда не являются теми, которые мы на самом деле хотим минимизировать. Так, например, вы хотите выполнить классификацию, хорошо? Функция стоимости, которую вы хотите минимизировать при обучении классификатора, – это количество ошибок, которые классификатор допускает. Но это не дифференцируемая, ужасная функция стоимости, которую нельзя минимизировать, потому что, знаете, вы измените веса вашей нейронной сети, ничего не изменится, пока один из этих образцов не изменит свое решение, а затем произойдет скачок в ошибке, положительный или отрицательный.

ENBLE: Итак, у вас есть прокси, который является целевой функцией, и вы можете с уверенностью сказать, что мы точно можем проталкивать градиенты этой вещи.

YL: Верно. Люди используют эту функцию потерь перекрестной энтропии или SOFTMAX, у нее есть несколько названий, но это одно и то же. И это, в основном, гладкое приближение количества ошибок, которые система делает, причем сглаживание осуществляется путем учета оценки, которую система дает каждой из категорий.

ENBLE: Есть ли что-то, что мы не рассмотрели, но вы бы хотели рассмотреть?

YL: Возможно, стоит подчеркнуть основные моменты. Я считаю, что ИИ-системы должны быть способны рассуждать, и процесс, который я предлагаю, заключается в минимизации некоторой целевой функции относительно некоторой скрытой переменной. Это позволяет системам планировать и рассуждать. Я считаю, что мы должны отказаться от вероятностного подхода, потому что он неразрешим, когда мы хотим учитывать зависимости между высокомерными непрерывными переменными. И я предлагаю отказаться от генеративных моделей, потому что системе придется уделять слишком много ресурсов для предсказания вещей, которые слишком сложно предсказать и, возможно, потреблять слишком много ресурсов. И это практически все. Вот основные сообщения, если хотите. И вот общая архитектура. Затем есть эти размышления о природе сознания и роли конфигуратора, но это действительно спекуляции.

ENBLE: Мы поговорим об этом в следующий раз. Я собирался спросить вас, как вы проводите эту оценку? Но, наверное, вы пока еще не очень близки к этому?

YL: Не обязательно так далеко, в какой-то упрощенной версии можно делать то, что делают все в контроле или обучении с подкреплением, то есть обучать модель игре в Atari или в какой-то другой игре, которая имеет некоторую степень неопределенности.

ENBLE: Спасибо за ваше время, Янн.