Эта новая технология может сдуть ГПТ-4 и все подобное ему

Эта новая технология сможет побороть ГПТ-4 и аналогичные ему системы

Hyena

Иерархия Hyena от Stanford и MILA – это технология, связывающая элементы данных, будь то слова или пиксели в цифровом изображении. Технология может достигать такой же точности в задачах искусственного интеллекта, как существующий “золотой стандарт” для больших языковых моделей – механизм “внимания”, но при использовании на порядок меньшей вычислительной мощности.

При всей суете вокруг чатбота AI программы, известной как ChatGPT, от OpenAI, и ее преемника, GPT-4, программы в конечном счете являются всего лишь приложениями. И, как и все приложения, у них есть технические ограничения, которые могут сделать их производительность неоптимальной. 

В статье, опубликованной в марте, ученые по искусственному интеллекту из Стэнфордского университета и института MILA в Канаде предложили технологию, которая может быть намного более эффективной, чем GPT-4 – или что-то в этом роде – при обработке огромного объема данных и преобразовании их в ответ. 

Также: Эти бывшие сотрудники Apple хотят заменить смартфоны этим гаджетом

Известная как Hyena, эта технология может достигать эквивалентной точности в тестах, таких как вопросно-ответные, при использовании только части вычислительной мощности. В некоторых случаях код Hyena способен обрабатывать объемы текста, которые делают средства, использующие технологию GPT, просто неспособными справиться и выходят из строя. 

“Наши многообещающие результаты на масштабе суб-миллиарда параметров позволяют предположить, что внимание может быть не все, что нам нужно”, пишут авторы. Эта замечание отсылает к названию исторического отчета AI 2017 года, ‘Внимание – все, что вам нужно‘. В этой статье ученый Гугл Ашиш Васвани и его коллеги представили миру программу искусственного интеллекта Google Transformer. Transformer стал основой для всех последующих больших языковых моделей.

Но у Transformer есть большой недостаток. Он использует то, что называется “вниманием”, где программа берет информацию из одной группы символов, таких как слова, и перемещает эту информацию в новую группу символов, такую как ответ, который вы видите от ChatGPT. 

Также: Что такое GPT-4? Все, что вам нужно знать

Эта операция внимания – неотъемлемый инструмент всех больших языковых программ, включая ChatGPT и GPT-4 – обладает “квадратичной” вычислительной сложностью (Wiki “время выполнения” вычислений). Эта сложность означает, что время, требуемое ChatGPT, чтобы дать ответ, увеличивается в квадрате от объема данных, поданных на вход. 

На некотором этапе, если данных слишком много – слишком много слов в подсказке или слишком много цепочек разговора в течение многих часов общения с программой – либо программа начинает тормозить при предоставлении ответа, либо для ускорения работы ей нужно предоставить все больше GPU-чипов, что приводит к росту потребностей в вычислении.

В новой статье ‘Иерархия Hyena: К более крупным сверточным языковым моделям’, размещенной на сервере предварительной печати arXiv, ведущий автор Майкл Поли из Стэнфорда и его коллеги предлагают заменить функцию внимания Transformer на что-то суб-квадратичное, например, Hyena.

Также: Что такое Auto-GPT? Все, что нужно знать о следующем мощном инструменте искусственного интеллекта

Авторы не объясняют название, но можно предположить несколько причин, по которым программа “Hyena” получила такое имя. Гиены – это животные, которые живут в Африке и могут охотиться на многие мили. В каком-то смысле, очень мощная языковая модель может быть подобна гиене, охотящейся на протяжении многих миль, чтобы найти пищу.

Но авторы действительно обеспокоены “иерархией”, как подразумевает название, и семьи гиен имеют строгую иерархию, в рамках которой члены местного племени гиен имеют различные уровни ранга, которые устанавливают доминирование. В некотором аналогичном стиле программа Hyena применяет множество очень простых операций, как вы увидите, снова и снова, так что они объединяются и формируют своего рода иерархию обработки данных. Именно комбинаторный элемент дает программе ее имя Hyena.

Кроме того: Бен Герцель говорит, что будущие версии ChatGPT могут заменить большую часть работы людей

Среди авторов статьи – выдающиеся деятели мира искусственного интеллекта, такие как Йошуа Бенгио, научный директор MILA, получивший премию Тьюринга 2019 года, эквивалент Нобелевской премии в области вычислительной техники. Бенгио получил заслуги за разработку механизма внимания задолго до того, как Васвани и его команда адаптировали его для Трансформера.

Среди авторов также присутствует старший преподаватель компьютерных наук Стэнфордского университета Кристофер Рэ, который в последние годы помогает продвигать понятие ИИ в качестве “программного обеспечения 2.0”.

Для поиска субквадратической альтернативы механизму внимания Поли и его команда приступили к изучению того, как работает механизм внимания, чтобы выяснить, можно ли это делать более эффективно.

Недавняя практика в области искусственного интеллекта, известная как механистическая интерпретация, приводит к пониманию того, что происходит на глубоком уровне внутри нейронной сети, внутри вычислительных “схем” внимания. Можно представить себе это как разбор программного обеспечения так же, как разбираются часы или компьютер, чтобы увидеть его составные части и понять, как оно работает.

Кроме того: Я использовал ChatGPT, чтобы написать одну и ту же программу на 12 популярных языках программирования. Вот как она справилась

Одной из работ, на которые ссылается Поли и его команда, являются серия экспериментов исследователя Нельсона Эльхейджа из стартапа по искусственному интеллекту Антропик. В этих экспериментах разбираются программы Трансформера, чтобы узнать, что делает механизм внимания.

По сути, Эльхейдж и его команда обнаружили, что механизм внимания функционирует на самом базовом уровне с помощью очень простых операций компьютера, таких как копирование слова из последнего входа и вставка его в вывод.

Например, если вы начнете вводить предложение из книги о Гарри Поттере, например “Мистер Дурсль был директором фирмы под названием Граннингс…”, просто набрав “Д-у-р-с”, начало имени, это может быть достаточно, чтобы программа автоматически дополнила имя “Дурсль”, потому что она видела это имя в предыдущем предложении из “Камня Философии”. Система способна скопировать из памяти запись символов “л-е-й” для автозаполнения предложения.

Кроме того: ChatGPT больше похож на “инопланетный интеллект” чем на человеческий мозг, говорит футуролог.

Однако операция внимания сталкивается с проблемой квадратичной сложности при увеличении количества слов. Больше слов требуют больше так называемых “весов” или параметров, чтобы выполнить операцию внимания.

Как пишут авторы: “Трансформерный блок – мощный инструмент для моделирования последовательностей, но он не без своих ограничений. Одно из наиболее заметных – вычислительная стоимость, которая растет стремительными темпами с увеличением длины исходной последовательности”.

Хотя технические подробности ChatGPT и GPT-4 не были раскрыты OpenAI, предполагается, что они могут иметь триллион или более таких параметров. Для работы с этими параметрами требуются больше графических процессоров Nvidia, что приводит к увеличению затрат на вычисления.

Для снижения вычислительных затрат на квадратичные вычисления, Поли и его команда заменяют операцию внимания на то, что называется “сверткой”, которая является одной из самых старых операций в программы искусственного интеллекта, разработанных в 1980-х годах. Свертка – это просто фильтр, который может выделять элементы в данных, будь то пиксели на цифровом фото или слова в предложении. 

Кроме того: Успех ChatGPT может побудить к опасному переходу к тайне в искусственном интеллекте, говорит пионер искусственного интеллекта Бенджио

Поли и его команда проводят своеобразный микс: они используют работы исследователя Стэнфордского университета Дэниела Фу и его команды, чтобы применить сверточные фильтры к последовательностям слов, а также комбинируют это с работой ученого Давида Ромеро и его коллег из Врийе Университета Амстердама, которая позволяет программе изменять размер фильтра “на лету”. Возможность гибко адаптироваться снижает количество дорогостоящих параметров или весов, которыми должна обладать программа. 

Hyena – это комбинация фильтров, которые дополняют друг друга, не приводя к значительному увеличению параметров нейронной сети.

Результатом такого микса является возможность применять свертку к неограниченному количеству текстов без необходимости увеличения количества параметров для копирования все большего объема данных. Это “безвнимательный” подход, как отмечают авторы. 

“Операторы Hyena способны значительно уменьшить разрыв в качестве по сравнению с вниманием на масштабе”, пишут Поли и его команда, “достигая сходной неоднозначности и результативности с меньшим вычислительным бюджетом”. Сложность – это технический термин, относящийся к тому, насколько сложный ответ генерируется программой, такой как ChatGPT.

Для демонстрации возможностей Hyena авторы тестируют программу на ряде задач, определяющих, насколько хороша языковая программа в различных задачах искусственного интеллекта.

Также: Создатель Халф-Лайф заявляет, что “в программировании происходят странные новые вещи”

Одной из задач является “The Pile”, набор из 825 гигабайт текстов, собранных в 2020 году исследовательской компанией Eleuther.ai. Тексты собраны из “высококачественных” источников, таких как PubMed, arXiv, GitHub, Офис патентов США и других, чтобы источники имели более строгую форму, чем просто обсуждения на Reddit, например.

Основной задачей для программы было сгенерировать следующее слово при условии нескольких вновь поступивших предложений в качестве ввода. Программа Hyena смогла достичь эквивалентных результатов с оригинальной программой GPT от OpenAI 2018 года с 20% меньшим количеством операций – “первая внимание-свободная архитектура свертки, соответствующая качеству GPT” с меньшим числом операций, пишут исследователи. 

Hyena смогла достичь эквивалентных результатов с программой GPT от OpenAI с 20% меньшим количеством операций. 

Затем авторы протестировали программу на задачах логического мышления, известных как SuperGLUE, представленных в 2019 году учеными из Университета Нью-Йорка, Facebook AI Research, Google DeepMind и Университета Вашингтона. 

Например, при заданном предложении “Мое тело бросало тень на траву” и двух вариантах причины: “восход солнца” или “трава была подстрижена”, и спросив, какой из них выбрать, программа должна сгенерировать “восход солнца” в качестве правильного вывода. 

В нескольких задачах программа Hyena достигала результатов, сопоставимых или близких к версии GPT, при этом обучаясь на менее чем половине объема тренировочных данных.

Кроме того: Как использовать новые возможности Bing (и чем это отличается от ChatGPT)

Еще более интересно, что произошло, когда авторы увеличили длину используемых фраз в качестве входных данных: большее количество слов приводило к большему улучшению производительности. При 2048 «токенах», которые можно рассматривать как слова, Hyena требуется меньше времени для выполнения задачи по языковому анализу, чем подход на основе внимания.

Как утверждают авторы, при 64000 токенах «ускорение Hyena достигает 100 раз» – стоикратное улучшение производительности.

Poli и его команда утверждают, что они не просто попробовали другой подход с Hyena, они «нарушили квадратичный барьер», вызвав качественное изменение в том, насколько сложно программе вычислять результаты.

Oни указывают на потенциально значительные изменения качества в долгосрочной перспективе: «Преодоление квадратичного барьера – это ключевой шаг к новым возможностям глубокого обучения, таким как использование целых учебников в качестве контекста, создание полноформатной музыки или обработка изображений с гигапиксельной разрешающей способностью», пишут они.

Возможность Hyena использовать фильтр, который эффективно простирается на тысячи и тысячи слов, означает, что практически нет ограничений для «контекста» запроса к языковой программе. Это позволяет восстановить элементы текстов или предыдущих разговоров, далеких от текущей темы разговора – точно так же, как гиены охотятся на расстоянии нескольких километров.

Также: Лучшие чат-боты на искусственном интеллекте: ChatGPT и другие интересные альтернативы для попробовать

«Операторам Hyena не ограничен контекст», пишут они. «А именно, они не имеют искусственных ограничений, таких как локальность, и могут установить зависимости длинного диапазона между любыми элементами [ввода].»

Более того, помимо слов программа может быть применена к данным разных модальностей, таким как изображения, возможно, видео и звуки.

Важно отметить, что программа Hyena, представленная в статье, является небольшой по сравнению с GPT-4 или даже GPT-3. В то время как у GPT-3 175 миллиардов параметров или весов, у самой большой версии Hyena всего лишь 1,3 миллиарда параметров. Поэтому пока неизвестно, насколько хорошо Hyena покажет себя в полном прямом сравнении с GPT-3 или 4.

Однако, если достигнутая эффективность сохранится для более крупных версий программы Hyena, она может стать новой парадигмой, такой же распространенной, каким было внимание за последнее десятилетие.

Как заключают Поли и его команда: «Более простые субквадратные конструкции, такие как Hyena, основанные на наборе простых принципов и оцениваемые по показателям механистической интерпретируемости, могут стать основой для эффективных больших моделей».