«Открытый исходный код искусственного интеллекта с вытягиванием превосходит ChatGPT утверждает документ от Nvidia»

Нвидиа утверждает, что открытый исходный код превосходит ChatGPT.

Недавнее исследование показало, что открытая система искусственного интеллекта с использованием аугментации поиска может превзойти собственные модели чат-ботов, такие как GPT-3.5 от OpenAI.

Статья, опубликованная 4 октября исследователями Nvidia, сравнивает различные техники работы с длинным контекстом в масштабных моделях языка (LLM) — ключевых алгоритмах современного разговорного искусственного интеллекта. Одним из методов является простое расширение окна контекста, позволяющее LLM прямо «читать» больше токенов текста в качестве входных данных и учитывать его при создании своего вывода. Другой подход использует поиск для предоставления LLM только наиболее релевантного контекста из большой базы данных.

Их лучший подход объединяет оба метода — модель с открытым исходным кодом LLaMA с 70 миллиардами параметров и расширенным окном контекста из 32 000 токенов, дополненным извлечением соответствующих фрагментов из корпуса. Извлекатель предоставляет контекст по требованию, вместо того чтобы LLM хранил все, что делает его более эффективным.

На наборе из 7 задач по ответу на вопросы и резюмированию больших текстов этот гибридный LLaMA с аугментацией поиска достиг среднего балла 43.6, превосходя GPT-3.5-turbo, которая позволяет использовать 16 000 токенов контекста (средний балл 42.8). Он сравнялся с массштабной собственной моделью Davinci от OpenAI с 175 миллиардами параметров на подмножестве из 4 задач.

Авторы утверждают, что извлечение приносит значительные преимущества, даже когда у очень больших LLM уже есть расширенные окна контекста. Они обнаружили, что LLaMA с извлечением из 4 000 токенов работает так же, как LLaMA без извлечения из 16 000 токенов, при этом работающий гораздо быстрее из-за меньшего объема входных данных.

Исследователи считают, что можно достичь производительности, сравнимой с закрытыми коммерческими системами, такими как ChatGPT, путем комбинирования существующих моделей с открытым исходным кодом, таких как LLaMA, с техниками извлечения. Полученные результаты свидетельствуют о том, что интеграция извлечения и длинного контекста представляет собой многообещающее направление для создания более продвинутого разговорного искусственного интеллекта с открытым исходным кодом.

В статье представлены доказательства того, что с правильными алгоритмами открытый искусственный интеллект может соперничать или превосходить собственные чат-боты. Полученные результаты могут повлиять на то, как будущие системы искусственного интеллекта интегрируют модели, способные работать с длинными текстовыми входами с дополнительной релевантной информацией, и указывают на извлечение как ключевой элемент вместе с расширением длины контекста.

Изображение: Markus Winkler; Pexels; Спасибо!