Как Google и OpenAI побудили GPT-4 предоставлять более своевременные ответы

exclamation-gettyimages-171158764

Одна из характерных особенностей популярных программ генеративного искусственного интеллекта, таких как ChatGPT, заключается в том, что у них есть ограничение по времени в терминах усвоенных ими фактов. Например, недавно OpenAI обновила свою программу GPT-4, чтобы она имела доступ к данным о событиях, произошедших до апреля 2023 года; до этого обновления инструмент обучался только данным, накопленным до 2021 года.

Однако исследователи в области искусственного интеллекта работают над способами обеспечения надежного доступа генеративных программ искусственного интеллекта к постоянно меняющимся данным о своевременных и насущных вопросах, таких как, «Какой самый последний студийный альбом группы King Gizzard?» (Ответ: The Silver Cord).

Также: ChatGPT теперь более информирован о свежих событиях

В этом духе Google и OpenAI в этом месяце опубликовали совместное усилие, называемое FreshLLM, которое заставляет GPT-4 использовать информацию, извлеченную из поисковых запросов Google. Основой FreshLLM является новый метод способствования работе лингвистических моделей, называемый «FreshPrompt», в котором содержатся результаты поиска в поисковой системе.

Включая во входное предложение для GPT-4 лучшие результаты поиска Google и затем показывая действительный ответ на запрос, основанный на этих результатах, GPT-4 вдохновляется использовать данные из интернет-поиска для создания результата. Это значительно улучшает программу при ответе на вопросы, связанные с актуальной информацией.

«FreshPrompt значительно повышает производительность по сравнению с подходами, основанными на поисковых движках», пишет ведущий автор Ту Ву от Google и его коллеги в научной работе «FreshLLMs: Refreshing large language models with search engine augmentation» (опубликовано на сервере предварительных печатных материалов arXiv).

Техника FreshPrompt, однако, является только частью истории. Чтобы проверить, как справляются GPT-4 и конкурирующие программы при использовании веб-данных, Ву и его коллеги составили список вопросов, которые представляли бы вызов с актуальными фактами из реального мира.

Также: Ученые предупреждают, что даже с предосторожностями генеративный искусственный интеллект все равно может стать злонамеренным

Для этого команда – с помощью коллег и фрилансеров онлайн – составила вопросы о явлениях, происходящих в мире, которые были созданы таким образом, чтобы включать «свежие знания» – то есть, «знания, которые недавно изменились или новые события» – и также были заданы вопросы, «которые реальный человек мог бы набрать в поисковике».

Примеры некоторых из 600 вопросов, созданных учеными от Google и OpenAI, для тестирования знаний генеративного искусственного интеллекта о быстро меняющихся фактах.

Они составили 600 вопросов, названных FreshAQ, которые охватывают все, начиная от неизменных – «Входит ли роман Вирджинии Вулф о семье Рамсей в общественное достояние в Соединенных Штатах?», – и до быстроменяющихся – например, «Какой самый последний фильм Брэда Питта в качестве актера?» Большинство, хотя и не все ответы, взяты из Википедии.

Код GitHub для проекта ссылается на таблицу Google Docs со всей базой данных FreshQA вопросов. Чтение списка из 600 вопросов – это мгновенное погружение в море изложения тривиальных сведений. «Какой автор имел наибольшее количество бестселлеров в Соединенных Штатах в прошлом году, согласно Publishers Weekly?» (Ответ: Колин Хувер.) «Сколько аккаунтов превысило отметку в 100 миллионов подписчиков в Instagram?» (Ответ: 38).

Также: AWS представляет чат-бот на основе искусственного интеллекта для предприятий – вот как попробовать его бесплатно

Авторы также составили ложные вопросы на основе ложных предпосылок, поскольку нужно знать, что то, что утверждается в самом вопросе, на самом деле не является правдой, например, “В каком году первый человек приземлился на Марсе?”

Предсказуемо GPT-4 и другие большие модели языка, такие как Pathways Language Model от Google, PaLM, испытывают трудности с вопросами FreshQA, и представляются лучше, когда им предоставляется помощь FreshPrompt. “Главным образом, это связано с отсутствием доступа к актуальной информации, так как они производят ‘устаревшие’ ответы”, отмечают Ву и его команда. Многие программы откажутся предоставить ответ.

Добавление FreshPrompt значительно повышает точность FreshQA на GPT-4. Прием “радикально уменьшает наличие устаревших и выдуманных ответов”, добавляют они. При вопросах о фактах, которые выходят за 2022 год, точность GPT-4 повышается с ужасающих 8% до 70.2%, говорят они. При всех вопросах FreshQA, включая старые факты, точность повышается с 28.6% до 75.6%.

В случае с вопросами на основе ложных предпосылок, разница очевидна. Языковой модели необходимо утверждать, что вопрос является ложным, чтобы получить заслуженную оценку. Используя FreshPrompt, GPT-4 повысил точность в вопросах с ложными предпосылками с 33.9% до 71%. Естественно, это означает, что GPT-4 может быть обманут и принять вопрос на основе ложной предпосылки почти в трети случаев.

Также: Обманывает ли нас искусственный интеллект? Эти исследователи создали своего рода LLM детектор лжи, чтобы выяснить это

Авторы обнаружили, что FreshPrompt удалось превзойти другие исследования, также использующие поисковые запросы для “расширения” языковых моделей. Включая, например, Perplexity.ai, комбинацию GPT-3.5 и поиска Bing. Средняя точность на Perplexity для всех вопросов FreshQA составляла 52.2%, что немного лучше случайного угадывания. Вновь, для GPT-4, используя FreshPrompt, авторы смогли достичь точности 75.6%.

Они отмечают, что одно из важных отличий заключается в количестве доказательств, включенных в FreshPrompt из поиска в Интернете. В общем случае, “наши результаты свидетельствуют о том, что количество полученных доказательств для каждого вопроса является самым важным фактором для достижения наивысшей точности.”

Авторы отмечают, что перед ними стоят несколько реальных вызовов. Во-первых, обновление FreshPrompt требует много времени, так как требуется проверить актуальность ответов. Команда выразила надежду на то, что сообщество с открытым исходным кодом сможет помочь в этом, или что обновление может быть автоматизировано с помощью генеративного искусственного интеллекта. В настоящее время, команда Ву обязуется обновлять FreshQA вовремя.


Открытая информация: Тиернан Рэй не владеет акциями ни в одной из описанных им компаний, и между Tiernan Ray LLC, издателем The Technology Letter, и ни одной из рассмотренных компаний нет деловых отношений.