Как Google и OpenAI побудили GPT-4 предоставлять более своевременные ответы
Одна из характерных особенностей популярных программ генеративного искусственного интеллекта, таких как ChatGPT, заключается в том, что у них есть ограничение по времени в терминах усвоенных ими фактов. Например, недавно OpenAI обновила свою программу GPT-4, чтобы она имела доступ к данным о событиях, произошедших до апреля 2023 года; до этого обновления инструмент обучался только данным, накопленным до 2021 года.
Однако исследователи в области искусственного интеллекта работают над способами обеспечения надежного доступа генеративных программ искусственного интеллекта к постоянно меняющимся данным о своевременных и насущных вопросах, таких как, «Какой самый последний студийный альбом группы King Gizzard?» (Ответ: The Silver Cord).
Также: ChatGPT теперь более информирован о свежих событиях
В этом духе Google и OpenAI в этом месяце опубликовали совместное усилие, называемое FreshLLM, которое заставляет GPT-4 использовать информацию, извлеченную из поисковых запросов Google. Основой FreshLLM является новый метод способствования работе лингвистических моделей, называемый «FreshPrompt», в котором содержатся результаты поиска в поисковой системе.
Включая во входное предложение для GPT-4 лучшие результаты поиска Google и затем показывая действительный ответ на запрос, основанный на этих результатах, GPT-4 вдохновляется использовать данные из интернет-поиска для создания результата. Это значительно улучшает программу при ответе на вопросы, связанные с актуальной информацией.
- Spotify Wrapped вернулся Что вы слушали в 2023 году?
- Получите праздничные цены на более чем 200 часов обучения в области...
- Я проверил Doritos Silent и приложение, работающее на базе искусств...
«FreshPrompt значительно повышает производительность по сравнению с подходами, основанными на поисковых движках», пишет ведущий автор Ту Ву от Google и его коллеги в научной работе «FreshLLMs: Refreshing large language models with search engine augmentation» (опубликовано на сервере предварительных печатных материалов arXiv).
Техника FreshPrompt, однако, является только частью истории. Чтобы проверить, как справляются GPT-4 и конкурирующие программы при использовании веб-данных, Ву и его коллеги составили список вопросов, которые представляли бы вызов с актуальными фактами из реального мира.
Для этого команда – с помощью коллег и фрилансеров онлайн – составила вопросы о явлениях, происходящих в мире, которые были созданы таким образом, чтобы включать «свежие знания» – то есть, «знания, которые недавно изменились или новые события» – и также были заданы вопросы, «которые реальный человек мог бы набрать в поисковике».
Они составили 600 вопросов, названных FreshAQ, которые охватывают все, начиная от неизменных – «Входит ли роман Вирджинии Вулф о семье Рамсей в общественное достояние в Соединенных Штатах?», – и до быстроменяющихся – например, «Какой самый последний фильм Брэда Питта в качестве актера?» Большинство, хотя и не все ответы, взяты из Википедии.
Код GitHub для проекта ссылается на таблицу Google Docs со всей базой данных FreshQA вопросов. Чтение списка из 600 вопросов – это мгновенное погружение в море изложения тривиальных сведений. «Какой автор имел наибольшее количество бестселлеров в Соединенных Штатах в прошлом году, согласно Publishers Weekly?» (Ответ: Колин Хувер.) «Сколько аккаунтов превысило отметку в 100 миллионов подписчиков в Instagram?» (Ответ: 38).
Также: AWS представляет чат-бот на основе искусственного интеллекта для предприятий – вот как попробовать его бесплатно
Авторы также составили ложные вопросы на основе ложных предпосылок, поскольку нужно знать, что то, что утверждается в самом вопросе, на самом деле не является правдой, например, “В каком году первый человек приземлился на Марсе?”
Предсказуемо GPT-4 и другие большие модели языка, такие как Pathways Language Model от Google, PaLM, испытывают трудности с вопросами FreshQA, и представляются лучше, когда им предоставляется помощь FreshPrompt. “Главным образом, это связано с отсутствием доступа к актуальной информации, так как они производят ‘устаревшие’ ответы”, отмечают Ву и его команда. Многие программы откажутся предоставить ответ.
Добавление FreshPrompt значительно повышает точность FreshQA на GPT-4. Прием “радикально уменьшает наличие устаревших и выдуманных ответов”, добавляют они. При вопросах о фактах, которые выходят за 2022 год, точность GPT-4 повышается с ужасающих 8% до 70.2%, говорят они. При всех вопросах FreshQA, включая старые факты, точность повышается с 28.6% до 75.6%.
В случае с вопросами на основе ложных предпосылок, разница очевидна. Языковой модели необходимо утверждать, что вопрос является ложным, чтобы получить заслуженную оценку. Используя FreshPrompt, GPT-4 повысил точность в вопросах с ложными предпосылками с 33.9% до 71%. Естественно, это означает, что GPT-4 может быть обманут и принять вопрос на основе ложной предпосылки почти в трети случаев.
Авторы обнаружили, что FreshPrompt удалось превзойти другие исследования, также использующие поисковые запросы для “расширения” языковых моделей. Включая, например, Perplexity.ai, комбинацию GPT-3.5 и поиска Bing. Средняя точность на Perplexity для всех вопросов FreshQA составляла 52.2%, что немного лучше случайного угадывания. Вновь, для GPT-4, используя FreshPrompt, авторы смогли достичь точности 75.6%.
Они отмечают, что одно из важных отличий заключается в количестве доказательств, включенных в FreshPrompt из поиска в Интернете. В общем случае, “наши результаты свидетельствуют о том, что количество полученных доказательств для каждого вопроса является самым важным фактором для достижения наивысшей точности.”
Авторы отмечают, что перед ними стоят несколько реальных вызовов. Во-первых, обновление FreshPrompt требует много времени, так как требуется проверить актуальность ответов. Команда выразила надежду на то, что сообщество с открытым исходным кодом сможет помочь в этом, или что обновление может быть автоматизировано с помощью генеративного искусственного интеллекта. В настоящее время, команда Ву обязуется обновлять FreshQA вовремя.
Открытая информация: Тиернан Рэй не владеет акциями ни в одной из описанных им компаний, и между Tiernan Ray LLC, издателем The Technology Letter, и ни одной из рассмотренных компаний нет деловых отношений.