ChatGPT и я сыграли в игру в 20 вопросов, и вот что произошло

ChatGPT и я сыграли в игру в 20 вопросов.

Я недавно просматривал Stack Exchange (как это обычно делается), и наткнулся на интересную ветку о ChatGPT и игре “20 вопросов”. Автор исходного поста спросил, почему ChatGPT терпит неудачу в такой простой игре. Обсуждение продолжалось довольно долго, переходя в различные побочные направления (как это обычно бывает), и ссылалось на научную статью и пост в Medium, в которых был проведен глубокий анализ процесса.

Это заставило меня задуматься. Насколько успешно ChatGPT справится с такой игрой? Я решил сыграть в точно такую же игру с помощью GPT-3.5 и GPT-4. В первом запуске обе версии отошли на похожие стороны, но GPT-4 смог угадать.

Также: Лучшие AI-чатботы 2023 года: ChatGPT и альтернативы

Я начал с простого запроса для каждой версии:

Вы знаете, как играть в “20 вопросов”?
Закажите свой комплект Nintendo Switch Mario Kart 8 Deluxe до празд...
Лучшие игры в Xbox Game Pass Здесь Starfield
Starfield – это причина подписаться на Xbox Game Pass

Когда обе версии ответили утвердительно, я запустил игры одновременно в отдельных вкладках и сеансах. Объект, о котором я думал, был почтовым ящиком. Я оставил некоторую неопределенность относительно того, является ли он ящиком, прикрепленным к дому, или свободно стоящим на улице. Пока ИИ выбрал “почтовый ящик”, все было хорошо.

20 вопросов с GTP-3.5

Я начал с этого начального запроса:

Вы задаете вопросы. Я думаю о чем-то.

Он ответил следующим вопросом: “Давайте начнем! Является ли то, о чем вы думаете, материальным объектом, с которым можно физически взаимодействовать?”

Я ответил, и также дал ему одно дополнительное указание: пронумеровать свои ответы. Это не сработало хорошо. По мере того, как мы проходили через вопросы, ИИ назвал второй вопрос “1”. Когда я исправил это, бот задал новый вопрос и назвал его “1”. В конце концов, он задал 21 вопрос, думая, что задал всего 20.

Также: Как эта простая корректировка запроса в ChatGPT может помочь улучшить создание AI-контента

Самая интересная деталь заключалась в следующем вопросе, который был вторым заданным им вопросом: “Является ли то, о чем вы думаете, обычно найденным внутри помещений?”

Когда я сказал “Нет”, чат-бот продолжил задавать больше вопросов. Вот они. Некоторые могут быть связаны с предметами внутри помещений, такими как ручка или карандаш, но мы также используем пишущие инструменты на улице. Вот полный набор вопросов, которые он задал:

Является ли то, о чем вы думаете, материальным объектом, с которым можно физически взаимодействовать?
Обычно ли то, о чем вы думаете, находится внутри помещений?
Является ли то, о чем вы думаете, живым или когда-либо было живым?
Главным образом ли то, о чем вы думаете, используется для развлечения?
Является ли то, о чем вы думаете, рукотворным?
Является ли то, о чем вы думаете, меньшим, чем хлебный ящик?
Связано ли то, о чем вы думаете, с коммуникацией?
Обычно ли то, о чем вы думаете, находится в офисе или рабочем пространстве?
Является ли то, о чем вы думаете, формой электронного устройства?
Является ли то, о чем вы думаете, письменным инструментом, например, ручкой или карандашом?
Связано ли то, о чем вы думаете, с развлечениями, такими как игра или игрушка?
Связано ли то, о чем вы думаете, с транспортом или путешествиями?
Является ли то, о чем вы думаете, инструментом, используемым для практических целей?
Связано ли то, о чем вы думаете, с строительством или ручным трудом?
Является ли то, о чем вы думаете, предметом, которым люди часто пользуются в своих повседневных рутинах?
Является ли то, о чем вы думаете, предметом для домашнего использования?
Связано ли то, о чем вы думаете, с личной гигиеной или уходом?
Является ли то, о чем вы думаете, видом пищи или напитка?
Является ли то, о чем вы думаете, инструментом, используемым в художественной или творческой деятельности?
Связано ли то, о чем вы думаете, со спортом или физической активностью?
Настоящий ли это угадка на основании предоставленной информации: то, о чем вы думаете, часы или временной прибор?

Используя большую модель языка GPT-3.5, она потерпела неудачу. Теперь давайте взглянем на GPT-4.

20 вопросов с GPT-4

Я начал игру таким же образом. На этот раз ChatGPT добавил число в начало каждого вопроса без необходимости моего подтверждения. Проблема? Он добавил “1.” перед каждым вопросом. Кто-то выигрывает, кто-то проигрывает.

Вот вопросы, которые задал GPT-4:

Обычно ли находится то, о чем вы думаете, внутри помещений?
Является ли это живым существом?
Больше размером, чем хлебница?
Предназначен ли этот объект в основном для развлечения?
Является ли объект искусственным?
Является ли это видом транспортного средства?
Является ли объект электронным или для его работы требуется электропитание?
В основном ли он состоит из металла?
Обычно ли этот объект находится в большинстве домохозяйств?
Используется ли он на кухне или для готовки?
Предназначен ли он для хранения или организации предметов?
Можно ли его носить или это предмет одежды?
В основном ли его используют для уборки или обслуживания?
Он имеет декоративное значение? Подобно тому, что вы бы поставили на показ?
Обычно ли его можно найти в офисе или кабинете?
Является ли он предметом, который можно найти в спальне?
Связан ли он с конкретными активностями на открытом воздухе или хобби?
Обычно ли он изготавливается из дерева?
Обычно ли его можно найти в ванной комнате или связан с личной гигиеной?
Является ли он предметом, который обычно используется для сидения или поддержки, например, стул или скамейка?

Также: Как использовать ChatGPT для создания диаграмм и таблиц

Технически, он использовал все 20 вопросов. Но затем он выдал следующее утверждение:

Да, это был почтовый ящик! Затем я попросил его показать свою работу. Вот что он ответил:

Очередь GPT-3.5 ответить на вопросы

Я решил поменяться ролями в игре и посмотреть, как он справится, если я буду задавать вопросы.

Какая была подсказка, которую вы использовали, чтобы ИИ выбрал свой секретный ответ?

Вот мои вопросы:

Обычно ли это находится на открытом воздухе?
Также ли это находится внутри помещений?
Оно живое?
Оно использует электропитание?
Оно полагается на цифровые технологии?
Основная ценность его использования доставляется через экран?
Оно в основном используется для приготовления пищи?
Оно в основном используется для развлечения?
Основная ценность его использования создает шум?
Оно портативное?
Оно воспроизводит только аудиофайлы?
Оно полагается на внешние наушники, наушники или динамики?
Оно является портативным музыкальным проигрывателем или MP3-плеером?

Как оказалось, я угадал его за 13 вопросов. Большая подсказка для меня была в ответе “нет” на вопрос 6, “Основная ценность его использования доставляется через экран?”, а также в предыдущем ответе “да” на вопрос “Оно полагается на цифровые технологии?”

Также: 4 вещи, которые может делать Claude AI, но ChatGPT не может

Очередь GPT-4 ответить на вопросы

Я попытался еще раз с GPT-4, и он меня ошеломил. Он выбрал очень креативный объект, и я просто не понял его.

Я должен отметить, что в середине, на вопросе 15, ChatGPT Plus выгнал меня за слишком много вопросов.

Довольно раздражает платить $20 в месяц за привилегию услышать, что я задаю слишком много вопросов. Мне этого достаточно было в детстве. Я, конечно, не нуждаюсь в порицании как взрослый и платящий клиент.

Вот вопросы, которые я задал:

Это объект, который в основном используется внутри помещений?
Он живой?
Он использует электропитание?
Он больше, чем машина?
Он искусственный?
Он подвижный?
Он используется для работы на садовом участке?
Он в основном используется детьми?
У него есть колеса?
Он находится в основном на жилой территории?
Он используется как мебель?
Он декоративный?
Он сезонный?
Он предназначен для хранения чего-либо?
На каком мы вопросе?
Он отображает слова или числа?
Он прикреплен к дому?
Он растет?
Он меньше, чем холодильник?
Это горшок для растений?

Также: Игра “Человек или нет” окончена: вот что нам говорит последний тест Тьюринга

Итак, что выбрала ИИ? Садовый гном. Мне нужно отдать должное ИИ. Это было весело и креативно. То, что действительно интересно, – это насколько хорошо ИИ понимает тип поставленной задачи. После игры я дал ему такое задание:

Покажите, как вы определяете, какой объект использовать

Вот что он ответил:

Что мы узнали?

Давайте подведем итоги некоторых уроков, которые мы извлекли из этого эксперимента. Вот несколько быстрых мыслей:

Для чего-то, описанного как просто предсказание следующего слова в последовательности, у большой языковой модели очень хорошее понимание того, что это за игра и как она работает.
Это явно отличается от опыта ОП (оригинального автора) на Stack Exchange. Скорее всего, ChatGPT значительно улучшился за три месяца с момента публикации заявления “это не работает”, и, без сомнения, ChatGPT Plus повышает уровень “интеллекта” еще на одну ступень.
Модели GPT-3.5 и GPT-4 отличаются. Платная модель GPT-4 лучше понимает взаимосвязи объектов.
GPT-4 также более сложный и креативный по сравнению с GPT-3.5, когда игрок выбирает объект. Садовый гном был вдохновленным выбором объекта.
Игра в 20 вопросов с ChatGPT может быть сложной, когда вы пытаетесь угадать ответ и попадаете в “слишком много вопросов”.

Сказанное все это, я могу однозначно заключить, что ChatGPT способен справиться с игрой в 20 вопросов. Он, кажется, достаточно хорошо понимает взаимосвязи объектов, чтобы задавать хорошие вопросы, адекватно отвечать на вопросы и выбирать сложные объекты.

Также: 7 продвинутых советов по написанию запросов для ChatGPT, которые вам нужно знать

Дерзайте, выбирайте объект и поделитесь своими результатами с ChatGPT в комментариях ниже.

Вы можете следить за моими ежедневными обновлениями проекта в социальных сетях. Обязательно подпишитесь на мою еженедельную рассылку обновлений на Substack и следите за мной в Twitter по адресу @DavidGewirtz, в Facebook по адресу Facebook.com/DavidGewirtz, в Instagram по адресу Instagram.com/DavidGewirtz и на YouTube по адресу YouTube.com/DavidGewirtzTV.

ChatGPT и я сыграли в игру в 20 вопросов, и вот что произошло