Взгляд на любопытное поведение ChatGPT-4 во время зимнего перерыва

Интересное поведение ChatGPT-4 взгляд изнутри во время зимнего перерыва

Самый популярный в мире генеративный искусственный интеллект (ИИ) становится “ленивым”, когда наступает зима, – это утверждение некоторых проницательных пользователей ChatGPT.

Согласно недавнему отчету ArsTechnica в конце ноября, пользователи ChatGPT, чат-бота на базе модели обработки естественного языка GPT-4 от OpenAI, заметили что-то странное. В ответ на некоторые запросы, GPT-4 отказывался завершать задачи или предоставлял упрощенные “ленивые” ответы вместо обычно подробных реакций.

OpenAI подтвердила проблему, но заявила, что не намеренно обновляла модель. Некоторые теперь предполагают, что эта лень может быть непреднамеренным последствием того, как GPT-4 имитирует сезонные изменения человеческого поведения.

Получив прозвище “теория зимнего отпуска”, теория предполагает, что потому что GPT-4 получает текущую дату, он научился из своих обширных тренировочных данных, что люди склонны завершать большие проекты и замедляться в декабре. Ученые срочно исследуют, обосновывается ли этот кажущийся абсурдной идеей. Тот факт, что это воспринимается всерьез, подчеркивает непредсказуемую и человекоподобную природу больших языковых моделей, таких как GPT-4.

24 ноября Reddit-пользователь сообщил, что попросил GPT-4 заполнить большой файл CSV, но он предоставил только одну запись в качестве шаблона. 1 декабря Уилл Депью из OpenAI подтвердил, что они знают о проблемах “лени” связанных с “чрезмерным отказом” и обязуются исправить их.

Некоторые утверждают, что GPT-4 всегда был время от времени “ленивым”, и недавние наблюдения лишь подтверждают предубеждения. Однако время, когда пользователи заметили больше отказов после 11 ноября обновления GPT-4 Turbo, интересно, хотя и случайно, и некоторые предполагают, что это новый метод OpenAI для экономии вычислительных ресурсов.

Теория “Зимнего отпуска”

9 декабря разработчик Роб Линч обнаружил, что GPT-4 создавал 4086 символов на основе декабрьской даты против 4298 на основе майской даты. Хотя исследователь Иан Аравхо не смог воспроизвести результаты Линча с достаточной степенью статистической значимости, субъективная природа смещения выборки с LLM делает их воспроизводимость известной трудностью. Пока ученые мчатся исследовать, теория продолжает занимать умы AI-сообщества.

Джеффри Литт из Anthropic, создателя Клода, назвал это “смешной теорией”, но признал, что сложно исключить ее, учитывая все странные реакции LLM на человекоподобное подталкивание и поощрение, как показано все более странными подсказками. Например, исследования показывают, что модели GPT показывают улучшение результатов в математике, когда им говорят “приметьте глубокий вдох”, а обещание “подсказки” увеличивает объем завершений. Отсутствие прозрачности вокруг потенциальных изменений в GPT-4 делает даже маловероятные теории достойными исследования.

Этот эпизод демонстрирует непредсказуемость больших языковых моделей и необходимость новых методологий для понимания их все возраставших возможностей и ограничений. Он также показывает глобальное сотрудничество, которое срочно оценивает влияние развития ИИ на общество. Наконец, это напоминает о том, что нынешние LLM все еще требуют обширной сопровождения и тестирования перед ответственным применением в реальных приложениях.

Теория “зимнего отпуска” за стоящей за видимой сезонной ленью GPT-4 может оказаться ложной или предоставить новые идеи, которые улучшат будущие версии. В любом случае, этот любопытный случай иллюстрирует странно антропоморфную природу систем ИИ и приоритет понимания рисков наряду с преследованием быстрых инноваций.

Изображение: Pexels