Может ли ChatGPT предсказывать будущее? Обучение ИИ, чтобы выяснить, что произойдет дальше

Может ли ChatGPT предсказать будущее? Обучение ИИ для предсказания дальнейших событий

nyu-2023-llmtime-predicting-time-series-diagram

Программа LLMtime НЮВ находит следующее вероятное событие в последовательности событий, представленных строками числовых цифр.

Современные программы генеративного искусственного интеллекта, такие как ChatGPT, нацелены на создание не только текстовых результатов, как исследование, проведенное ENBLE, подробно рассмотрело.

Одна из самых важных таких «модальностей», как их обычно называют, – это то, что называется временными рядами, то есть данные, которые измеряют одни и те же переменные в разные моменты времени для выявления трендов. Данные в формате временных рядов могут быть важными для отслеживания медицинской истории пациента с течением времени с записями, сделанными врачом в медицинской карте. Прогнозирование временного ряда значит использование исторических данных и предсказание того, что произойдет далее; например: “Сможет ли этому пациенту стать лучше?”

Также: ChatGPT кажется запутанным в определении конечности своих знаний

Традиционные подходы к данным временных рядов включают специально разработанное программное обеспечение для работы с такими данными. Однако теперь генеративный искусственный интеллект приобретает новую способность обрабатывать данные временных рядов так же, как обрабатывает вопросы в эссе, создание изображений, программирование и другие задачи, в которых ChatGPT и подобные программы успешно справляются.

В новом исследовании, опубликованном в этом месяце Нейтом Грувером из Нью-Йоркского университета и его коллегами из НЮВ и Карнеги Меллон, программа GPT-3 от OpenAI обучена предсказывать следующее событие во временном ряду, подобно предсказанию следующего слова в предложении.

“Поскольку языковые модели созданы для представления сложных вероятностных распределений последовательностей, они теоретически хорошо подходят для моделирования временных рядов”, пишут Грувер и его команда в своей статье “Большие языковые модели являются нулевыми прогнозистами временных рядов”, размещенной на сервере предварительных печатных материалов arXiv. “Данные временных рядов обычно имеют ту же форму, что и данные моделирования языков, как собрания последовательностей”.

Созданная ими программа LLMTime является “чрезвычайно простой”, пишут Грувер и его команда, и способна “превосходить или соответствовать специализированным методам работы с временными рядами для различных проблем без необходимости дополнительного настройки на используемых другими моделями исходных данных”.

Также: Генеративный искусственный интеллект значительно превзойдет возможности ChatGPT. Вот все о технологическом прогрессе

Ключом к созданию LLMTime было переосмысление того, что называется “токенизацией”, способом, которым большая языковая модель представляет данные с которыми работает.

Программы, такие как GPT-3, имеют способ ввода слов и символов, разбивая их на такие части, которые могут быть приняты по одной. Данные временных рядов представлены в виде последовательностей чисел, таких как “123”; временной ряд представляет собой просто шаблон, в котором происходят такие последовательности цифр.

С учетом этого, токенизация GPT-3 недостаточна эффективна, поскольку она часто разбивает эти строки на неудобные группировки. “Например, число 42235630 токенизируется GPT-3 как [422, 35, 630], и даже изменение одной цифры может привести к совершенно другой токенизации”, указывает Грувер и его команда.

Чтобы избежать таких неловких группировок, Грувер и его команда создали код, вставляющий пробелы вокруг каждой цифры последовательности цифр, чтобы каждая цифра закодировалась отдельно.

Также: 3 способа, как ИИ революционизирует работу организаций здравоохранения с пациентами. Могут ли LLMs, такие как ChatGPT, помочь?

Затем они приступили к обучению GPT-3 предсказывать следующую последовательность цифр на реальных примерах временных рядов.

Любой временной ряд представляет собой последовательность событий, которые происходят одно за другим, например: “Собака спрыгнула с дивана и побежала к двери”, где происходит одно событие, а затем другое. Примером реального набора данных, о котором люди хотят делать прогнозы, может быть прогнозирование снятий наличных с банкомата на основе исторических снятий. Банк будет очень заинтересован в таких прогнозах.

Прогнозирование снятий с банкомата, на самом деле, является одним из вызовов соревнований временных рядов в режиме реального времени, такого как соревнование по прогнозированию с помощью искусственных нейронных сетей и вычислительного интеллекта, проводимое Ланкастерским университетом Великобритании. Этот набор данных представляет собой просто строки и строки чисел в таком формате: 

T1: 1996-03-18 00-00-00 : 13.4070294784581, 14.7250566893424 и т. д.

Первая часть очевидно представляет собой дату и временную метку для “T1”, представляющую первый момент времени, и за ним следуют суммы (разделенные точками, а не запятыми, как это обычно делается в Европе). Задача нейронной сети состоит в том, чтобы предсказать, исходя из тысяч или даже миллионов таких пунктов, что произойдет в следующий момент времени после последнего примера в ряде – сколько клиенты снимут денег завтра.

Также: Эта новая технология может переплюнуть GPT-4 и все подобные ему

Авторы отмечают, что “LLMTime не только способен генерировать правдоподобные завершения реальных и синтетических временных рядов, но и достигает более высоких вероятностей […] при оценке без обучения, чем специализированные модели временных рядов […]” ставшие уже созданными на протяжении десятилетий.

Программа LLMtime находит номер в распределении, определенном образец повторения чисел, для определения того, представляет ли последовательность одну из общих закономерностей, таких как “экспоненциальная” или “гауссовская”.

Однако, Грувер и его команда указывают на одно из ограничений крупных языковых моделей, именно то, что они могут обрабатывать только ограниченное количество данных за раз, известное как “окно контекста”. Чтобы работать с все более и более объемными временными рядами, программам потребуется расширение контекстного окна до значительно большего количества символов. Эта задача исследуется множеством сторонних участников, таких как команда Hyena в Стэнфордском университете и МИЛА Институт искусственного интеллекта Канады и Microsoft и другие.

Также: Microsoft, TikTok дарят генеративному ИИ своего рода память

Очевидный вопрос заключается в том, почему крупная языковая модель должна хорошо предсказывать числа. Как отмечают авторы, для любой последовательности чисел, таких как снятия наличных с банкомата, существует “произвольное количество правил генерации, согласующихся с входными данными”. То есть, есть множество причин, почему могут появиться эти конкретные строки чисел, и сложно угадать правило, объясняющее их.

Ответ в том, что GPT-3 и его подобные находят правила, которые являются самыми простыми среди всех возможных правил. “LLMs могут эффективно прогнозировать, потому что они предпочитают завершения, полученные из простых правил, применяя формулу Оккама”, пишут Грувер и его команда, отсылая к принципу экономии.

Иногда программа GPT-4 сбивается с толку, когда пытается разобраться в том, что представляет собой шаблон временного ряда, показывая, что она на самом деле не “понимает” временной ряд в традиционном смысле.

Это не означает, что GPT-3 действительно понимает, что происходит. Во втором эксперименте Грувер и его команда представили GPT-4 (более мощную версию GPT-3) новый набор данных, составленный с использованием определенной математической функции. Они попросили GPT-4 вывести математическую функцию, которая создала временной ряд, чтобы ответить на вопрос “может ли GPT-4 объяснить свое понимание данного временного ряда в тексте”, пишут Грувер и его команда.

Они обнаружили, что GPT-4 может угадать математическую функцию лучше, чем случайный выбор, но при этом он дает некоторые объяснения, которые не соответствуют действительности. “Модель иногда делает неправильные выводы о поведении данных, которые она видела, или ожидаемом поведении кандидатских функций.” Другими словами, даже когда программа, такая как GPT-4, может хорошо предсказывать следующее значение во временном ряде, ее объяснения оказываются “галлюцинациями”, склонностью предлагать неправильные ответы.

Также: Внедрение ИИ в программную инженерию? Вот все, что вам нужно знать

Грувер и его команда энтузиазмированы тем, как временные ряды вписываются в мультимодальное будущее генеративного ИИ. “Представление прогнозирования временных рядов в виде генерации естественного языка можно рассматривать как еще один шаг в направлении объединения большего количества возможностей в рамках одной большой и мощной модели, в которой понимание может быть общим для многих задач и модальностей”, пишут они в заключительном разделе.

Код для LLMTime размещен на GitHub.