Многоаспектная волна искусственного интеллекта наступает, и она будет мощной

Наступает мощная волна искусственного интеллекта со множеством аспектов

Множество яблок

Так называемый мультивид является способом связи двух различных сигналов путем учета информации, которой они делятся о том же самом объекте, несмотря на различия. Мультивид может открыть путь к машинам, которые могут обладать более богатым пониманием структуры мира и, возможно, способствовать достижению таких целей, как “размышление” и “планирование” у машин.

Искусственный интеллект в своей наиболее успешной форме – такие вещи, как ChatGPT или DeepMind’s AlphaFold для прогнозирования белков – был пойман в заметно узком измерении: ИИ видит вещи только с одной стороны, как слово, как изображение, как координату в пространстве – какой бы тип данных ни был, но только по одному за раз.

В самое ближайшее время нейронные сети взорвутся в объеме слияния форм данных, которые будут рассматривать жизнь со множества сторон. Это важное развитие, поскольку это может дать нейронным сетям более глубокое понимание того, как мир согласуется, как вещи держатся вместе, что может быть важным этапом в движении к программам, которые однажды смогут выполнить, как вы бы назвали, “рассуждение” и “планирование” о мире.

Также: Meta представляет ‘Seamless’ переводчик речи-в-речь

Ближайшая волна многомерных данных имеет свои корни в годы изучения учеными-смоделировщиками машинного обучения и обычно называется “мультивидом” или, по альтернативе, слиянием данных. Существует даже научный журнал, посвященный этой теме, который называется Information Fusion, выпускаемый научным издательством Elsevier.

Основная идея слияния данных состоит в том, что все в мире, что мы пытаемся изучить, имеет много аспектов одновременно. Веб-страница, например, имеет как текст, который вы видите невооруженным глазом, так и якорный текст, который ссылается на эту страницу, или даже третью вещь – основной код HTML и CSS, который представляет собой структуру страницы.

Изображение человека может иметь как метку с именем человека, так и пиксели изображения. Видео имеет кадр видео, но также звуковой клип, сопровождающий этот кадр.

Современные программы ИИ рассматривают такие различные данные как отдельные части информации о мире, с малой или вообще без связи между ними. Даже когда нейронные сети обрабатывают несколько видов данных, таких как текст и звук, большинство из них просто обрабатывает эти наборы данных одновременно – они не связывают несколько видов данных с осознанием того, что они являются видами одного и того же объекта.

Например, Meta Properties – владелец Facebook, Instagram и WhatsApp – во вторник представил свою последнюю разработку в машинном переводе, тур де форс в использовании нескольких модальностей данных. Программа SeamlessM4T обучается одновременно на речевых данных и текстовых данных и может генерировать как текст, так и звук для любой задачи.

Но SeamlessM4T не воспринимает каждую единицу каждого сигнала как аспект одного и того же объекта.

Также: AI генератор изображений Meta говорит, что язык может быть всем, что вам нужно

Это фрагментированное представление вещей начинает меняться. В статье, опубликованной недавно доцентом и факультетским сотрудником Университета Нью-Йорка Равидом Шварц-Цив и главным ученым по искусственному интеллекту Meta Яном ЛеКуном, дуэт обсуждает цель использования мультивида для обогащения глубоких нейронных сетей путем представления объектов с разных точек зрения.

Яблоко в отражении

В сегодняшних глубоких нейронных сетях объекты разделяются на несвязанные сигналы. Наступающая волна многомодальности, использующая изображения плюс звуки плюс текст плюс облако точек, графовые сети и множество других видов сигналов, может начать собирать более богатую модель структуры вещей.

В высокотехнической и довольно теоретической статье, опубликованной на сервере предварительных публикаций arXiv в апреле, Шварц-Цив и ЛеКун пишут, что “успех глубокого обучения в различных областях применения привел к растущему интересу к глубоким многомерным методам, которые показывают многообещающие результаты”.

Мультивид становится моментом судьбы, поскольку сегодня все больше и больше многослойных нейронных сетей – таких как SeamlessM4T – работают с различными модальностями, известными как “мультимодальный” искусственый интеллект.

Также: Лучшие AI-чатботы 2023 года: ChatGPT и альтернативы

Будущее так называемого генеративного искусственного интеллекта, таких программ, как ChatGPT и Stable Diffusion, заключается в объединении множества модальностей в одну программу, которая будет включать не только текст, изображения и видео, но также точечные облака и графы знаний, биоинформационные данные и множество других представлений сцены или объекта.

Множество различных модальностей предлагает потенциально тысячи “видов” вещей, виды которых могут содержать взаимную информацию, что может быть очень эффективным для понимания мира. Но в то же время это создает некоторые сложности.

Ключом к мультивиду в глубоких нейронных сетях является концепция, которую Шварц-Цив и другие исследователи назвали “узким местом информации”. Оно становится проблематичным с увеличением числа модальностей.

Яблоки в бутылке

Узкое место информации – это ключевая концепция в области машинного обучения. По предположениям, в скрытых слоях глубокой нейронной сети вводная информация упрощается до тех аспектов, которые необходимы для восстановления исходной информации.

В узком месте информации множественные входы объединяются в “представление”, которое извлекает основные детали, общие для входов в качестве разных видов одного и того же объекта. На втором этапе это представление сокращается до сжатой формы, содержащей только существенные элементы входа, необходимые для предсказания выхода, соответствующего этому объекту. Этот процесс сбора взаимной информации, а затем сокращения или сжатия до необходимого, и есть узкое место информации.

Основной проблемой для мультивида в больших мультимодальных сетях является то, как определить, какая информация из всех различных видов является необходимой для выполнения многочисленных задач, которые будет выполнять огромная нейронная сеть со всеми этими разными модальностями.

Также: Вы можете создать своего собственного AI-чатбота с помощью этого инструмента с графическим интерфейсом

В качестве простого примера, нейронная сеть, выполняющая задачу на основе текста, такую как ChatGPT, создающая предложения текста, может не справиться с задачей создания изображений, если детали, важные для последней задачи, были удалены на этапе сжатия.

Как пишут Шварц-Цив и ЛеКун, “[Р]азделение информации на значимые и незначимые компоненты становится сложной задачей, часто ведущей к неоптимальной производительности”.

Пока нет однозначного ответа на эту проблему, заявляют ученые. Она потребует дальнейших исследований, в частности, переопределения мультивида и включения в него возможности работы с более чем двумя видами одного объекта.

“Чтобы обеспечить оптимальность этой цели, мы должны расширить мультивидное предположение, включив в него более двух видов”, пишут они. В частности, традиционный подход к мультивиду полагает, что “соответствующая информация разделяется между всеми различными видами и задачами, что может быть слишком ограничивающим”, добавляют они. Возможно, виды делятся только некоторой информацией в некоторых контекстах.

Также: Так генеративный искусственный интеллект изменит гиг-экономику к лучшему

“В результате”, заключают они, “определение и анализ более точной версии этого наивного решения является важным”.

Не сомнено, развитие мультимодальности побудит разработку новых решений в области многообъектности. Взрыв мультимодальности откроет путь к новым теоретическим открытиям для искусственного интеллекта.