Гугл выпускает Gemini 1.5 Pro расширение моделей GenAI с более крупными контекстными окнами.

Новое пополнение семьи Gemini GenAI от Google - Gemini 1.5 Pro, представляет собой широкое контекстное окно, но в настоящее время доступно только в частном просмотре.

Новая модель Gemini от Google может анализировать видео продолжительностью в часе, но к ней доступно лишь немногим.

В октябре прошлого года научный сотрудник Google, Матей Захария, главный технический директор Databricks, и профессор из UC Berkeley, Питер Аббеел, опубликовали исследовательскую статью, в которой предложили метод, позволяющий моделям GenAI, таким как GPT-4 от OpenAI и ChatGPT, обрабатывать намного большие объемы данных. Это исследование доказало, что, устраняя узкое место в памяти, модели теперь могут обрабатывать миллионы слов, в отличие от всего лишь сотен тысяч.

Похоже, исследования в области искусственного интеллекта идут как ураган, потому что Google только что объявил о выпуске Gemini 1.5 Pro, новейшей модели в семействе GenAI-моделей Gemini. Эта новая модель предлагает различные улучшения по сравнению с предыдущей версией Gemini 1.0 Pro, и одно из самых значительных усовершенствований – способность обрабатывать огромное количество данных.

Gemini 1.5 Pro может обрабатывать около 700 000 слов или примерно 30 000 строк кода. Это впечатляющие 35 раз больше, чем справлялся Gemini 1.0 Pro. И самое лучшее в том, что Gemini 1.5 Pro не ограничивается только текстом. Он также может обрабатывать до 11 часов аудио или час видео на нескольких языках.

🌟 Gemini 1.5 Pro – Мультимодальное чудо 🌟

Чтобы прояснить, описанные выше числа представляют верхние пределы возможностей Gemini 1.5 Pro. Версия, доступная разработчикам и клиентам в ограниченном превью, в настоящее время может обрабатывать только около 100 000 слов за раз. Эта “экспериментальная” модель для обработки больших объемов данных в настоящее время доступна только разработчикам, утвержденным как часть частного превью. Однако некоторые клиенты, использующие платформу Vertex AI от Google, также имеют доступ к этой версии.

Вице-президент исследований Google DeepMind, Ориол Виньялс, выразил восторг этим достижением, подчеркнув, что более продолжительные и сложные взаимодействия с моделями GenAI требуют более длинного контекста. Проще говоря, чем больше информации вы вводите и выводите из модели, тем больший контекст ей нужен для понимания и эффективного ответа. Gemini 1.5 Pro открыл этот длинный контекст в огромном объеме.

Большой контекст, большой потенциал

Введение большого контекстного окна в моделях имеет значительные последствия. Модели с малым контекстным окном часто быстро забывают о недавних разговорах, что часто приводит к несвязанным или проблематичным ответам. С другой стороны, модели с большими контекстами могут лучше понять ход повествования и давать ответы, более полные по контексту и связанные с темой.

Хотя уже были попытки и эксперименты с моделями, имеющими необычно большие контекстные окна, Google первая предлагает коммерческую модель с такими возможностями. Ранее рекорд принадлежал Anthropic, у которого контекстное окно составляло 200 000 токенов, но Gemini 1.5 Pro превосходит это.

🌙 1 миллион токенов – что можно сделать? 🌙

Максимальный размер контекстного окна в Gemini 1.5 Pro составляет впечатляющие 1 миллион токенов. В широко доступной версии окно контекста составляет 128,000 токенов, что также сопоставимо с GPT-4 Turbo от OpenAI. Расширенное контекстное окно открывает множество возможностей. Теперь вы можете анализировать полные библиотеки кода, обрабатывать объемные документы, такие как контракты, вступать в долгие разговоры с чатботами, а также анализировать и сравнивать видеоконтент.

На недавнем брифинге Google представила две записанные демонстрации, демонстрирующие работу Gemini 1.5 Pro с включенным контекстным окном из 1 миллиона токенов. В первой демонстрации проводился поиск фрагментов из трансляции посадки на Луну аппарата Apollo 11, которая занимает около 402 страниц, чтобы найти цитаты, содержащие шутки. Затем модель должна была найти сцену в передаче, которая напоминала карандашный набросок. Во второй демонстрации на основе описаний и набросков модели было предложено найти сцены в фильме Бастера Китона “Шерлок Джуниор”.

Gemini 1.5 Pro успешно выполнил оба задания, хотя время обработки было дольше по сравнению с обычными запросами, сделанными с помощью ChatGPT. Каждая задача заняла от 20 секунд до минуты для обработки. Ориол Виньялс заверил, что время отклика улучшится по мере того, как модель будет оптимизироваться. Фактически, уже проводятся тестирования версии Gemini 1.5 Pro с потрясающим контекстным окном из 10 миллионов токенов.

💡 Заблаговременные заботы и соображения 💡

Хотя возможности Gemini 1.5 Pro впечатляющи, есть опасения относительно его времени отклика. Ожидание нескольких минут для поиска по видео контенту может быть не самым приятным или масштабируемым опытом. Кроме того, влияние времени отклика на разговоры с чатботами и анализ кодовой базы возникают вследствие здравых соображений. Во время брифинга Виньялс признал, что эти проблемы присутствуют на экспериментальных и исследовательских стадиях разработки любой модели. Улучшение в этой области, безусловно, является крайне важным.

Важно учесть конкретные случаи использования, где выгоды от большого контекстного окна Gemini 1.5 Pro перевешивают недостатки. Для задач, таких как анализ сюжетных точек шоу, задержка может быть не оправдана. Однако, когда речь идет о нахождении конкретного снимка из нечетко помнящейся сцены в фильме, сэкономленное время может сделать ожидание оправданным.

Другие значительные улучшения

Gemini 1.5 Pro предлагает не только расширенное контекстное окно. Google утверждает, что по качеству модель “сопоставима” с его флагманской моделью GenAI, Gemini Ultra. Это стало возможным благодаря новой архитектуре, которая включает в себя более маленькие, специализированные “экспертные” модели. Gemini 1.5 Pro разделяет задачи на подзадачи и делегирует их соответствующим экспертным моделям на основе предсказаний.

Хотя этот подход, известный как Mixture of Experts (MoE), существует уже некоторое время, его эффективность и гибкость сделали его все более популярным. Такой подход позволяет лучше распределить ресурсы и повысить общее качество выходных данных модели.

🎟️ Ценообразование и будущие разработки 🎟️

Одним из основных вопросов, связанных с Gemini 1.5 Pro, является ценообразование. Во время фазы приватного предварительного просмотра используются бесплатно версии с контекстным окном из 1 миллиона токенов. Однако в ближайшем будущем Google планирует ввести ценовые категории, начиная с контекстного окна размером 128 000 и масштабируясь до 1 миллиона токенов. Хотя конкретные детали ценообразования не были разглашены во время брифинга, ожидается, что большее контекстное окно будет стоить больше. К надежде, что Google займется этой проблемой и предложит доступные варианты ценообразования.

Еще один важный аспект – это влияние на другие модели семейства Gemini, особенно на Gemini Ultra. Будут ли Ultra модели получать обновления, соответствующие улучшениям производительности Pro моделей? На данный момент существует неуклюжий период, когда доступные Pro модели превосходят Ultra модели, которые Google позиционирует как лучшие в своем классе. Было бы очень полезно получить ясность по этому вопросу.

⭐ Будущее моделей GenAI ⭐

Выпуск Gemini 1.5 Pro от Google показывает непрерывную эволюцию и прогресс моделей GenAI. По мере того, как модели с большими контекстными окнами становятся все более распространенными, можно ожидать еще более интересные применения и возможности в различных областях. Возможность обработки больших объемов данных и взаимодействия в сложных ситуациях несомненно определит будущее искусственного интеллекта.

Чтобы более подробно изучить эту тему и быть в курсе последних достижений в области компьютерных технологий и программирования, ознакомьтесь с этими полезными ссылками:

  1. Google Gemini – Новая платформа генеративного искусственного интеллекта
  2. GPT-4 от OpenAI – Следующий большой прорыв
  3. Раскрытие потенциала ChatGPT
  4. Сила Vertex AI
  5. Революция языковых моделей – Подход Magic
  6. Техники для расширения размера контекстного окна модели
  7. Anthropic – Толкая границы размера контекстного окна модели

Теперь ваша очередь! Каковы ваши мысли о Gemini 1.5 Pro от Google и его возможностях большого контекстного окна? Как вы представляете, как это развитие повлияет на разные отрасли? Поделитесь своими идеями и присоединитесь к дискуссии. Не забудьте распространить эту статью в своих любимых социальных сетях!

✨💻🚀😄