Векторные базы данных основание генеративного ИИ на знаниях

Были ли найдены именно эти искомые фокусированные технологические компании в основе искусственного интеллекта?

CEO Pinecone aim to provide AI with a form of knowledge.

pinecone-ceo-edo-liberty-with-pinecone
Edo Liberty, CEO Pinecone

Вы когда-нибудь задавали вопрос модели языка, например ChatGPT или другой генеративной программы и получали ответ, который казался полностью придуманным? 🤔 Есть причина для этого! Эти программы искусственного интеллекта часто порождают так называемые “галлюцинации”, когда они утверждают ложные утверждения в качестве фактов. Но почему это происходит?

Корень проблемы заключается в том, что эти программы не созданы для “знания” чего-либо. Они просто разработаны для генерации последовательности символов, которая кажется правдоподобным продолжением введенного вами текста. В результате, сталкиваясь с вопросами о конкретных темах, таких как медицина или право, им не хватает необходимой информации и прибегают к выдумыванию ответов. Эдо Либерти, CEO и основатель компании Pinecone, специалиста по векторным базам данных, легко описывает это явление как “галлюцинации” 🧠.

Познакомьтесь с Pinecone: опора генеративного искусственного интеллекта на знаниях

Pinecone, четырехлетняя, финансируемая венчурными инвестициями компания, базирующаяся в Нью-Йорке, стремится преодолеть ограничения генеративного искусственного интеллекта, используя векторные базы данных. Они собрали впечатляющие $138 миллионов на финансирование своей миссии. Так, что же такое векторная база данных и как она помогает улучшить эффективность программ искусственного интеллекта, таких как ChatGPT?

Усиление поколения с помощью поиска (RAG) и векторные базы данных

Подход к векторной базе данных Pinecone является частью более общего усиления поколения, называемого “усиление поколения с помощью поиска” или RAG. RAG стремится улучшить возможности больших языковых моделей (LLM), позволяя им получать доступ к внешней информации в процессе генерации. Среди различных методик RAG, векторные базы данных особенно заметны благодаря исследованиям и практическому применению в реальном мире.

Векторные базы данных тихо революционизируют различные отрасли уже более десяти лет. Компании, такие как Amazon и Google, внедрили векторные базы данных “под капотом” для поддержки систем рекомендаций, направленной рекламы, алгоритмов поиска и многого другого. Однако до недавнего времени векторные базы данных были в основном проприетарными системами внутри этих технологических гигантов. Либерти, обладая значительным опытом руководителя исследовательской группы Yahoo! и старшего менеджера исследований в лабораториях искусственного интеллекта Amazon, увидел потенциал векторных баз данных в развивающемся ландшафте искусственного интеллекта. Он предвидел растущую популярность языковых моделей, таких как BERT от Google и ChatGPT, и понял необходимость заложить основу для векторных баз данных, прежде чем спрос вырос.

Как векторные базы данных улучшают искусственный интеллект

Что же их делает такими особенными? 🤔 Давайте углубимся в детали.

В векторной базе данных каждый элемент данных представлен векторным вложением, которое размещает данные в абстрактном пространстве на основе сходства. Например, в пространстве вложений векторы, представляющие города Лондон и Париж, будут ближе друг к другу, чем любой из этих городов к Нью-Йорку. Это позволяет эффективно представлять сходства между различными типами данных, включая текст, изображения, звуки и программные коды.

При запросе к векторной базе данных запрос преобразуется в векторное представление, и выполняется поиск по сходству для нахождения наиболее близкого соответствия в базе данных. Это решение особенно полезно для систем рекомендаций. Хотите найти пылесос, который наиболее близок к вашим предпочтениям? Векторная база данных может эффективно осуществлять поиск наиболее близкого соответствия на основе векторного представления вашего запроса.

Однако простой поиск похожих векторов недостаточен для создания надежной системы базы данных. Для векторной базы данных требуется специализированная система управления для разрешения таких задач, как хранение векторов на различных носителях, масштабирование хранения по распределенным системам и эффективное обновление, добавление и удаление векторов. Pinecone создала такую систему с нуля, обеспечивая эффективный поиск векторов в масштабе.

Ограничения больших языковых моделей

Учитывая, что векторные базы данных существенно улучшают возможности систем искусственного интеллекта, вас может интересовать, почему другие базы данных не могут просто добавить поиск похожих векторов в качестве функции. Ну, согласно Либерти, проблема заключается в фундаментальных различиях в архитектуре. Механизмы доступа и хранения других баз данных несовместимы с требованиями векторных баз данных. Им не хватает специализированных алгоритмов, структур данных и облачной архитектуры, необходимых для достижения того же уровня производительности и масштабируемости.

Liberty предсказывает, что по мере развития ИИ и усовершенствования языковых моделей, способность точно представлять знания станет критической. Векторные базы данных предоставляют первоначальное решение, но он подчеркивает необходимость постоянных инвестиций и развития для интеграции различных систем и более точного представления данных. Путешествие к знаниям-ориентированному ИИ только началось! 🚀

Q&A: Рассмотрение вопросов и любопытства читателей

В: Каковы потенциальные опасности полагаться на генеративный ИИ без привязки его к знаниям?

О: Основной опасностью является производство ненадежной информации 🚫. Без доступа к точным и актуальным знаниям, генеративные программы ИИ могут создавать ложные или вводящие в заблуждение ответы, что приводит к дезинформации и путанице. Это может быть особенно критично при работе с техническими, юридическими или медицинскими вопросами. Векторные базы данных, такие как Pinecone, стремятся минимизировать эти риски, предоставляя необходимую привязку к знаниям.

В: Как сравниваются векторные базы данных с традиционными реляционными базами данных?

О: Векторные базы данных предлагают фундаментально другой подход к представлению и доступу к данным по сравнению с традиционными базами данных. В то время как реляционные базы данных организуют данные в строки и столбцы, векторные базы данных используют векторы для представления данных в пространстве вложения на основе сходства. Это позволяет эффективно осуществлять поиск по сходству и позволяет системам ИИ использовать силу векторных представлений. Традиционные базы данных не могут легко адаптировать свои структуры для поддержки поиска по сходству векторов.

В: Можно ли использовать векторные базы данных в других приложениях ИИ, помимо языковых моделей?

О: Конечно! Векторные базы данных оказались универсальными и могут использоваться в различных приложениях ИИ, кроме языковых моделей. Они способны обрабатывать различные типы данных, включая изображения, аудио и программные коды. Эта универсальность делает векторные базы данных бесценными для систем рекомендаций, алгоритмов поиска, компьютерного зрения и других задач, основанных на анализе на основе сходства.

Будущее знания-ориентированного ИИ 🌍

По мере того, как Pinecone продолжает инновационно развивать и выходит за границы векторных баз данных, будущее знания-ориентированного ИИ выглядит многообещающе. Интеграция векторных баз данных с передовыми языковыми моделями и другими технологиями ИИ обеспечит прочную основу для создания интеллектуальных систем, которые действительно “знают” вещи. В то время как векторные базы данных представляют начальную фазу, постоянное развитие технологий обеспечит включение знаний в качестве неотъемлемого компонента каждого приложения ИИ.

Так что, в следующий раз, когда вы взаимодействуете с языковой моделью или восхищаетесь ее возможностями, помните, что на заднем плане векторные базы данных играют важную роль в привязке этих программ ИИ к знаниям! 🧠


References:

  1. ChatGPT and Data Leaks: Issues and Fixes
  2. The Search for the Missing Piece of Generative AI: Unstructured Data
  3. How Google and OpenAI Prompted GPT-4 to Deliver More Timely Answers
  4. Bill Gates Predicts a ‘Massive Technology Boom’ from AI Coming Soon
  5. Bing’s New Deep Search Uses GPT-4 to Get Thorough Search Results
  6. 10 Hours? IBM Will Train You in AI Fundamentals – For Free
  7. Microsoft, TikTok Give Generative AI a Sort of Memory
  8. Generative AI Will Far Surpass What ChatGPT Can Do
  9. IBM’s Promise and Peril of AI at Work in 2024
  10. Two Breakthroughs That Made 2023 an Innovative Year
  11. ZDNet Editors’ Favorite Tech Products in 2023
  12. 8 Ways to Reduce ChatGPT Hallucinations

Оригинально опубликовано на yourdomain.com


Не скрывайте это знание только для себя! Поделитесь этой статьей с вашими друзьями и коллегами 📣. Помогите им понять, как базы данных векторов формируют будущее искусственного интеллекта и чат-ботов. Продолжим разговор и оставайтесь в курсе событий вместе! 💡