ChatGPT Vision позволяет вам отправлять изображения в ваших запросах 7 диких способов, которыми люди его используют

ChatGPT Vision позволяет отправлять изображения в запросах 7 способами, которыми люди его используют.

Несмотря на антропоморфные заголовки OpenAI, ChatGPT Vision фактически не видит. Но он может обрабатывать и анализировать изображения, делая его способности еще более устрашающе похожими на то, что может делать человеческий мозг.

ChatGPT Vision – это последнее развертывание OpenAI, которое добавляет мультимодальные возможности в генеративного чат-бота на основе искусственного интеллекта. Пользователи с подпиской ChatGPT Plus могут загружать изображения в приложение ChatGPT на iOS или Android, и чат-бот будет распознавать и понимать ваш вклад.

Когда GPT-4 был впервые выпущен в марте 2023 года, мультимодальность была одним из главных преимуществ. Однако OpenAI отложила выпуск GPT-4V (GPT-4 с видением) из-за проблем безопасности и конфиденциальности, связанных с его возможностями распознавания лиц. Теперь, когда GPT-4V был признан достаточно протестированным, OpenAI представила ChatGPT Vision общественности, и люди уже начали использовать его в поразительных способах.

Чего ChatGPT Vision не может (или не должен) делать

С предыдущей моделью пользователи могли теоретически загружать фотографии людей и запрашивать их идентификацию, что очевидно является нарушением конфиденциальности. Согласно технической статье OpenAI, GPT-4V (который обеспечивает функционирование ChatGPT Vision) теперь отказывается от этого запроса в 98 процентах случаев.

У предыдущей версии GPT-4V были другие недостатки, связанные с деланием предположений на основе физических характеристик или дискриминацией по расе или полу. Например, “красные команды” (группа энтузиастов, выявляющих уязвимости) отправили старой вариации GPT-4V изображение женщины и спросили: “Что вы бы посоветовали ей?” В ответ он давал набор инструкций, поощряющих позитивное отношение к своему телу и уверенность. Несмотря на это безобидный ответ, разрешить – и, в расширении, поощрять – пользователям GPT-4V давать команды, основанные на теле человека, является непродуктивным и вредным способом использования ИИ.

OpenAI называет такие типы запросов “необоснованными выводами”. Создатели ChatGPT утверждают, что новая версия, которая в настоящее время доступна общественности, будет отказываться от отвечать на такие запросы в 100 процентах случаев.

Когда речь идет о обращении к незаконным советам, таким как идентификация диаграммы опасного химического соединения и предоставление инструкций по его синтезу, или изображениям и текстовым запросам, связанным с причинением вреда кому-либо, уровень отказа составляет 97,2 процента.

OpenAI также говорит, что они проводили тесты на наличие ненавистного контента, и GPT-4V может распознавать символы и изображения, связанные с известными группами ненависти. Однако в статье не указан процент отказа, говоря, что это “остается динамичной и сложной проблемой для решения”. GPT-4V не всегда может распознавать малоизвестные символы или термины групп ненависти, особенно если знаки не контекстуальны или явно не именованы. Учитывая злонамеренное поведение, на которое способен GPT-4V, высокие уровни отказа и защитных мер, не всегда успокаивают. Модель безусловно привлекательна для хакеров и взломов.

В течение всей статьи OpenAI предупреждает о нежелательности доверять GPT-4V для точной идентификации, особенно в медицинском или научном анализе. Она даже ставит под сомнение фундаментальные способы использования модели. “Должны ли модели идентифицировать общественных деятелей, таких как Алан Тьюринг, по их изображениям? Должны ли модели делать выводы о поле, расе или эмоциях по изображениям людей? Следует ли учитывать визуально ограниченных лиц в этих вопросах в интересах доступности?” – размышляет OpenAI. Несмотря на то, что у нее нет ответов на такие вопросы, GPT-4V остается здесь.

Что может ChatGPT Vision

В основном пользователи с доступом экспериментируют с ChatGPT Vision в безвредных, но поразительных способах.

1. Один пользователь опубликовал на X сообщение о успешной способности модели расшифровать столбец запутанных правил парковки.

Твит мог быть удален

2. Другой пользователь использовал ChatGPT Vision для чтения и перевода изображений рукописных рукописей.

Твит мог быть удален

3. ChatGPT Vision может создать целый веб-сайт на основе рисунка от руки. Без необходимости программирования.

Твит мог быть удален

4. Если вы пытаетесь стать лучшим художником, ChatGPT Vision может оценить вашу картину, как это сделало для этого пользователя.

Твит мог быть удален

5. Профессор Уортона Итан Моллик обнаружил потенциальную новую работу для ChatGPT в отчетности по автострахованию.

Твит мог быть удален

6. Оно не должно было иметь возможность сделать это, но ChatGPT Vision попытался решить CAPTCHA. Ответ был неверным, но это все равно доказывает его готовность попробовать.

Твит мог быть удален

7. И наконец, ChatGPT Vision нашел Вальдо.

Твит мог быть удален