Конечно, данные в реальном времени сейчас демократизированы, но это лишь начало.

Конечно, сейчас данные в реальном времени стали более доступными, но это только начало демократизации.

Концепция данных

Реальные данные кажется повсюду: в дополненной реальности, цифровых двойниках, 5G, интернете вещей, искусственном интеллекте, машинном обучении, носимых устройствах и технологии маяков. Можно проститься, думая, что сегодняшние предприятия передают реальные данные в каждой важной задачной области. Мы к этому приближаемся – благодаря многим решениям с открытым исходным кодом, таким как Apache Flink, Kafka, Spark и Storm, а также облачным платформам. Однако есть еще много работы, которую нужно сделать, прежде чем мы достигнем того уровня, когда данные перемещаются внутри и между организациями со скоростью света или близкой к ней.

Прежде всего, понятное объяснение от Джона Риднинга из IDC: “Часто термины “потоковые данные” и “реальные данные” используются вместе и иногда взаимозаменяемо. Хотя не все создаваемые потоковые данные являются реальными, и не все реальные данные передаются потоком, организации указывают, что более двух третей случаев использования потоков требуют ультра-реальных или реально-временных данных.”

Также: Каждый проект искусственного интеллекта начинается как проект по данным, но это долгий и извилистый путь

Даже существует использование ультра-реальных данных, и компании стремятся заставить это работать. “Понимание ценности захвата и обработки реальных данных растет с самой быстрой скоростью в последнее время”, говорит Автар Райкмо, директор по инжинирингу в Hazelcast. “С платформами, устраняющими сложность для отдельного пользователя или инженера, ускоряется принятие в отрасли. Инновации, такие как поддержка SQL, помогают демократизировать и обеспечивают простой доступ не только для избранных, но и для широкого большинства”.

Существует широкий спектр применений, включая “вычисления на грани для потокового аудио и видео, компьютерное зрение для обработки искусственного интеллекта и машинного обучения или даже активные шумоподавляющие наушники”, – говорит Райкмо. Еще одно важное применение – это цифровые двойники, особенно для мобильности. “Возможность захвата реальных данных и телеметрии с автомобилей, грузовиков или ракет позволяет организациям моделировать сценарии по мере их развития. Цифровые двойники могут использоваться для оптимизации реальных маршрутов, потребляемой энергии или улучшений в веденем управлении. В мире спорта стратеги Формулы-1 определяют оптимальную остановку на пит-стопе и состав соединений для максимизации производительности в гонке.”

Однако, существует множество технических и организационных проблем, мешающих полной реализации реального времени или ультра-реального времени данных. “Разворачивание реального времени обычно использует технологии повышенной производительности, которые соответствуют требованиям больших объемов и быстрого анализа, необходимых для принятия мгновенных решений”, говорит Эмма МакГраттан, старший вице-президент по инжинирингу и продукту в Actian. “Для очень больших объемов, которые генерируются некоторыми отраслями, например, финансовыми услугами, для перехода к реальному времени потребуется вложение в дополнительные ресурсы для оборудования, программного обеспечения и сетевых компонентов”.

Также: Как искусственный интеллект изменяет отрасль информационных технологий, будет “быстрым и драматическим”

Необходимы вложения для “увеличения доступности и надежности инфраструктуры и услуг данных”, говорит МакГраттан. “Для небольших объемов существующая инфраструктура скорее всего может быть использована с модификациями приложений для выполнения анализа и развертывания в реальном времени”.

Процесс захвата, визуализации и хранения данных в реальном времени требует “существенных вложений в инфраструктурные компоненты, способные обрабатывать сложные и объемные потоки данных”, говорит Ракеш Джаяпракаш, руководитель отдела продуктового менеджмента в ManageEngine и Zoho. “Это особенно верно, когда потоки реального времени требуют некоторой предварительной обработки. К сожалению, многие организации, особенно малые и средние, не обладают необходимой инфраструктурой для обработки таких интенсивных вызовов”.

Инфраструктуры многих компаний все еще не готовы, и то же самое можно сказать о самих организациях. “Некоторые до сих пор не понимают или не видят ценности реального времени, в то время как другие целиком посвятили себя созданию решений для организации потоков,” говорит Райкмо. “Совмещение наборов данных в движении с использованием таких сложных методов, как добавление водяных знаков и оконные функции, не является тривиальной задачей. Это требует корреляции нескольких потоков, объединения данных в памяти и создания объединенных составных наборов результатов на предприятий масштабе с учетом стойкости.”

Также: Революция реального времени здесь, но она распределена неравномерно

Хорошая новость заключается в том, что не каждый фрагмент данных должен быть потоковым или поставляться в реальном времени. “Организации часто попадают в ловушку, инвестируя ресурсы для обеспечения реального времени каждой точки данных, которую они визуализируют, даже когда это необходимо,” указывает Джаяпракаш. “Однако такой подход может привести к чрезмерным затратам и стать неподъемным.”

“Хотя визуализация данных в реальном времени более привлекательна, чем анализ данных, относящихся к прошлому, нужно тщательно оценить соотношение затрат и выгоды, а также ROI при построении потоков данных и визуализации в реальном времени,” говорит Джаяпракаш. “Кроме того, организации должны тщательно подходить к выбору метрик, которые они хотят потоково передавать в реальном времени.”

Ами Мачадо из IDC ‘оправдывает‘ необходимость внимательно рассматривать, что должно поставляться в реальном времени: “Я всегда говорю, ‘Пусть случай использования руководит,'” она пишет в своем блоге. “Он должен определять то, как вы мыслите об архитектуре в реальном времени, которая в идеале является расширением вашей существующей структуры, чтобы избежать создания изоляции данных.”

Также: Бизнес-лидеры продолжают бороться с осознанием силы данных

Мачадо выделяет ключевые вопросы, которые следует задать о доставке данных в реальном времени:

  • “Какие бизнес-преимущества мы надеемся получить?”
  • “Какие идеи нам нужно осуществить для достижения этих целей?”
  • “Кто нуждается в этих идеях и где они их нуждаются?”
  • “С какими другими системами мы можем потребовать интеграции для контекста или оперативного использования идей?”

Чтобы оптимизировать вложения в потоки данных в реальном времени, Джаяпракаш рекомендует “тщательно выбирать метрики, которые действительно требуют отчетности в реальном времени”. “Сложность инфраструктуры, необходимой для работы и поддержки потоков данных в реальном времени, вводит потенциальные точки отказа, требующие наличия специального персонала для устранения неполадок и обслуживания. Чтобы устранить проблемы непрерывности данных, связанные с сбоями потоков, необходимо реализовать механизмы аварийной защиты, что увеличивает общие затраты.”