Большие данные мертвы?
Большие данные как концепция определяются по четырем аспектам: объем данных, скорость передачи данных, достоверность данных и адекватность данных.
Два из перечисленных факторов возникают, когда к этим характеристикам присматриваешься поближе. В то время как аспекты объема и скорости относятся к процессу формирования данных и способам их получения и хранения, аспекты достоверность и ценность имеют дело с показателем качества и полезности данных.
Управление данными является одной из основных проблем для большинства предприятий - даже небольшой объем данных страдает от проблем с качеством и управлением. Кроме того, цифровой мир порождает все новые наборы информации, поступающие из различных источников (в основном из Интернета) в структурированной и неструктурированной форме.
Если предприятия уделяют внимание только аспектам объема и скорости, то большие данные они рассматривают лишь как проблему. В действительности, большинство этих данных включает «шум» (или метаданные, имеющие низкую или нулевую реальную ценность для предприятия).
Цель смарт данных (отвечающих требованиям достоверности и адекватности) - отфильтровать шум и удержать только ценную информацию, которая может быть эффективно использована предприятием для решения бизнес-проблем.
Если предприятия возьмут на вооружение подход использования смарт данных, то сделают закономерный вывод, что больше - не всегда лучше. Для прогнозной модели будет ли достаточно использование простой случайной выборки? Что окажет более критическое влияние на точность прогнозной модели, если он работает на пяти миллионах строк или на 10 миллиардах строк? Статистически говоря, предельное влияние незначительно.
Итак, как же большие данные становятся смарт-данными?
Единых формул обработки не существует, но они необходимы, чтобы лучше понять подсказки в вопросах вокруг данных. Качественный анализ данных позволяет сделать их не только управляемыми данными, но и создает возможности создать основу для использования в креативных направлениях. Именно тогда большие данные могут стать интеллектуальными данными.
Вместо того чтобы просто смотреть на цифры и делать догадки о том, почему что-то работает или нет, люди, которые работают с данными должны очеловечить их и, по сути, стать «заклинателями данных».
В этом и заключается умение анализа количественных и качественных аспектов данных в совокупности. Компании должны позволить данным рассказать свою историю, устранив как можно большую часть собственной предвзятости.
Просто иметь большое количество данных не достаточно. Ключевой момент кроется в серьезном вопросе – являются ли данные унифицированными? Могут ли они быть легко извлечены и проанализированы? Существует ли значительное количество вариаций? Присутствует ли в массиве данных неактуальная информация?
Интерпретация данных не должна быть случайной деятельностью; она должна опираться на четкие инструменты и выполнимые задачи. Сбор и эксплуатация данных имеет смысл только тогда, когда она используется для оптимизации и автоматизации принятия решения и решает проблемы (управляемые данные для принятия решений). Есть множество примеров, отчетливо это демонстрирующих, когда даже изменение цвета кнопки на веб-странице приводит к более высокой степени конверсии.
Так, цель состоит в том, чтобы не только понять и связать воедино с помощью данных различные показатели поведенческой активности, но и повысить производительность существующего процесса или развить способности предсказания следующего набора результатов.
По сути это означает, что в центре внимания должен быть не только сбор огромного количества всевозможных данных, но и контекстуализация каждого бита данных с собственным конкретным контекстом.
Данные должны быть определены и интерпретированы в контексте. Например, какую пользу может принести информация о посетителях сайта, кликнувших по ссылке, если контекст, который предшествует этому клику и следует за ним, неизвестен?
Означает ли это, что большие данные мертвы? Не совсем. Понимание и наличие полного представления о поведении пользователей может иметь решающее значение, и в этом случае большие данные играют ключевую роль.
Если в режиме реального времени необходимы показатели поведения пользователей по каналам взаимодействия с учетом демографической и географической атрибутики, зачем отказываться от полезной информации? Однако, если алгоритм машинного обучения может дать рекомендации по продукту, используя скромные наборы данных, зачем использовать гигантские массивы?
Разумный подход к анализу данных не означает, что все должно вращаться вокруг понятия больших данных. Это просто означает, что Вы знаете, когда целесообразнее вытащить швейцарский армейский нож вместо бензопилы.
Основная цель заключается в переходе от культуры управления данными организации (изо всех сил пытаясь управлять всеми видами данных) к изучению организационной культуры (используя всю ценность данных).