Методы применяемые в аналитике больших данных

29.11.202016.10.2022 Editor big data, big data analytics, data mining

Поиском полезной информации из большого массива данных человек занимался всегда, с самого появления глобальной сети. Но если еще 20-30 лет назад объемы этих данных были относительно ограниченными, то уже к 2008 году был сформирован и широко распространен термин Big Data – большие данные. Однако для обработки этих колоссальных массивов информации возможностей экспертов и существующих инструментов не хватало. Для Big Data аналитики нужны были горизонтально масштабируемые программные инструменты. Именно тогда появилась идея создать специальные инструменты, одним из которых стала аналитика больших данных — Data Mining.

Так был сделан шаг в сторону интеллектуализации аналитики. Появились ИСАД – интеллектуальные системы анализа данных. Главная задача новых аналитических инструментов – свести к минимуму усилия экспертов в вопросах настройки алгоритма анализа и непосредственно в процессе анализа больших данных. ИСАД не просто помогают принимать классические решения, они видят причинно-следственные связи и скрытые закономерности в анализируемой системе.

Что такое Data Mining

На самом деле это не единый инструмент, а собирательное понятие для обозначения тех способов аналитики больших данных, которые нацелены на получение определенной информации из большого информационного массива. Отнести инструмент к Data Mining можно только в том случае, если полученные с его помощью знания соответствует четырем пунктам.

Четыре критерия оценки знаний

Неизвестность. Полученные сведения всегда новые, а не просто подтверждающие уже имеющиеся.
Нетривиальность. Эти знания невозможно обнаружить при визуальном анализе или же при использовании простых статистических инструментов.
Практическая польза. Полученная информация представляет ценность для исследователя и может использоваться на практике.
Доступность интерпретации. Результаты аналитики могут быть отображены в понятной форме для тех пользователей, которые не обладают математической подготовкой.

Преимущества Data Mining перед статистическими способами аналитики очевидны. Если статистика использует усреднение по выборке и, по сути, все ее операции проводятся над несуществующими величинами, то ИСАД оперирует реальными значениями. Статический анализ нуждается в априорных данных, которые вводятся в формулы вычислений, для алгоритмов Data Mining они совершенно необязательны.

Инструменты Data Mining находят неочевидные закономерности, а не заранее сформулированные гипотезы. Этот инструмент аналитики больших массивов данных не просто самостоятельно выявляет закономерности, но и строит гипотезы о взаимосвязях.

Но основное преимущество этого инструмента все-таки заключается в возможности обрабатывать большие объемы данных со сложной структурой. На практике это проявляется в том, что компания может извлечь пользу из массива накопленной информации. Если эти данные не анализируются, то они просто превращаются в «мертвый груз».

Как работает Data Mining на примере торговли

Самый простой пример использования инструмента – анализ покупательской корзины. ИСАД определяет, какие товары обычно приобретают вместе. Полученные данные влияют на стратегию рекламы, на эффективное формирование запасов товаров и на способ их размещения в торговом зале.

Второй способ применения – сегментация клиентской базы в электронной коммерции. Аналитический инструмент не просто выявляет взаимосвязь между частотой покупки товара А и товара В, но и определяет самые популярные категории среди этих товаров для разных групп потребителей. Подобным инструментом Data Mining пользуется и Netflix. Компания даже учредила приз в 1 млн. долларов за улучшение алгоритма, формирующего рекомендации. А это, согласитесь, значимая сумма.

На этом предлагаю завершить краткий обзор аналитического инструмента Data Mining. В продолжение этой статьи я расскажу о таком втором способе обработки данных — краудсорсинге, его методах и практическом применении. Подписывайтесь, чтобы не пропустить новые публикации!