UA-11904844-8

Итоги

По мере того как организации в своей деятельности все в большей мере смогут опираться на большие данные, модель MapReduce будет завоевывать все большую популярность и влияние. Возможность параллельного запуска процесса на стандартном недорогом оборудовании достаточно заманчива при работе с огромными объемами данных, б?льшая часть которых в долгосрочной перспективе не будет представлять интереса или ценности. Разделение задачи на мелкие фрагменты позволяет решить ее быстрее и дешевле.

MapReduce не база данных и не заменяет ее. Однако эта модель способна существенно увеличить качество баз данных предприятия. После того как MapReduce обработает и извлечет важные фрагменты из потока больших данных, их можно поместить в традиционную среду базы данных для дальнейшего более глубокого анализа, а также для обеспечения более широкого доступа к запросам и отчетам. В некотором смысле модель MapReduce представляет собой более мощную версию ETL-процесса.

Завершим раздел небольшим примером. Веб-журналы содержат огромный объем бесполезных данных. Модель MapReduce может найти ценные иглы в стогу сена. Представьте, что с помощью алгоритма MapReduce журналы обрабатываются практически в режиме реального времени, чтобы определить необходимые меры, например найти всех клиентов, которые просмотрели данные о товаре, но не купили его.

Процесс MapReduce формирует список клиентов, которым необходимо отправить электронное письмо, и эта информация немедленно отправляется процессу, генерирующему такие письма, причем без первоначальной загрузки необработанных данных в реляционную базу данных и выполнения запроса.

После выполнения первоначальной задачи наиболее важные фрагменты данных загружаются в базу данных и пополняют остальную важную информацию о клиенте, что позволяет производить более полный стратегический анализ по периодам и подразделениям организации. В данном примере список выявленных клиентов загружается в базу данных — так учитывается, что им были отправлены электронные письма. Это позволит отследить историю переписки, как это делается при проведении любой e-mail-кампании.

Укрощение больших данных: как извлекать знания из массивов информации с помощью глубокой аналитики / Билл Фрэнкс. - М.: Манн, Иванов и Фербер, 2014.
Опубликовано с разрешения издательства