UA-11904844-8

Вам нужны все ваши данные!

По мере того как для решения различных задач используются разные выборки, вы в конечном счете задействуете 100% исходных данных. Не совершайте ошибку, отбрасывая данные, не требующиеся для решения конкретной задачи! Использование выборок не снимает необходимости в сборе и хранении всех релевантных данных. среда корпоративных данных создается не на основе выборки. Это выборки создаются на основе среды данных.

Возьмем для примера телекоммуникационную компанию. Выборка, включающая 10% клиентов, отлично подходит команде по управлению взаимоотношениями с клиентами (customer relationship management, CRM). Однако вскоре у команды по управлению розничной торговлей возникает необходимость проанализировать эффективность работы розничных точек продаж. Этой команде требуются 10%-ная выборка розничных точек и данные обо всех совершенных в них транзакциях. Эта выборка будет создана совершенно другим способом. В данном случае используется информация не о каждом клиенте, а о каждом магазине. Менеджеру по продукту также может потребоваться 10%-ная выборка данных, относящихся к конкретному товару. Эта выборка не обязательно должна содержать все транзакции, связанные с конкретным клиентом или магазином. Этим трем отделам нужны разные типы выборок.

Дело в том, что любая проблема может потребовать использования всего лишь 10% выборки. Однако, как показано на рис. 7.1, каждая проблема требует выборки, отличной от всех остальных.

Различные выборки

Рис. 7.1. Различные выборки требуют различных данных

Со временем, по мере создания разных выборок для решения разных задач, могут быть задействованы все 100% исходных данных. Вот почему необходимо хранить и обеспечивать доступ ко всем данным, несмотря на то что единовременно из них используется не более 10%!

Укрощение больших данных: как извлекать знания из массивов информации с помощью глубокой аналитики / Билл Фрэнкс. - М.: Манн, Иванов и Фербер, 2014.
Опубликовано с разрешения издательства