UA-11904844-8

Поговорим о способе упорядочения процесса создания аналитического набора данных с помощью аналитического набора данных предприятия, или EADS (enterprise analytic data set).

EADS представляет собой общий, допускающий многократное использование набор централизованных, стандартизированных аналитических наборов данных для применения в аналитических процессах.

Набор EADS сжимает сотни или тысячи переменных до небольшого количества таблиц и представлений, которые будут доступны для всех аналитиков, приложений и пользователей. В состав EADS может входить одна широкая таблица или несколько таблиц, соединенных в одну. Различные аналитические процессы могут использовать один и тот же согласованный набор метрик EADS.

EADS значительно упрощает доступ к данным, позволяя специалистам без дополнительных усилий извлекать множество показателей. Им больше не нужно самостоятельно извлекать показатели из необработанных таблиц, находящихся в третьей нормальной форме. EADS значительно сокращает время, необходимое на получение результатов; кроме того, его можно создать один раз, а использовать многократно (рис. 5.7).

Процесс создания аналитического набора данных предприятия

Рис. 5.7. Процесс создания аналитического набора данных предприятия используются во многих проектах

Одно из наиболее важных преимуществ EADS, о котором иногда забывают, — согласованность аналитических усилий. Большая согласованность в метриках, используемых в аналитических процессах организации, позволяет удостовериться, что эти показатели рассчитываются одинаково.

При надлежащем использовании аналитический набор данных предприятия позволяет сократить время подготовки данных от 60– 80% общего времени выполнения проекта до гораздо более низкого показателя. Целью может быть достижение показателя в 20–30%.

Вот ключевые особенности аналитического набора данных предприятия:

  • Стандартизированное представление данных для поддержания нескольких аналитических процессов.
  • Способ, позволяющий значительно оптимизировать процесс подготовки данных.
  • Способ обеспечения большей согласованности, точности и видимости для аналитических процессов.
  • Способ обеспечения нового представления данных для приложений и пользователей за пределами пространства углубленной аналитики.
  • Способ, который позволит специалистам тратить гораздо больше времени на анализ!

Когда следует создавать?

EADS нужен, если вам часто приходится проводить анализ в конкретной области и вы ожидаете дальнейшего увеличения объема аналитической работы. Вы можете создать EADS для любого объекта, который анализируете: для потребителей, товаров, местоположения, сотрудников и поставщиков. Все, что анализируется на регулярной основе, может служить объектом EADS. Со временем EADS будет развиваться.

При появлении нового источника больших данных в EADS могут быть добавлены дополнительные показатели для учета новой информации. Создание аналитических наборов данных предприятия потребует временных и денежных затрат. Это не должно вас пугать. Со временем расходы окупятся благодаря экономии человеко-часов и аппаратных ресурсов.

Концепция товарного моделирования, изложенная в главе 6, — прекрасный пример анализа, провести который было бы невозможно без аналитического набора данных предприятия.

Для создания эффективного аналитического набора данных предприятия необходима кросс-функциональная команда. Специалистам в области бизнеса придется помочь определить показатели, которые они хотят изучить. Аналитикам нужно разработать логику генерирования этих показателей. ИТ-специалистам предстоит обеспечить поддержание структур и процессов аналитических наборов данных предприятия в среде, где они будут развернуты. Только если задействованы все три команды, можно максимально эффективно воспользоваться всеми преимуществами. В следующих разделах рассказывается, как происходит этот процесс.

Что входит?

Проектирование аналитического набора данных предприятия — довольно простая задача. Процесс начинается с инвентаризации всех метрик, с которыми обычно работают аналитики. При наличии нескольких версий одного и того же показателя следует включить все. Например, некоторые аналитики используют валовой объем продаж за вычетом скидок и возвратов, а другие — валовой объем продаж только за вычетом скидок. Включите в EADS оба варианта так, чтобы он содержал валовой объем продаж за вычетом скидок и валовой объем продаж за вычетом как скидок, так и возвратов. Нет необходимости выбирать только один показатель! Если со временем появятся новые важные метрики, добавьте их. Аналитический набор данных предприятия должен постоянно развиваться. Поначалу EADS может содержать определенный набор метрик, который со временем будет дополняться.

Выбирайте всё!

В жизни редко предоставляется такой выбор, чтобы вы могли ответить: «Я возьму всё». аналитический набор данных предприятия дает такую возможность. Используйте все варианты определения показателей, чтобы удовлетворить все потребности. Дополнительные усилия, связанные с добавлением дополнительных вариантов, практически несущественны. Оставьте споры о том, какая из метрик лучше подходит для той или иной задачи, на другой день. Вне зависимости от того, кто выиграет в этом споре, ваши потребности будут учтены!

Важно понимать, что аналитический набор данных предприятия вовсе не должен предоставлять аналитикам 100% данных, которые могут потребоваться для каждого проекта. Этот набор может обеспечить порядка 90% данных; для конкретного же проекта могут быть нужны показатели, которые используются нечасто и поэтому отсутствуют в EADS. Это нормально.

Допустим, требуется провести глубокий анализ хитов продаж сезона отпусков. В наборе EADS, вероятно, окажутся только данные на уровне группы товаров. В этом случае анализ сосредоточен на небольшом наборе конкретных товаров. Необходимо вычислить показатели для этих товаров, чтобы дополнить ими уже присутствующие в EADS данные. Однако потребность в анализе этих отдельных товаров возникает нечасто, поэтому нет смысла добавлять их показатели в EADS.

Если аналитический набор данных предприятия содержит 80–90% необходимых метрик, аналитики могут сосредоточиться на вычислении дополнительных 10–20% показателей, а затем перейти к их анализу. Они также могут воспользоваться логикой, примененной при создании метрик EADS. Если со временем аналитики заметят, что часто добавляют одни и те же показатели, то эти показатели следует внести в EADS. Для добавления новых метрик придется разработать руководящие принципы.


Сравнение логической и физической структур

Уже упоминалось, что аналитический набор данных предприятия содержит одну строку для каждого объекта с десятками, сотнями или тысячами показателей. Если вы знакомы со «старыми» плоскими файлами, то примерно об этом и идет речь. Логическая и физическая структура EADS отличаются друг от друга (см. рис. 5.8).

Было бы логично представить EADS о клиенте в виде таблицы, содержащей данные о продажах, демографические данные и информацию, связанную с мероприятиями прямого маркетинга, однако данные о потребителе могут храниться иначе. Физическое представление EADS может включать одну таблицу, содержащую данные о продажах, одну таблицу с демографическими данными и одну таблицу с метриками, относящимися к мероприятиям прямого маркетинга.

Пользователям не следует об этом беспокоиться. Как только будут определены подходящие метрики, люди, управляющие базой данных, смогут выбрать наилучший способ их хранения. Затем на основе физических таблиц можно добавить нужные пользователям представления.

 eads

Рис. 5.8. Сравнение логического и физического представления EADS

Обновление

Обновление аналитического набора данных предприятия — главная причина существования физически отдельных таблиц. Различные типы данных, например данные опросов, о продажах и демографические, могут требовать обновления с разной частотой: данные о продажах — ежедневного обновления; демографические — ежеквартально; данные опросов могут вообще никогда не обновляться. При проведении нового опроса данные загружаются в систему, и их уже не касаются.

Таким образом, легче поместить различные типы данных в разные физические таблицы, чтобы они могли обновляться независимо друг от друга. Это сэкономит системные ресурсы, поскольку в таблице не будет дополнительных метрик, когда в обновлении нуждаются лишь немногие. Кроме того, отдельные таблицы или представления облегчают аналитикам процесс извлечения конкретных типов данных, которые им требуются. Наконец, многие базы данных имеют ограничения на количество столбцов в одной таблице, поэтому для большого EADS может потребоваться несколько таблиц.

Обратите внимание: вне зависимости от того, как физически хранится EADS, по мере необходимости используются представления для сбора различных фрагментов. Одно представление может содержать только показатели продаж и данные опросов, другое — только данные опросов и демографические показатели, а третье — все три типа данных. Со временем, если появится новый источник данных, например данные социальных медиа или веб-данные, основанные на этих данных метрики добавляют в аналитический набор данных предприятия. Можно определить и подходящий способ хранения новых данных, и обновленный набор представлений для их использования.


Сводные таблицы или представления?

Один из вариантов набора данных предприятия — набор сводных таблиц, которые обновляются с помощью запланированного процесса. У аналитического набора данных, основанного на таблицах, есть ряд преимуществ.

Во-первых, вы действительно можете вычислить показатели один раз и использовать их многократно. Общая нагрузка на систему, вызванная работой аналитиков, значительно уменьшится, поскольку вместо того, чтобы каждый специалист многократно запускал один и тот же тип процесса для объединения и агрегирования, этот процесс запускается один раз, а его результаты становятся общими.

Другое преимущество состоит в том, что б?льшая часть передовых аналитических процессов подразумевает интенсивное использование исторических данных. Слегка устаревшие данные не окажут значительного влияния на результат. Возможно, организация обновляет данные о продажах в EADS каждую ночь или раз в неделю. Для большинства передовых аналитических проектов это нормально. Кумулятивные показатели также не окажутся сильно затронутыми. Например, когда для расчета показателя используются данные за предыдущий год, средний размер покупательской корзины не очень изменится, если не будет учтена сегодняшняя продажа.

Последнее преимущество заключается в том, что у аналитиков будет уходить мало времени на ожидание данных, поскольку они смогут обратиться к уже существующим таблицам EADS. Больше не нужно ждать, пока обработаются большие запросы. Специалисты смогут сразу приступить к анализу.

У EADS, основанного на таблицах, есть и недостатки. Первый: таблицы аналитического набора данных предприятия не будут содержать самых последних данных. Второй заключается в том, что они будут использовать дисковое пространство системы, вероятно, довольно большое. Последний недостаток связан с необходимостью определения подходящего графика обновления для различных компонентов и налаживания соответствующих процессов.

Второй вариант набора данных предприятия — серия представлений, которые запускаются по требованию. У этого подхода есть несколько преимуществ.

Во-первых, аналитические наборы данных предприятия всегда будут полностью обновленными. Во-вторых, при необходимости проведения анализа в режиме реального времени у аналитиков не возникнет проблем, поскольку у них всегда будет доступ к самым свежим данным. Наконец, если в набор данных предприятия внести какие-либо изменения, то они окажутся доступными сразу же. Непосредственно после обновления представления следующий человек, который его запросит, получит доступ к новым данным.

Делайте то, что необходимо

Вам нужно решить, как часто следует обновлять аналитический набор данных предприятия. Вам также нужно решить, следует ли хранить EADS в виде физических таблиц, логических представлений или их сочетания. В каком направлении следует двигаться, помогут определить конкретные требования. В большинстве случаев используется комбинация таблиц и представлений.

У аналитических наборов данных предприятия, основанных на представлениях, также есть недостатки. Во-первых, нагрузка на систему не обязательно будет сильно снижена, поскольку, хотя аналитики используют одно и то же представление, процесс запускается каждый раз при обработке запроса. Далее, существует такое огромное преимущество, как согласованность и прозрачность вычислений. Последний недостаток связан с тем, что аналитикам придется дольше ждать, чтобы получить данные, поскольку они будут не вычисляться заранее, а генерироваться по необходимости.

Во многих случаях имеет смысл использовать в структуре EADS комбинацию таблиц и представлений. Одни данные будут обновляться постоянно, в то время как другие могут оказаться немного устаревшими. Обращайтесь с каждым конкретным источником данных наиболее подходящим способом. Решение об использовании таблицы или представления должно быть основано на требованиях, связанных с производительностью и ограничениями пространства.

Используя таблицы, постарайтесь ограничить объем хранящихся данных. Не сохраняйте соотношения или другие аналогичные производные метрики — для вычисления таких показателей пользуйтесь представлениями поверх базовой таблицы. Например, если EADS содержит общий объем продаж и общее количество транзакций, нет смысла хранить и объем продаж на одну транзакцию. Создайте представление, которое делит объем продаж на количество транзакций. Вычисление этого показателя практически не требует дополнительных системных ресурсов и экономит много места.


EADS открывает доступ к информации для других пользователей и приложений

После того как аналитический набор данных предприятия будет развернут, организации необходимо максимально эффективно его использовать, причем не только аналитиками. Нет причин, по которым структуры EADS не могут применяться в среде бизнес-аналитики и среде для создания отчетов. Зачем разрабатывать логику для вычисления метрик в среде для создания отчетов, если они уже содержатся в EADS?

Точно так же любое приложение, которое может извлечь пользу из содержимого EADS, должно использовать его. Один из распространенных примеров — CRM*, применяющий EADS для сегментации потребителей. В этом случае данные о клиентах, содержащиеся в EADS, становятся доступными для CRM-приложения.

Основываясь на метриках, пользователи смогут выбрать клиентов, не вычисляя их с помощью CRM-инструмента. Примером может служить также приложение центра обработки вызовов, использующее EADS для предоставления данных о клиентах сотрудникам колл-центра. В этом случае, когда звонит клиент, сотрудник видит на экране различные данные о клиенте. Такие показатели, как недавно совершенные покупки, могут помочь сотруднику колл-центра решить, как лучше обработать данный вызов.

Дело в том, что в EADS содержится огромное количество информации. Он позволяет устранить дублирование усилий, значительно увеличить прозрачность и соответствие данных, обеспечить более высокую скорость и масштабируемость.

Не менее важным является тот факт, что EADS открывает прямой доступ к широкому спектру информации для других пользователей и приложений.

* CRM — система управления взаимоотношениями с клиентами (англ. CustomerRelationshipManagement).

Укрощение больших данных: как извлекать знания из массивов информации с помощью глубокой аналитики / Билл Фрэнкс. - М.: Манн, Иванов и Фербер, 2014. Опубликовано с разрешения издательства