Аналитический набор данных (analytic data set, ADS) — это данные, собранные с целью создания аналитического процесса или модели и представленные в формате, необходимом для решения конкретной аналитической задачи.
ADS создается путем преобразования, агрегирования и объединения данных. Он имитирует денормализованную структуру, или плоский файл. Это означает, что в нем будет присутствовать одна запись для одного клиента, местоположения, товара или любой другой сущности, которую необходимо проанализировать. Аналитический набор данных помогает преодолеть разрыв между эффективным хранением и простотой использования.
Б?льшая часть данных в реляционных базах данных хранится в так называемой третьей нормальной форме. Этот метод хранения данных устраняет их избыточность, но усложняет запросы. Таблицы, которые находятся в третьей нормальной форме, очень эффективны для хранения и извлечения данных, но их нельзя непосредственно использовать в большинстве передовых аналитических процессов. Подробное описание третьей нормальной формы выходит за рамки этой книги. Важно то, что аналитические инструменты, как правило, используют данные в простом, денормализованном виде — в формате плоского файла. Сложность углубленной аналитики заключается в алгоритмах и методах, применяемых к данным, а не в структуре самих данных. Аналитические наборы данных могут принимать различные формы, об этом речь пойдет далее.
Сравнение аналитических наборов данных для разработки и производственных аналитических наборов данных
Существует два основных вида аналитических наборов данных (рис. 5.5). ADS для разработки — это набор данных для создания аналитического процесса. Он включает все переменные, которые могут потребоваться для решения задачи. Аналитический набор данных для разработки может содержать сотни или даже тысячи переменных или метрик. Тем не менее он довольно мелок. Это означает, что во многих случаях разработка может производиться с помощью образца данных. Это делает ADS для разработки очень широким, но не очень глубоким. Для скоринга и развертывания требуется производственный аналитический набор данных. Он включает только конкретные метрики, которые фактически содержались в итоговом решении. Как правило, большинство процессов потребуют только небольшой части метрик, изученных на стадии разработки. Основное отличие заключается в том, что процесс скоринга должен быть применен к каждому объекту, а не только к образцу. Каждый клиент, каждое местоположение, каждый товар должны быть оценены. Таким образом, производственный ADS будет не очень широким, но очень глубоким.
Рис. 5.5. Сравнение аналитического набора данных для разработки и производственного аналитического набора данных
Так, при разработке потребительской модели аналитик может исследовать 500 метрик для выборки 100 000 клиентов. Таким образом, аналитический набор данных для разработки широк, но неглубок. Когда придет время запуска процесса скоринга, потребуется, вероятно, только 12 метрик, но они будут нужны для всех 30 000 000 клиентов. Поэтому производственные ADS обычно узкие, но глубокие.
- Назад
- Вперёд >>