UA-11904844-8

В главе 4 мы говорили о преимуществах массивно-параллельных систем. Одно из применений такой системы — содействие созданию и внедрению процессов углубленной аналитики.

Однако для более эффективного использования корпоративного хранилища данных или витрины данных специалистам необходимы особые права и доступ. Аналитическая песочница — механизм, необходимый для их работы. При правильном использовании аналитическая песочница может быть одним из главных факторов, определяющих повышение ценности, в мире больших данных.

Термин «песочница» восходит к песочнице, в которой играют дети. В песочнице они могут создавать все, что им захочется, например слепить что-то из песка. Точно так же песочница в контексте аналитики представляет собой набор ресурсов, которые позволяют специалистам экспериментировать и изменять данные любым способом. Для описания концепции песочницы используются также термины «гибкое аналитическое облако» и «лаборатория данных». Не имеет значения, какой термин вы выберете. Важно, что вы будете использовать данную концепцию.

Определение и сфера применения аналитической песочницы

Аналитическая песочница предоставляет набор ресурсов, с помощью которого можно произвести глубокий анализ, чтобы ответить на важные бизнес-вопросы. Аналитическая песочница идеально подходит для исследования данных, разработки аналитических процессов, доказательства концепций и прототипирования*. Как только дело доходит до управляемых пользователем или производственных процессов, в применении песочницы отпадает необходимость.

Песочница будет применяться довольно небольшой группой пользователей. В песочнице будут создаваться данные, отделенные от производственной базы данных. Пользователи песочницы также будут иметь возможность загружать собственные данные как часть проекта на короткие периоды, даже если эти данные не включены в официальную модель данных предприятия.

Данные в песочнице будут иметь ограниченный срок актуальности. Идея заключается не в создании массива постоянных данных: во время работы над проектом следует создавать необходимые для него данные. После завершения проекта данные следует удалить. При правильном использовании песочница может стать одним из основных факторов, обеспечивающих дополнительную аналитическую ценность для организации.

* Прототипирование (англ. prototyping — первообраз) — реализация базовой функциональности для анализа работы системы в целом, поиска «узких мест». Используется в машино- и приборостроении, программировании, во многих других областях техники. После этапа прототипирования обязательно следуют этапы пересмотра архитектуры системы, разработки, реализации и тестирования конечного продукта. Прим. ред.


Преимущества аналитической песочницы

Каковы преимущества аналитической песочницы? Рассмотрим этот вопрос с точки зрения аналитика и ИТ-специалиста.

Преимущества с точки зрения профессионального аналитика:

  • Независимость. Профессиональные аналитики смогут работать в системе баз данных без необходимости постоянно запрашивать разрешение для выполнения конкретных проектов.
  • Гибкость. Профессиональные аналитики смогут использовать любые необходимые аналитические инструменты, будь то средства бизнес-аналитики, статистического анализа или визуализации.
  • Эффективность. Профессиональные аналитики смогут использовать существующие корпоративные хранилища данных или витрины данных без необходимости в перемещении или переносе данных.
  • Свобода. Профессиональные аналитики смогут тратить меньше времени на администрирование систем и наблюдение за производственными процессами, передав эти функции обслуживания ИТ-специалистам.
  • Скорость. Переход к параллельной обработке обеспечит значительное увеличение скорости. Кроме того, это даст возможность совершать большее количество попыток и смелее подходить к внедрению инноваций.

Песочница дает преимущества всем!

Среда песочницы обладает определенными преимуществами как для профессиональных аналитиков, так и для ИТ-специалистов. В данном случае одна группа не выигрывает за счет другой. люди часто боятся новой концепции, поскольку не понимают ее. Потребуется некоторое время на то, чтобы обучить людей и преодолеть первоначальную реакцию. Однако эти усилия оправдают себя.

Преимущества с точки зрения ИТ-специалиста:

  • Централизация. ИТ-специалист сможет централизованно управлять средой песочницы так же, как любой другой средой базы данных в системе.
  • Оптимизация. Песочница значительно упростит переход от аналитических процессов к производству благодаря наличию единой платформы для разработки и внедрения.
  • Простота. На стадии разработки больше не нужно создавать процессы, которые придется полностью переписывать для запуска в производственной среде.
  • Контроль. ИТ-специалист будет в состоянии контролировать среду песочницы, балансировать ее потребности с потребностями других пользователей. Производственная среда не пострадает, если эксперимент в песочнице не удастся.
  • Затраты. Путем консолидации многочисленных аналитических витрин данных в единую центральную систему можно обеспечить значительную экономию средств.

Внутренняя песочница

Внутренняя песочница представляет собой выделенную часть корпоративного хранилища данных или витрины данных. Такая песочница физически расположена в производственной системе. Однако сама база данных песочницы не интегрирована в производственную базу данных. Песочница представляет собой отдельный контейнер базы данных в рамках системы (рис. 5.1).

Внутренняя песочница

Рис. 5.1. Внутренняя песочница

Обратите внимание: в случае с большими данными целесообразно добавить среду MapReduce. Обычно она устанавливается в дополнение к платформе базы данных, если только вы не используете систему, которая позволяет объединить обе среды. Среда MapReduce потребует обеспечения доступа к внутренней песочнице. Две среды могут обмениваться данными по мере необходимости. О модели MapReduce шла речь в главе 4.

Одна из сильных сторон внутренней песочницы в том, что она может использовать существующие аппаратные ресурсы и инфраструктуру. Это позволяет очень легко наладить ее применение. С точки зрения администрирования нет никакой разницы между созданием песочницы и созданием любого другого контейнера базы данных в системе. Отличия песочницы заключаются в некоторых разрешениях, которые предоставляются ее пользователям, и в способах ее использования.

Вероятно, самое большое преимущество внутренней песочницы заключается в возможности напрямую объединять производственные данные с данными песочницы. Поскольку все производственные данные и все данные песочницы находятся в производственной системе, легко связать эти источники друг с другом и работать со всеми данными одновременно (рис. 5.2).

Устройство внутренней песочницы

Рис. 5.2. Устройство внутренней песочницы

Внутренняя песочница — очень экономичная технология, поскольку для ее использования не требуется новое оборудование. Производственная система уже существует — она просто используется по-новому. Ликвидация необходимости в перемещении данных между платформами также снижает затраты. Единственное исключение — необходимость в перемещении данных между базой данных и средой MapReduce.

У внутренней песочницы есть несколько слабых сторон. Одна из них заключается в дополнительной нагрузке на существующее корпоративное хранилище данных, или витрину данных. Песочница будет использовать как дисковое пространство, так и ресурсы процессора (в потенциале — довольно интенсивно). Внутренняя песочница может быть ограничена производственной политикой и процедурами. Например, если в понедельник утром практически все системные ресурсы необходимы для создания отчетов, то пользователям песочницы окажутся доступными лишь минимальные ресурсы.


Внешняя песочница

В случае с внешней песочницей создается физически отдельная аналитическая песочница для тестирования и разработки аналитических процессов. Чисто внешняя среда используется относительно редко. Чаще встречаются внутренние, или гибридные песочницы, о которых мы поговорим далее. Однако важно понимать, что собой представляет внешняя песочница, поскольку она является компонентом среды гибридной песочницы (рис. 5.3).

05-3-vneshnyaya-pesochnicza

Рис. 5.3. Внешняя песочница

Самое большое преимущество внешней песочницы заключается в ее простоте. Песочница — это автономная среда, предназначенная для разработки процессов углубленной аналитики. Она не влияет на другие процессы, чем обеспечивает гибкость при разработке и использовании.

Например, можно экспериментировать с различными параметрами базы данных или перейти на более новую версию базы данных, чтобы протестировать новый функционал. Так часто делается в традиционных системах тестирования и разработки, используемых для создания приложений.

Часто возникает вопрос: не нарушает ли внешняя система концепцию, согласно которой при проведении анализа данные должны находиться в базе данных? Ответ на этот вопрос — нет, если вы будете рассматривать ее в качестве среды аналитической разработки. Большинство организаций имеют независимую от производственной системы среду тестирования и/или разработки для целей бизнес-аналитики. Это необходимо в процессе создания, тестирования и отладки новых процессов. Внешняя песочница представляет собой точно такую же концепцию по тем же причинам, только предназначена она для аналитических инициатив.

Другое преимущество внешней песочницы состоит в том, что уменьшается необходимость в управлении рабочей нагрузкой. Когда систему используют только аналитики, нет необходимости беспокоиться о настройке и балансировке. Работа среды песочницы и производственной среды будет предсказуемой и стабильной. Например, в понедельник утром пользователи песочницы не столкнутся с дефицитом ресурсов, связанным с созданием отчетов. Они будут обеспечены устойчивым доступом к песочнице.

Внешняя песочница не нарушает правил

Внешняя песочница не нарушает правил обработки в базе данных. Внешнюю песочницу следует рассматривать как среду для тестирования и разработки аналитических процессов. существует множество веских и убедительных причин для использования таких сред, и они повсеместно применяются для разработки приложений и отчетов.

Внешняя песочница обычно представляет собой реляционную базу данных той же природы, что и производственная система. Таким образом, перемещение процессов из песочницы в производственную среду подразумевает простое копирование. Если извлеченные данные, отправленные в песочницу, хранятся в той же структуре, что и производственные данные, осуществить перенос легко.

Когда дело доходит до работы с большими данными, следует включить MapReduce как часть среды внешней песочницы. В этом случае среда внешней песочницы будет содержать реляционную базу данных и компонент MapReduce. В одних случаях одна система справится с обеими функциями, в других потребуется две физические платформы.

Главная слабость внешних песочниц заключается в необходимости дополнительных расходов на автономную систему которая служит платформой для песочницы. В целях экономии многие организации, обновляя свои производственные системы для создания среды песочницы, используют старое оборудование, которое в противном случае было бы выброшено, и это позволяет сэкономить на покупке оборудования для песочницы.

Еще одно слабое место — необходимость перемещения некоторых данных. До разработки нового аналитического процесса в песочницу должны быть перемещены данные из производственной системы; нужно также поддерживать потоки данных. Они могут не быть слишком сложными, однако это дополнительный набор заданий, требующих выполнения. Любые потоки данных следует строго ограничить и фокусироваться только на том, что абсолютно необходимо.


Гибридная песочница

Среда гибридной песочницы — это сочетание внутренней и внешней песочниц. Она позволяет аналитикам при необходимости использовать мощь производственной системы и гибкость внешней системы в целях глубокого анализа или решения задач, не являющихся дружественными для базы данных (рис. 5.4).

Гибридная песочница

Рис. 5.4. Гибридная песочница

Сильные стороны гибридной среды объединяют преимущества внутренних и внешних песочниц, а также гибкость в выборе подхода к анализу. При работе во внешней песочнице легко избежать воздействия на производственные процессы на стадии раннего тестирования. Когда приходит время для итогового тестирования и предварительного развертывания, можно использовать производственную песочницу. Среда MapReduce может дополнить гибридную песочницу путем поддержки как внутренней, так и внешней песочницы.

Другое преимущество проявляется, когда созданный аналитический процесс необходимо временно запустить в «псевдопроизводственном» режиме во время полного развертывания производственной системы. Такие процессы легко запустить из внутренней песочницы.

Слабые стороны гибридной среды включают недостатки обоих вариантов, но с некоторыми дополнениями. Одна из слабых сторон заключается в необходимости поддержания среды и внутренней, и внешней песочницы. В этом случае нужно поддерживать согласованность работы не только внешней песочницы и производственной среды, но и внешней песочницы и внутренней песочницы.

В каких случаях следует использовать тот или иной вариант песочницы? Необходимо определить конкретные виды задач, предназначенных для внешней и внутренней песочниц. Специалисты не могут произвольно использовать ту или иную среду. Команда аналитиков должна разработать рекомендации и придерживаться их.

Не переполняйте песочницу

В среду внешней песочницы следует копировать минимальный объем данных, необходимых для анализа. В песочнице должна размещаться только небольшая часть данных, хранящихся в производственной среде. со временем конкретные данные будут меняться в зависимости от текущих аналитических потребностей. создавать копии следует только в случае крайней необходимости.

Последний недостаток заключается в том, что могут потребоваться несколько двусторонних потоков данных; это усложнит работу. Данные, доступные для внутренней и внешней песочниц, должны быть согласованными. По мере разработки новых данных в одной из сред может потребоваться воспроизвести их в другой.


Выявление ценности новых источников данных

Один из лучших способов применения песочницы — постоянное выявление новых источников данных, которые следует добавить в организационные системы и процессы. Возможно, вы покупаете поток данных из социальных медиа или файл с демографическими данными или же получаете поток информации из нового источника больших данных. Как аналитики будут изучать эти новые данные и экспериментировать с ними?

Представьте себе, как нерационален был бы типичный подход использования новых данных до их исследования! Вам пришлось бы оправдать и описать проект для загрузки данных. После этого потребовалось бы разработать процессы извлечения, преобразования и загрузки данных (ETL), чтобы загрузить данные в систему. Необходимо было бы разработать, утвердить и реализовать модель данных. Затем все перечисленное пришлось бы протестировать. Через три-шесть месяцев процесс был бы запущен, а данные подготовлены к использованию. В этот момент анализ может показать, что эти данные не имеют большой ценности и вам не нужны. Сколько ресурсов было бы потрачено впустую на формальное добавление этих данных в систему!

Сначала опробуйте образец

Если люди не уверены, понравится ли им вкус мороженого, они его пробуют. Если вкус нравится, они заказывают целую порцию. Если нет, переходят к другому сорту. следуйте той же логике при работе с новыми источниками данных, особенно с источниками больших данных. Не покупайте целую порцию, если вы не уверены в том, что это именно то, что вам нужно. сначала поэкспериментируйте с данными в своей песочнице.

Чтобы избежать такого сценария, следует взять фрагмент новых данных, загрузить их в песочницу и протестировать. Если ожидания не оправдались, двигайтесь дальше! Если оправдались, можно начинать длительный и дорогостоящий процесс формального использования данных. Применить аналитическую песочницу для исследования и доказательства ценности новых источников данных значительно быстрее и дешевле, чем использовать традиционные способы.


Управление рабочей нагрузкой и планирование мощностей

Существует множество компонентов систем баз данных, которые обеспечивают надежную работу песочницы. Пользователей песочницы можно отнести к группе, которая имеет разрешение на разработку новых передовых аналитических процессов. Можно, например, ограничить ресурсы процессора, выделяемые для данного пользователя песочницы. Системы корпоративного класса достаточно гибки, чтобы выделить для пользователей только 10% ресурсов в период высокой нагрузки, однако в ночное время всю систему может использовать один пользователь.

Контролируются количество одновременных запросов или даже типы запросов пользователей. Например, им может быть позволено выполнять лишь пять параллельных заданий одновременно. Могут существовать процессы для выявления и отмены плохо сформированных запросов, например запроса, содержащего перекрестное соединение двух больших таблиц.

Важно ограничить использование дискового пространства посредством политики сохранения данных. Если набор данных в песочнице не был востребован в течение пары месяцев, его следует удалять по умолчанию. Песочницы не должны использоваться для непрерывного наращивания наборов данных, как это часто бывает в традиционных средах.

У некоторых моих клиентов было пять терабайт различных корпоративных данных, однако их аналитическая среда содержала от 30 до 50 терабайт. Причина в том, что каждый аналитик сделал копию большей части данных. У каждого аналитика, возможно, было даже несколько копий данных для разных проектов. Вот почему существует огромное количество избыточных данных. Один и тот же подход не должен повторно использоваться в среде песочницы. Данные в песочнице должны удаляться, если только не существует конкретной причины для их сохранения.

По мере того как во внутренней песочнице запускается все больше аналитических процессов, будут меняться соотношения и уровни использования ресурсов как в среде песочницы, так и в производственной среде. Это нормально. Поскольку среды работают на одной стандартизированной платформе, аналитическая обработка может быть учтена в прогнозах использования ресурсов точно так же, как все остальное. Планы загрузки мощностей следует обсудить перед началом работы, однако в обработке данных в песочнице нет ничего особенного, что могло бы изменить действия людей, которые разрабатывают эти планы. Работа в песочнице просто встраивается в общий процесс. Системные администраторы знают, как это обеспечить.

Бытует распространенное заблуждение, что аналитическая песочница способна «уничтожить» систему, использовать все ресурсы и спровоцировать хаос. Это неправда. Очень крупные аналитические задания, как правило, необходимо запустить один или два раза в начале работы над проектом. Их не нужно запускать снова и снова. Запуск крупных заданий можно легко запланировать, например, на ночное время, когда система не загружена на полную мощность. Вместо того чтобы затратить все системные ресурсы, аналитическая песочница способна привести к противоположному результату. Запущенные в песочнице аналитические процессы могут использовать ресурсы, которые в противном случае были бы невостребованными. Это позволяет получить дополнительную отдачу от инвестиций в инфраструктуру без лишних расходов. Это здорово!

Истина прямо противоположна тому, во что многие верят!

Среда песочницы может обеспечить создание дополнительной ценности за счет текущих инвестиций, а не за счет дополнительных затрат. Ее использование не подразумевает необходимости в покупке нового оборудования. Кроме того, песочница не мешает другим процессам. Она повышает отдачу от инвестиций без каких-либо негативных последствий. Как только вы поймете, что собой представляет песочница и как она работает, вы осознаете, что истина прямо противоположна тому, во что многие верят!

И последний важный момент. Добавление аналитических процессов в среду песочницы само по себе не требует новых мощностей. Если в настоящее время система используется на 95–99%, то добавление внутренней песочницы, вероятно, потребует обновления системы. Это вызвано только тем, что система настолько загружена, что любое новое приложение или процесс, добавленные в нее, потребуют наращивания мощностей. Точно так же, если для создания внешней песочницы используется старое оборудование, не возникает необходимости в новых затратах. На самом деле дополнительная ценность будет обеспечиваться благодаря оборудованию, которое в противном случае было бы выброшено и не приносило бы никакой пользы.

Укрощение больших данных: как извлекать знания из массивов информации с помощью глубокой аналитики / Билл Фрэнкс. - М.: Манн, Иванов и Фербер, 2014.
Опубликовано с разрешения издательства