Прежде использование выборок считалось обычной практикой. Необходимо только было обеспечить, чтобы размер выборки был достаточным для решения поставленной проблемы. В случае с большими данными наличие достаточного объема данных для выборки, конечно, не проблема.

Используя сегодняшние масштабируемые системы, можно работать с целой популяцией. Больше нет необходимости в отборе 10% клиентов в связи с невозможностью обработки большего объема информации. В некоторых областях, например клинических испытаниях, небольшие размеры выборки все еще могут создавать трудности. Сегодня эти области скорее исключение, чем правило. Тем не менее по-прежнему важно определять, когда в процессе анализа следует использовать выборки. При этом их следует создавать правильно.

В следующий раз, когда будете читать газету, обратите внимание на содержащиеся в ней результаты исследования. Под ними будет указан предел погрешности; как правило, это плюс-минус 3–5%. Вы также увидите размер выборки, который обычно составляет от 800 до 1200 человек.

Предел погрешности и размер выборки будут примерно одинаковым вне зависимости от вопроса, темы и размера популяции, из которой была сделана выборка.

Все, что необходимо для того, чтобы оказаться в пределах нескольких процентных пунктов, — это получить около 1000 ответов.

Чем больше размер выборки, тем меньше погрешность и выше вероятность того, что «правильный» ответ очень близок к тому, который был найден на основе выборки. Большие данные обеспечивают такие размеры выборок, на основе которых можно получить результаты с очень высокими уровнями статистической значимости. Однако различия могут быть чрезвычайно малыми и незначительными с точки зрения бизнеса.

Допустим, производится исследование сотен миллионов веб-сессий, чтобы определить, сколько людей перешли по ссылке А и по ссылке В. При этом установлено, что 2,5235% людей щелкнули по ссылке А, а 2,5237% — по ссылке В. Эта разница в 0,0002% может быть статистически значимой, если выборка достаточно велика. Тем не менее разница несущественна. Она не удовлетворяет критерию важности для бизнеса или критерию релевантности. Как гласит старое правило статистики, «разница должна быть значимой».

Раньше аналитики переживали из-за размера выборки. Беспокойство было вызвано тем, что при использовании маленькой выборки погрешность бывает слишком большой. Когда выборка чрезмерно мала, разница должна быть относительно большой, чтобы считаться статистически значимой. В таких условиях проведение анализа часто бывает бессмысленным. В настоящее время необходимо убедиться, что выборка не слишком велика. Понятие «слишком большой» выборки кажется странным. Но это следует иметь в виду.

Если для решения конкретной проблемы требуется использовать выборку, состоящую из 200 000 клиентов, чтобы обеспечить необходимую степень точности, то обработка выборки в 2 000 000 только потому, что это возможно технически, будет пустой тратой времени и ресурсов. Выборка должна иметь такой размер, который позволит найти статистически значимую разницу, имеющую важность для бизнеса. Если для принятия мер необходимо выявить разницу в 1%, то выберите такой размер выборки, при использовании которого разница в 1% будет иметь статистическую значимость. При использовании слишком большой выборки статистическую значимость может иметь разница, равная доле процента. При этом производится лишняя обработка, не имеющая никакой практической пользы. Убедитесь, что вы используете достаточно большую выборку, размер которой, однако, не слишком превышает минимально необходимый. Укрощение больших данных потребует уменьшения объема до необходимых размеров.

В некоторых случаях может потребоваться использование 100% данных. Один из наиболее распространенных примеров — необходимость создания списка «Лучших N» на основе некоторого критерия. Например, требуется выявить 100 клиентов с самыми большими расходами. По определению любая случайная выборка не может включать всех лучших клиентов, в ней может оказаться лишь случайное их подмножество. Чтобы определить сто лучших клиентов, необходимо учесть их всех.

Как и прежде, сама проблема определяет необходимость в применении выборки и ее размер. По возможности старайтесь использовать выборки эффективно.

Существует и такое распространенное заблуждение: одна и та же выборка подходит для различных задач. Например, отделу маркетинга требуется выборка размером в 10% от общего числа клиентов. Маркетологи создают эту выборку для проведения всех необходимых тестов. Но эта выборка не подойдет другим отделам. Почему? Давайте разберемся.

из клети в сетиИз клети в сети
Реабилитация для зэка
— это значит никогда не успокаиваться и не расслабляться...
истины своими словамиИстины своими словами
О друзьях и предателях, о тюрьмах и зонах, о добре, зле и вере в Бога...
усталые зэки Не злитесь на небо, усталые зэки
Сборник стихов, в основе которых — опыт современного арестанта.
фсин ФСИН: путь из сумрака
Уникальные факты и обстоятельства работы системы исполнения наказаний.