“Потому что на 10 девчонок по статистике 9 ребят”, – утверждал Ким Рыжов, объясняя, почему девчонки “стоят в сторонке”. Но была ли клубная выборка репрезентативна или девчонки могли стоять в сторонке по другим, случайным причинам или по некоторому стечению обстоятельств? В данном сообщении дается ответ на этот весьма серьезный вопрос.

Ключевые слова: значимость различий, доверительный интервал доли, объем выборки, демография, медицинская статистика.

Доля девушек среди населения (демографическая доля) % больше, чем доля юношей % на 5,2632 %. Однако из теории выборочного метода [3] известно, что доля признака, рассчитанная по малой выборке, имеет широкий доверительный интервал (ДИ). Это может нивелировать различия между величинами.

Интервальная оценка предпочтительнее точечной оценки при исследовании выборочных данных. При описании частот и долей вычисление доверительных интервалов обязательно [1]. Доверительный интервал представляет собой меру точности оцениваемого параметра. В биологии и медицине, как правило, вычисляется “снисходительный” 95% доверительный интервал. В пределах этого интервала в 95 случаев из 100 будет находиться истинное значение частоты встречаемости признака. И только в 5 случаях из 100, допускается, что 95% доверительный интервал не накроет оцениваемый параметр.

В результате различия, наблюдаемые в генеральной совокупности, могут стать статистически незначимы в выборках, извлеченных из этой совокупности за счет перекрытия доверительных интервалов выборочных долей. В нашем случае это может означать, что установленные среди больших групп населения различия в долях девушек и юношей могут стать статистически не достоверны в “масштабах” клуба вследствие значительной ширины доверительных интервалов долей. Иными словами, тот факт, что “девчонки стоят в сторонке” может являться чистой случайностью или может быть вызван стечением обстоятельств, а не закономерным следствием того, что девушек больше в популяции, как полагал поэт.

Чем меньше численность выборки, тем шире ДИ и больше ошибка выборки, равная, как известно, длине половины ДИ. У малых выборок весьма большие “шансы” быть нерепрезентативными. Выборочное исследование, таким образом, порождает проблему репрезентативности, которая заключается в том, с какой достоверностью можно переносить результаты наблюдения отдельных выборок, отобранных из генеральной совокупности на саму совокупность и, наоборот.

В данной статье зададимся вопросом, какая должна быть по размерам выборка, чтобы быть репрезентативной по выделенному нами половому признаку. Тогда можно было бы свободно судить о женском демографическом перевесе не только в общей молодежной популяции, но и в выборках на данном уровне значимости.

Под объемом выборки N будем понимать общее число всех пришедших на танцы в клуб. Среди них есть, конечно, и девушки, и юноши. Не изменяя доли девушек n=52,6316 %, вычислим “снисходительные” 95% доверительные интервалы этой доли при различных объемах выборок: 19 и выше. Воспользуемся методом Вальда [5] и каким-либо онлайн-калькулятором, например http://forum.disser.ru/index.php?act=attach&type=post&id=149. Если объем выборки достаточно велик, то ДИ для доли можно вычислять, используя нормальное распределение. Вместе с тем оно не является единственным применяемым распределением при расчете ДИ доли [4]. Наиболее точные результаты дает биномиальное распределение, но вычислительные процедуры оказываются при этом несколько сложнее, чем в случае использования нормального распределения случайной величины. Результаты расчетов сведены в Табл.1 и представлены на Рисунке 1.

Таблица 1

ДИ доли девушек mв зависимости от объема выборки (большой шаг)

Объем выборки	Полуширина 95 % ДИ, %	Нижняя граница 95 % ДИ, %	Верхняя граница 95 % ДИ, %	Нижняя граница 95 % ДИ, число девушек	Верхняя граница 95 % ДИ, число девушек
19	22,45	30,18	75,08	6	14
500	4,38	48,26	57,01	242	285
1000	3,09	49,54	55,73	496	557
1500	2,53	50,10	55,16	752	827
2000	2,19	50,44	54,82	1009	1096
2500	1,96	50,67	54,59	1267	1364
3000	1,79	50,84	54,42	1526	1632

Уменьшим величину шага объема выборки в районе нижней границы доверительного интервала доли девушек, равной 50 % (Табл.2).

Таблица 2

ДИ доли девушек mв зависимости от объема выборки (малый шаг)

Объем выборки	Полуширина 95 % ДИ, %	Нижняя граница 95 % ДИ, %	Верхняя граница 95 % ДИ, %	Нижняя граница 95 % ДИ, число девушек	Верхняя граница 95 % ДИ, число девушек
1382	2,6325	49,9991	55,2640	691	763
1383	2,6315	50,0001	55,2631	692	764
1384	2,6306	50,0010	55,2621	692	764

Проанализируем данные таблиц. Из Табл.2 следует, что если девушек больше, чем юношей на 5,2632 %, то при объеме выборки N=1383 и более этот факт с вероятностью 95 % не случаен.

При полуширина 95 % ДИ становится меньше 2,6316 %.В результате нижняя граница 95 % ДИ доли девушек поднимается выше 50 %. В абсолютном измерении нижняя граница 95 % ДИ девушек при этом будет больше 692, а верхняя граница 95 % ДИ юношей ниже1383-692=691. То есть доверительные интервалы не будут пересекаться за счет уменьшения их ширины вследствие роста численности выборки. Ожидаемое число девушек в клубе при этом Nxm=1383x0,526316=727, юношей, соответственно,1383-727=656.

Рис.1. Доля девушек m в зависимости от объема выборки и ДИ этой доли. Длина планок на рисунке соответствует ширине 95 % ДИ доли девушек. При росте объема выборки ширина 95 % ДИ уменьшается до нуля. Также видно, что уровень 50 % для нижней границы ДИ приходится на объем 1000-1500 выборки.

Из Рисунка 1 следует, что, действительно, значение 50 % нижней доверительной границы доли девушек приходится на объем выборки примерно от 1000 до 1500 пришедших на танцы, что косвенно подтверждает данные Табл.2.

Таким образом, безукоризненной, с точки зрения статистики, была бы фраза: “Стоят девчонки, стоят в сторонке, потому что на 727 девчонок в клубе 656 ребят”. Или “Стоят девчонки, стоят в сторонке, потому что на 10 девчонок по статистике 9 ребят, при этом в клубе 1383 посетителя” и т. д. “Выиграла” бы статистика, но песня бы “проиграла”!

Итак, мы обсудили вопрос, в выборках какого объема, имея определенную генеральную пропорцию, можно утверждать, что доля с одним значением признака достоверно больше доли с другим, альтернативным значением– на “снисходительном” уровне значимости. Другими словами, какие выводы можно сделать, основываясь на изучении одной пропорции?

В общем виде задача могла бы ставиться так. Даны доли бинарного признака в генеральной совокупности, одна больше другой. Найти объем выборки, начиная с которого можно достоверно утверждать, что эта доля остается больше и в выборочном исследовании на заданном уровне значимости.

В результате при исследовании степени вариации “демографического” соотношения девушек и юношей в выборках различного объема можно также отметить следующее.

1. Если в клубе число пришедших на танцы равно 19, то с вероятностью 95 % можно утверждать, что число девушек, пришедших на танцы, может равняться равновероятно любому целому числом от 6 до 14 , то есть быть необязательно больше числа юношей. В этом случае с равной достоверностью возможны следующие комбинации числа девушек и юношей: (6, 13), (7, 12), (8, 11), (9, 10), (10, 9), (11, 8), (12, 7), (13, 6), (14, 5), которые совсем не демонстрируют наличие острого мужского демографического дефицита.

2. Если в клубе будет менее чем 1383 посетителей, нет веских оснований утверждать(при данной демографической доле), что девушек в клубе должно быть больше. Если на самом деле их оказалось больше, то это могло произойти по случайным причинам (может быть обусловлено стечением каких-то обстоятельств).

3. Минимальный объем выборки, репрезентативной и по средним уровням характеристик, и по степени вариативности, равен 1383 посетителей. Только, начиная с этого объема выборки, с вероятностью 95 % есть основания утверждать, что девушек больше на танцах, чем юношей неслучайно, а в соответствии с общей генеральной долей – свойствами генеральной совокупности.

Вместо схемы “девушки-юноши” можно рассматривать, конечно, любую другую пару противоположных состояний, например пациенты “обследованные-необследованные”, “здоровые-больные”, “вылеченные-невылеченные”, “неинфицированные-инфицированные”, “живые-умершие”, “с доброкачественными-злокачественными” опухолями и т.д. Тогда N следует расценивать как общее количество больных, подвергнутых лечению;M из них, например, получали лекарственный препарат А, принимали препарат B. Таким образом, выполненный анализ находит свои приложения и для чисто медицинских задач [2].

Список литературы

1. Гржибовский А.М. Доверительные интервалы для частот и долей / Экология человека. – 2008. – № 5. – С. 57-60.

2. Медик В.А., Токмачев М.С. Математическая статистика в медицине: учеб. пособие. – М.: Финансы и статистика, 2007. – 800 с.

3. Шварц Г. Выборочный метод. Руководство по применению статистических методов оценивания / Пер. с нем. – М.: Статистика, 1978. – 214 с.

4. Pires A.M., Amado C. Interval estimators for a binomial proportion: Comparison of twenty methods // REVSTAT – Statistical Journal, June 2008, vol. 6, no. 2, pp. 165-197.

Главная Конференции Редколлегия Учреждения Документация Авторы Новости Контакты

Наверх

Цитаты
великих
людей

«Знание возбуждает любовь: чем больше знакомишься с наукою, тем больше любишь ее»

Николай Чернышевский

ГОРОДА: Москва, Санкт-Петербург, Новосибирск, Екатеринбург, Нижний Новгород, Казань, Самара, Челябинск, Омск, Ростов-на-Дону, Уфа, Красноярск, Пермь, Волгоград, Воронеж, Владивосток, Ярославль, Обнинск, Калининград, Орел, Тюмень, Томск, Тамбов, Тверь, Улан-Удэ, Смоленск, Саранск, Сочи, Ставрополь, Сыктывкар, Рязань, Пенза, Оренбург, Набережные Челны, Новгород Великий, Новороссийск, Магадан, Магнитогорск, Липецк, Калуга, Кемерово, Краснодар, Ижевск, Иваново, Иркутск, Забайкальск, Владимир, Вологда, Белгород, Брянск

Разработка и
продвижение: AdHeads