Процесс оценки данных начинается с анализа колоколообразной кривой, главным назначением которой является не определение точного значения, а оценка ошибок. Если бы результат каждого измерения точно соответствовал тому, что мы измеряем, не о чем было бы говорить. Если бы люди, слоны, орхидеи или гагарки не отличались друг от друга в пределах своего вида, жизнь на Земле была бы совсем другой. Но в мире господствует не тождество, а сходство; ни одно измерение не является абсолютно точным. При наличии нормального распределения колоколообразная кривая упорядочивает эту путаницу. Фрэнсис Гальтон, с которым мы встретимся в следующей главе, с немалой долей пафоса писал о нормальном распределении: «Закон частоты ошибок»... с непоколебимым самообладанием безмятежно царит в немыслимом хаосе. Чем больше толпа... тем больше в ней единства. Это предельный закон хаоса. Чем больше беспорядочных элементов попадает в его руки... тем более неожиданной и прекрасной оказывается скрывающаяся за видимым хаосом форма упорядоченности13. Большинство из нас сталкивается с колоколообразной кривой еще в школьные годы. Учитель выставляет оценки «по кривой», в случайном порядке, он не начинает с низшей, чтобы закончить высшей. Успеваемость средних студентов вознаграждается средней троечкой. Слабые и сильные получают оценки, распределяющиеся симметрично относительно средней. Даже если все работы выполнены прекрасно или, наоборот, безобразно, в совокупности имеющихся работ лучшая оценивается по высшему баллу, а худшая по низшему. Многие натуральные показатели, например рост людей в группе или длина среднего пальца, описываются нормальным распределением. По утверждению Гальтона, для того чтобы результаты наблюдений располагались нормально или симметрично относительно среднего значения, необходимы два условия. Во-первых, число наблюдений должно быть достаточно велико, во-вторых, наблюдения должны быть независимыми, как бросание кости. Упорядочить можно только хаос. Взаимозависимость входящих в выборку данных может стать причиной серьезных ошибок. В 1936 году ныне забытый журнал «Literary Digest» предпринял опрос для предсказания исхода борьбы между кандидатами в президенты Франклином Рузвельтом и Альфредом Лэндоном. Редакция разослала лицам, отобранным с использованием телефонной книги и данных о регистрации автомобилей, около десяти миллионов опросных листов в виде открыток с оплаченным возвратом. Подсчет возвращенных открыток показал, что за Лэндона собираются голосовать 59% избирателей, а за Рузвельта только 41%. Однако в ходе выборов Лэндон получил 19% голосов, .в то время как за Рузвельта проголосовали 61% избирателей. Дело в том, что в середине 30-х годов владельцы автомобилей и телефонов не составляли типичной выборки американских избирателей: их избирательные предпочтения были обусловлены их уровнем жизни, который был тогда не по карману большинству населения. — 114 —
|