Как лгать при помощи статистики краткое содержание

Обновлено: 03.07.2024

Как лгать при помощи статистики

Переводчик Е. Лалаян

Редактор А. Черникова

Научный редактор В. Ионов

Руководитель проекта А. Деркач

Корректор Е. Аксёнова

Компьютерная верстка К. Свищёв

Дизайн обложки Ю. Буга

Все права защищены. Произведение предназначено исключительно для частного использования. Никакая часть электронного экземпляра данной книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами, включая размещение в сети Интернет и в корпоративных сетях, для публичного или коллективного использования без письменного разрешения владельца авторских прав. За нарушение авторских прав законодательством предусмотрена выплата компенсации правообладателя в размере до 5 млн. рублей (ст. 49 ЗОАП), а также уголовная ответственность в виде лишения свободы на срок до 6 лет (ст. 146 УК РФ).

Существуют три вида лжи: ложь, наглая ложь и статистика.

Придет время, и статистическое мышление станет таким же необходимым качеством для истинного гражданина, как умение читать и писать.

Нам досаждают не столько те вещи, о которых мы не знаем, сколько те, о которых мы знаем, что с ними что-то не так.

Круглые числа всегда лгут.

У меня есть обширная тема [статистика] и есть много, что написать по этой теме, но со всей остротой я осознаю, что мне не хватит литературных талантов, чтобы изложить ее просто и доходчиво, не жертвуя при этом точностью и основательностью.

В искажении статистики заинтересованы все, кто ищет способы исказить общественное мнение и воспользоваться этим в целях собственного обогащения. Немало и таких, кто хочет скрыть настоящие цифры, потому как они отражают крайне неприглядные факты. Наконец, статистика оказывается объектом прямого манипулирования во всех случаях, когда она является частью процессов принятия решений государственного масштаба.

В России ситуация со статистикой никогда не была столь печальной, как сейчас. Если в 80-х и 90-х гг. прошлого столетия официальная статистика в России страдала от тотального недофинансирования, то сегодня сами принципы государственного и муниципального управления в России таковы, что статистика стремительно превращается из инструмента доверия в инструмент распределения государственных средств.

Муниципальная статистика и проблемы сбора информации местной властью// Вестник Новосиб. гос. ун-та. Серия: Социально-экономические науки. 2014. Т. 14, вып. 4. С. 125–140

Есть такой замечательный жанр — "вредные советы", в котором детям дают советы, а дети, как известно, всё делают наоборот и получается всё как раз правильно. Может быть и со всем остальным так получится?

Статистика, инфографика, big data, анализ данных и data science — этим сейчас кто только не занят. Все знают как правильно всем этим заниматься, осталось только кому-то написать как НЕ нужно этого делать. В данной статье мы именно этим и займемся.

Hazen Robert "Curve fitting". 1978, Science.

Предвзятая выборка (Sampling bias)

В 1948 году во время президентской гонки в США в ночь на оглашение результатов выборов Труман (демократы) против Дьюи (республиканцы) газета Chicago Tribune опубликовала свой, пожалуй, самый знаменитый заголовок DEWEY DEFEATS TRUMAN (см. фото). Сразу после закрытия участков газета провела опрос, обзвонив огромное (достаточное для выборки) число избирателей, и всё предвещало оглушительную победу Дьюи. На фото мы видим смеющегося Трумана, победителя выборов 48го года. Что же пошло не так?

Народное творчество о данном феномене:

Зарплата выпускников

Никого не удивляло, что когда мы слышим о зарплатах выпускников ВУЗов, то почему-то всегда это неправдоподобно высокие цифры? В США сейчас доходит дело даже до судов, где выпускники утверждают, что данные по зарплатам искусственно завышены.

(картинка из How to Lie with Statistics)

Правильно выбираем среднее (Well-chosen average)

Представим себе компанию, в которой руководитель получает 25 тысяч, его заместитель 7,6 тысяч, топ-менеджеры по 5,5 тысяч, менеджеры среднего звена по 3,5 тысячи, младшие менеджеры по 2,5 тысячи, а обычные работники по 1,4 тысячи (абстрактных фунтиков) в месяц.

И наша задача представить информацию о компании в положительном свете. Мы можем написать средняя заработная плата в компании составляет X, но что означает среднее? Рассмотрим возможные варианты (см. схему ниже):

(картинка из How to Lie with Statistics)

Арифметическое среднее некоторого конечного множества X=i> — это такое число m равное mean(X) из уравнения:

Это самая бесполезная информация с точки зрения работника — 3,472 средняя зарплата, но за счет чего получается такая высокая цифра? За счет высоких зарплат руководства, что создает иллюзию, что работник будет получать столько же. С точки зрения работника данная величина не является особо информативной.

Медиана некоторого распределения P(X) (X=i>), это такая величина m, что она удовлетворяет следующему уравнению:

Проще говоря, половина работников получает больше данной величины, а половина меньше — ровно середина распределения! Данная статистика достаточно информативна для работников компании, так как она позволяет определить как зарплата сотрудника соотносится с большинством сотрудников.

Мода конечного множества X=i>, это число m, которое встречается в X чаще всего. В данном случае, мода может быть наиболее информативна для человека, который собирается начать работать в данной компании.

Таким образом в зависимости от ситуации под средним значением может пониматься любая из указанных выше величин (в принципе и не только из них). Поэтому принципиально важно понять, как же рассчитывается это среднее значение.

И еще 10 неудачных экспериментов, про которые мы не написали

Опустим обычную газету в серную кислоту, а журнал ТВ Парк — в дистиллированную воду! Почувствовали разницу? С журналом ничего не произошло — бумага как новая! (Весь ролик тут.)

Наши исследования сообщают, что зубная паста Doake's на 23% процента эффектнее конкурентов, и всё это благодаря Dr Cornish's Tooth Powder! (Который наверняка содержал β-каротин и секретную формулу леса — прим. автора.) Вы наверное удивитесь, но исследование действительно провели и даже выпустили технический отчет. И эксперимент действительно показал, что зубная паста на 23% процента эффективнее конкурентов (чтобы это не значило). Но только вся ли это история?

В действительности выборка для эксперимента составляла всего лишь дюжину человек (согласно Darrell Huff и уже упомянутой книге). Это именно та выборка, которая нужна, чтобы получить любые результаты! Представим, что мы подбрасываем монетку пять раз. Какова вероятность, что все пять раз выпадет орел? (1/2) 5 = 1/32. Всего лишь одна тридцать вторая, это не может быть просто совпадением, если выпадут все пять орлов, ведь так? А теперь представим, что мы повторяем этот эксперимент 50 раз. Хоть одна из этих попыток увенчается успехом. О ней-то мы и напишем в отчете, а все другие эксперименты никуда не пойдут. Таким образом мы получим исключительно случайные данные, которые отлично вписываются в нашу задачу.

Играем со шкалой

Предположим, завтра нужно показать на совещании, что мы догнали конкурентов, но числа немного не сходятся, что же делать? Давайте немного подвигаем шкалой! Даже известный своей качественной работой с данными New York Times выпустил подобный совершенно сбивающий с толку график (обратите внимание на скачок с 800к до 1,5м в центре шкалы).

(пример из How to Display Data Badly Howard Wainer. The American Statistician, 1984.)

Выбираем 100%

Представим, что в прошлом году молоко стоило 10 копеек за литр и хлеб был 10 копеек за буханку. В этом году молоко упало в цене на 5 копеек, а хлеб вырос на 20. Внимание вопрос, что мы хотим доказать?

Представим, что прошлый год — это 100%, основание для расчетов. Тогда молоко упало в цене на 50% процентов, а хлеб вырос на 200%, среднее 125%, а значит в целом цены выросли на 25%.

Давайте попробуем еще разок, пусть текущий год — 100%, значит цены на молоко составляли 200% в прошлом году, а хлеб 50%. А значит, в прошлом году цены в среднем были на 25% выше!

Скрываем нужные числа

Лучший способ что-то скрыть — это отвлечь внимание. Например, рассмотрим зависимость количества частных и публичных школ (в тысячах штук) по годам. Из графика видно, что число публичных школ сокращается, а число частных существенно не изменяется.

(пример и графики из How to Display Data Badly, Howard Wainer. The American Statistician, 1984.)

Визуальная метафора

Если сравнивать не с чем, а запутать очень хочется, то самое время для непонятных визуальных метафор. Например, если мы изобразим вместо длины площадь на графике, то любой рост будет казаться гораздо более значительным.

Рассмотрим потребление количества пива в США за 1970-1978 годы в миллионах баррелей и долю рынка компании Schlitz (см. график ниже). Неплохо выглядит, внушительно. Не правда ли?

(графики и примеры из John P. Boyd, lecture notes How to Graph Badly or What. NOT to Do)

Первая картинка не врет, все числа в ней верные, только она неявно преподносит данные в совершенно ином свете.

(картинка из How to Lie with Statistics).

Пример качественной визуализации

Качественная визуализация прежде всего преподносит результаты, избегая неоднозначности, и передает достаточное количество информации в сжатом объеме. Про работу Шарль-Жозефа Минара хорошо сказано тут:

Тут прекрасно совершенно все, зрителя не держат за идиота, и не тратят его время на втыкание в ~~censored~~. Широкая бежевая полоса показывает размер армии в каждой точке похода. В правом верхнем углу — Москва, куда приходит французская армия и откуда начинается отступление, показанное черной полосой. К маршруту отступления для дополнительного интереса привязан график времени и температуры.

Вывод в итоге: изумленный зритель сравнивает размер армии на старте с тем, что вернулось домой. Зритель весь в чувствах, он узнал новое, он ощутил масштаб, он заворожен, он понял, что в школе ничего не узнал.

(Charles Joseph Minard: Napoleon's Retreat From Moscow (The Russian Campaign 1812-1813), 1869.)

Заключение и дальнейшее чтение

Данная подборка покрывает далеко не полный список приемов, которые осознанно, а также не осознанно искажают данные. Данная статья прежде всего демонстрирует, что мы должны очень внимательно следить за предоставленными нам статистическими данными и выводами сделанными на их основе.

Результат выборочного исследования не может быть лучше выборки, на которой оно основано. Чтобы данные выборочного исследования имели ценность, они должны основываться на репрезентативной выборке, то есть на выборке, из которой устранены все возможные источники предвзятости.

Подвергайте такому осмыслению все прочитанное, и тогда вы сумеете оградить себя от сведений, не имеющих под собой реальной почвы.

Базовая выборка относится к категории случайной (вероятностной) выборки. Она отбирается произвольным образом из генеральной совокупности.

Проверить, действительно ли выборка имеет случайный (произвольный) характер, можно с помощью такого вопроса: каждое ли имя или предмет из обследуемой совокупности имеют равный шанс попасть в выборку?

Безупречно случайная – единственный тип выборки, которую можно исследовать при помощи статистических методов с полной уверенностью в надежности результата. Но у нее имеется один недостаток. Получить такую выборку настолько трудно и дорого, что чисто материальные соображения заставляют отказаться от этой идеи. Более экономной заменой, повсеместно используемой в изучении общественного мнения и рыночной конъюнктуры, будет стратифицированная случайная выборка.

Чтобы получить стратифицированную выборку, вы должны разбить генеральную совокупность на несколько групп (страт) пропорционально известному показателю их распространенности в совокупности. Вот тут-то и начнутся трудности: сведения о том, каково соотношение групп в генеральной совокупности, могут быть некорректны.

Вы инструктируете интервьюеров, которые будут проводить опрос, чтобы среди опрошенных было столько-то чернокожих, такой-то процент людей, относящихся к нескольким группам населения по размеру доходов, определенное число фермеров и т. п. Но вместе с тем в группе должно быть представлено равное количество людей в возрасте старше и моложе 40 лет.

Но что происходит на деле? В том, что касается цвета кожи, интервьюеры не ошибутся. Но они допустят больше ошибок в оценке размера доходов опрашиваемых. А если говорить о фермерах, то как вы классифицируете человека, который часть времени трудится на ферме, но вдобавок имеет работу в городе? Даже такой вопрос, как возрастная категория респондента, может создать некоторые трудности, но интервьюеры преодолевают их самым простым способом – выбирают респондентов, которые явно старше или значительно моложе 40 лет. Правда, в таких случаях выборка будет предвзятой ввиду фактического отсутствия в ней лиц в возрасте под 40 и тех, кому 40 с небольшим.

А кроме всего прочего, как на условиях стратификации получить вероятностную выборку? Самое очевидное решение – сначала переписать всех, кто входит в страту, а затем найти и опросить выбранных из этого списка случайным образом. Но это слишком уж дорогостоящая процедура. И тогда вы просто выходите на улицу – и сами искажаете свою выборку, поскольку в ней не будут представлены люди, которые сидят в это время по домам. Если вы будете стучаться в двери днем – значит, не охватите большинство тех, кто работает. Решив проводить опросы по вечерам, вы упустите любителей кинематографа и завсегдатаев ночных клубов.

Результаты опроса, безусловно, до такой степени предвзяты и необъективны, что это их практически обесценивает. Можете сами судить, сколь многие сделанные на основе таких опросов выводы предвзяты и ни к чему не годны.

Когда мне требуется показатель побольше, я использую простое среднее, то есть среднее арифметическое. Например, для расчета среднего дохода семей требуется сложить доходы всех семей и разделить получившуюся сумму на число семей.

Мода – это чаще всего встречающееся значение в числовом ряду, составленном из доходов семей в интересующей нас местности. Если у большей части проживающих там семей годовой доход составляет $5000, это значение и будет модой, или модальным доходом.

Разные виды среднего имеют близкие значения, когда дело касается данных наподобие тех, что относятся ко многим характеристикам человека. Они настолько любезны, что изволят тяготеть к тому, что называется нормальным распределением. Если начертить кривую нормального распределения, то по форме она будет напоминать колокол, а среднее арифметическое значение, медиана и мода попадут в одну и ту же точку.

Один вид среднего ничуть не хуже другого, когда требуется охарактеризовать рост группы мужчин. Но все совсем не так, когда стоит задача описать размер их доходов.

Также данная книга доступна ещё в библиотеке. Запишись сразу в несколько библиотек и получай книги намного быстрее.

Перейти к аудиокниге

Посоветуйте книгу друзьям! Друзьям – скидка 10%, вам – рубли

По вашей ссылке друзья получат скидку 10% на эту книгу, а вы будете получать 10% от стоимости их покупок на свой счет ЛитРес. Подробнее

Объем: 190 стр. 87 иллюстраций
Жанр:з арубежная публицистика, с оциология
Теги:м анипулирование, с татистика, с татистические данные, с татистический анализРедактировать

Эта и ещё 2 книги за 299 ₽

По абонементу вы каждый месяц можете взять из каталога одну книгу до 600 ₽ и две книги из персональной подборки.Узнать больше

Отзывы 14

Зачем писать целую книгу, когда здесь мыслей на статью в журнале. Есть интересные выводы, но воды в книге не мало. Не стану советовать.

Откидывая небольшие нюансы и недостатки, можно смело сказать, что покупка этой книги стоит того. Особенно полезна она будет для людей, кто волей-неволей сталкивается со статистикой.

С помощью этой книги, на мой взгляд, можно сформировать критическое взгляд на окружающие нас цифры, причем чтение не является утомительным и иногда заставляет даже посмеяться.

В принципе ко многим уловкам можно прийти самому, так как ложь в СМИ и из иных источников раскрывается простыми логическими методами, и в книге на примерах показывается это. В любом случае включать анализатор нужно независимо от доверия/недоверия тому или иному источнику информации. Все могут лгать хотя бы косвенно. Читать, наблюдать, соотносить! Стоит прочитать для систематизации самых общих приёмов. Для себя лично отметил приём с визуальной демонстрацией графика отличной от логического содержания. В любом случае помимо данной книги советую изуить множество других. Даже элементарные учебники логики или философии.

Необъективная выборка

Чтобы данные выборочного исследования имели ценность, они должны основываться на репрезентативной выборке, из которой исключены все возможные источники предвзятости.

Вот пример нерепрезентативной выборки, который приводит Хафф. Один психиатр заявил, что практически любой человек — неврастеник. Но спросим себя: что послужило основой для такого вывода? Каких именно людей наблюдал данный психиатр? Оказывается, он пришел к такому поучительному выводу, изучая своих пациентов, а они более чем неподходящие кандидатуры на роль выборки из всего населения. Если человек вполне нормален, то у психиатра нет никаких шансов увидеть его у себя на приеме.

Другой — уже хрестоматийный — пример связан с выборами президента США. Журнал Literary Digest в 1936 году, опросив своих подписчиков, предсказал триумфальную победу республиканца Альфреда Лэндона над демократом Франклином Рузвельтом. В журнале забыли учесть, что его подписчики — это в основном богатые и зажиточные американцы, чаще всего сторонники республиканской партии. Победу на выборах одержал Рузвельт.

Грамотно выбранное среднее

Во многих случаях все три средних показателя настолько близки по значению, что нет никакой необходимости делать различие между ними. Но если речь идет о доходах, то разница между тремя средними — огромная.

Так это выглядит на конкретном примере, где владелец компании зарабатывает 45 тыс. долларов, среднее арифметическое получается 5,7 тыс., а большинство сотрудников довольствуются 2 тыс. долларов.

Красивые графики

Простейшая разновидность статистической картинки — это график. Полезная вещь — когда нужно продемонстрировать те или иные тенденции, напугать или успокоить. Всё, что требуется — задать нужную единицу деления на оси координат. 10% могут выглядеть и как восходящая тенденция, и как впечатляющий рост. Никаких фальсификаций, те же самые значения, та же самая кривая, но эффект другой.

Псевдообоснованная цифра

Примеры? Да пожалуйста!

В 1953 году в авиакатастрофах погибло больше людей, чем в 1910 году. Должен ли отсюда следовать вывод, что авиаперелеты стали более опасны? Нет! Просто люди стали летать в сотни раз больше, чем раньше, вот и всё.

Уровень смертности в военно-морском флоте США в период Испано-Американской войны в 1898 году составлял девять человек на тысячу. За тот же период уровень смертности среди гражданского населения Нью-Йорка достигал шестнадцати человек на тысячу. На войне безопаснее, чем дома? Конечно, нет! В рядах военно-морского флота служат главным образом молодые и здоровые мужчины. Гражданское население состоит среди прочего из малых детей, стариков и больных, и для этих категорий населения уровень смертности выше, где бы они ни находились.

Неправильная причинно-следственная связь

После — не всегда значит вследствие! И Дарелл Хафф доказывает это на конкретных примерах и призывает быть бдительными.

Часто бывает так: взаимосвязь существует, но нельзя сказать, какая из переменных выступает причиной, а какая следствием. Гораздо коварнее, когда ни одна из переменных не оказывает воздействия на другую, но корреляция между ними всё равно есть, причем существенная.

Вот пример такой фиктивной корреляции. По словам Хаффа, уровень самоубийств достигает максимума в июне. Тогда же насчитывается наибольшее количество новобрачных. В чем дело? Самоубийства порождают такое количество свадеб? Или свадьбы провоцируют отвергнутых женихом или невестой свести счеты с жизнью? Более убедительным, но тоже недоказанным объяснением будет следующее. Некто отчаявшийся всю зиму борется с депрессией в надежде, что весной тучи рассеются. Но он окончательно сдается, когда наступает лето, выглядывает солнце, а никакого просвета нет…

Читайте также: