Рациональность. Что это, почему нам ее не хватает и чем она важна - Стивен Пинкер
Шрифт:
Интервал:
Закладка:
Предположим, исследовательница проводит какие-то наблюдения и преобразует результаты наблюдений в данные, отражающие эффект, который ее интересует, например разницу симптомов в группе, которой давали лекарство, и в группе, получавшей плацебо, или разницу в речевых навыках мальчиков и девочек, или повышение экзаменационных оценок у студентов, посещавших дополнительные занятия. Если это число равно нулю, значит, эффекта нет; если оно больше нуля — возможно, пора кричать «эврика». Но из людей выходят плохие подопытные кролики, в данных полно шума, и, если среднее оказывается выше нуля, это может означать как какое-то реальное изменение, так и ошибку отбора, чистую случайность. Давайте снова поднимемся на уровень восприятия бога и начертим кривые распределения результатов, которые исследовательница получит, если в реальности ничего не происходит (это называется «нулевая гипотеза»), и результатов, которые она получит, если что-то — эффект определенной величины — все же происходит. Эти кривые накладываются друг на друга — вот что делает науку таким непростым занятием. Картина должна показаться вам знакомой:
Нулевая гипотеза — это шум, альтернативная гипотеза — сигнал. Величина эффекта — что-то вроде чувствительности: она определяет, насколько легко отделить сигнал от шума. Прежде чем открывать шампанское, исследовательница должна применить к полученным результатам некий критерий, который еще называют критической величиной. Не преодолев критической величины, она не может опровергнуть нулевую гипотезу и примется заливать горе; если же она ее преодолела, значит, нулевая гипотеза опровергнута и можно праздновать, объявив эффект «статистически значимым».
Но где поместить эту критическую величину? Исследовательница вынуждена искать баланс между двумя типами ошибок. Если она опровергнет верную нулевую гипотезу — это ложная тревога, или, в терминах теории статистических решений, ошибка первого рода. Если же ей не удастся опровергнуть ложную нулевую гипотезу — это промах, или ошибка второго рода. Ни то ни другое не сулит ничего хорошего. Ошибка первого рода привносит ложные факты в совокупность научного знания. Ошибка второго рода — это перевод денег и усилий. Она случается, когда «мощность метода» (доля верных попаданий, или 1 минус доля ошибок второго рода) недостаточна для обнаружения эффекта.
Давным-давно — кем и когда, точно неизвестно — было решено, что ошибки первого рода («обнаружение» эффекта там, где его нет) наносят особенно сильный вред научному знанию, которое может выдержать только определенную их долю — если быть точным, не более 5 % от всех исследований, в которых нулевая гипотеза была верна. Отсюда и возникла общепринятая практика: ученые должны устанавливать такую критическую величину, которая гарантирует, что вероятность опровержения нулевой гипотезы в случаях, когда она верна, составляет менее 5 %; вот оно, вожделенное «p < 0,05». (Может, кто-то и задумывался о необходимости учитывать и издержки ошибок второго рода, как это принято в теории обнаружения сигнала, но по некой туманной исторической причине этого так и не случилось.)
Вот что такое «статистическая значимость» — это способ ограничить долю ложных заявлений об открытиях произвольно выбранным верхним пределом. Предположим, вы получили статистически значимый результат при p < 0,05. Значит ли это, что вы вправе сделать перечисленные ниже выводы?
• Вероятность, что нулевая гипотеза верна, составляет менее 0,05.
• Вероятность, что эффект реален, превышает 0,95.
• Если вы опровергли нулевую гипотезу, шанс, что вы ошиблись, составляет менее 0,05.
• Если вы попытаетесь воспроизвести исследование, шанс, что вам это удастся, составляет более 0,95.
Девять из десяти профессоров психологии, включая 80 % тех, кто преподает статистику, так и думают[303]. Но они ошибаются, ошибаются и еще раз ошибаются! Если вы внимательно следили за рассуждениями в этой главе и в главе 5, вы понимаете почему. «Статистическая значимость» — это байесовское правдоподобие, вероятность получения определенных данных при условии, если гипотеза верна (в нашем случае нулевая гипотеза)[304]. Однако каждое из перечисленных выше утверждений представляет собой байесовскую апостериорную вероятность — вероятность, что гипотеза верна при условии получения определенных данных. Вот что нам нужно, вот зачем мы взялись за исследование — но проверка на статистическую значимость показывает совсем не это! Если вы помните, почему у Ирвина нет заболевания печени, почему дома не так уж опасно и почему папа римский не инопланетянин, вы знаете, что эти две условные вероятности нельзя менять местами. Наша исследовательница не может использовать тест на статистическую значимость в качестве оценки истинности или ложности нулевой гипотезы, если она не учтет априорную вероятность — ее наилучшее предположение о вероятности, что нулевая гипотеза истинна, сформулированное до эксперимента. Но в математике проверок на статистическую значимость эту самую априорную вероятность днем с огнем не сыщешь!
Специалисты по общественным наукам в массе своей настолько привыкли к ритуалу проверки на статистическую значимость, которой озабочены с младых ногтей, что позабыли логику, которая за ней стоит. Я понял это, сотрудничая с лингвистом-теоретиком Джейн Гримшоу, которая, поднаторев в статистике, однажды сказала мне: «Давай-ка разберемся: единственное, что эти тесты показывают, так это то, что, если эффекта не существует, один из двадцати ученых, которые его ищут, будет утверждать, что эффект есть. Почему ты так уверен, что это не ты?» Честный ответ: ни почему. За ее скептицизмом кроется еще одно объяснение кризиса воспроизводимости. Допустим, подобно кэрролловским охотникам на снарка, двадцать ученых гоняются за неким миражом. Девятнадцать прячут свои нулевые результаты поглубже в ящик стола, а тот единственный, кому повезло (или не повезло) совершить ошибку первого рода, публикует свое «открытие»[305]. В одном выпуске комикса XKCD пара ученых проверяет наличие корреляции между поеданием мармеладных драже и подростковыми угрями отдельно по двадцати цветам и пожинает лавры, увязав зеленые драже с прыщавостью с p < 0,05[306]. До ученых наконец дошла эта шутка: они приучаются публиковать нулевые результаты и разрабатывают методики, способные компенсировать проблему «ящика стола» при метаанализе литературы, то есть исследовании исследований. Отсутствие нулевых результатов бросается в глаза, и тот, кто проводит метаанализ, может зафиксировать не только то ничто, которое есть, но и то, которого нет