Удовольствие от Х.Увлекательная экскурсия в мир математики от одного из лучших преподавателей в мир - Стивен Строгац
Шрифт:
Интервал:
Закладка:
Как получилось, что процент столь низкий? Гигеренцер утверждает, что анализ становится практически прозрачным, если перевести исходную информацию из процентного соотношения и вероятностей в натуральные числа возможных исходов.
У восьми женщин из тысячи рак груди, причем у семи из них положительная маммография. Среди оставшихся 992 женщин положительную маммографию будут иметь примерно 70. Возьмем женщин, обследование которых дало положительный результат. Сколько из них действительно больны раком груди?
Так как всего в группу риска попало 77 (7 + 70 = 77) женщин — но только семь из них на самом деле больны раком груди, — вероятность того, что у женщины рак груди, при условии положительной маммографии, составляет 7 из 77, или 1 из 11, то есть примерно 9 %.
Отметим два упрощения в приведенных выше подсчетах. Во-первых, мы округлили десятые доли до целых чисел. Так бывает в случаях, подобных тому, где мы сказали «Из восьми женщин, больных раком груди, семь имеют положительную маммографию». В действительности надо было сказать: 90 % из 8 женщин, или 7,2. Таким образом, мы немного пожертвовали точностью для большей ясности изложения.
Во-вторых, мы исходили из того, что все происходит именно с той частотностью, которая предполагается данной вероятностью. Например, поскольку вероятность рака груди составляет 0,8 %, мы предположили, что им больны именно 8 женщин из 1000 нашей гипотетической выборки. Но эти цифры могут не совпадать с реальностью. События не обязаны соответствовать вероятности своего наступления, ведь, если подбросить монетку 1000 раз, необязательно 500 раз выпадет орел. Но, решив, что так и будет, мы получим правильный ответ для подобных задач.
Обычно такая логика считается несколько сомнительной, поэтому ученые мужи смотрят свысока на данный подход в сравнении с более строгой, но сложной в использовании теоремой Байеса. Однако ясность ответа является достаточным аргументом для его применения. Когда Гигеренцер провел повторный опрос еще среди двадцати четырех врачей, на этот раз используя целочисленные вероятности, практически все ответили правильно.
Хотя перевод данных в натуральные числа возможных исходов оказывает нам огромную услугу, задачи по условной вероятности могут ставить в тупик по другим причинам[127]. Здесь существует опасность неверной постановки вопроса или подсчета правильной, но вводящей в заблуждение вероятности.
Этим грешили как обвинение, так и защита во время судебного процесса над О. Дж. Симпсоном в 1994–1995 годах[128]. Обе стороны попросили суд рассмотреть ложную условную вероятность.
Обвинение в течение первых десяти дней процесса доказывало, что Симпсон неоднократно проявлял насилие в отношении своей бывшей жены Николь Браун: регулярно избивал, унижал и прилюдно раздевал, говоря окружающим: «Это принадлежит мне». Однако каким образом эти действия относились к процессу об убийстве? Аргументом обвинения было то, что насилие в семье выступало как мотив убийства. По словам одного из обвинителей, «удар — это прелюдия убийства».
Защитник обвиняемого Алан Дершовиц[129] приводил доводы, что даже если бы голословные утверждения о домашнем насилии оказались правдой, они не относятся к делу и, следовательно, недопустимы. Позднее он написал: «Нам необходимо было доказать, что среди тех, кто избивает своих партнеров, лишь ничтожно малое число, менее 1 из 2500, совершают убийство».
В действительности же обе стороны просили суд рассмотреть вероятность того, что Симпсон убил бывшую жену, принимая во внимание тот факт, что при жизни он ее избивал. Однако специалист в области статистики И. Гуд отметил, что для этого не существует верного доказательства, на которое можно было бы сослаться.
Вопрос на самом деле в следующем: какова вероятность того, что муж убил свою бывшую жену, если до убийства он ее бил и она была кем-то убита? Условная вероятность в таком случае очень далека от схемы 1 на 2500.
Чтобы разобраться почему, представим себе выборку из 100 тысяч избитых женщин. Ссылаясь на предоставленные Дершовицем цифры — 1 из 2500, допустим, что примерно сорок из этих женщин были убиты мужьями в этом году (поскольку 100 000 разделить на 2500 равно 40). Можно также предположить, что еще трое из них убиты кем-либо другим[130] (эта оценка основана на статистике ФБР, касающейся количества женщин, убитых в 1992 году). Итак, из этих 43 жертв 40 были убиты теми, кто их избивал. Другими словами, в 93 % случаев убийцей являлось лицо, избивавшее женщину.
Не путайте это число с вероятностью того, что это сделал Симпсон. Она зависит от множества других обстоятельств, от разных «за» и «против». Например, от заявления защиты о том, что полиция выдвинула Симпсону ложные обвинения, а также от заявления обвинения, что убийца и Симпсон носили одинаковую обувь, перчатки и имели почти одинаковый код ДНК.
Какова вероятность того, что что-нибудь из перечисленного изменит ваше мнение о вынесенном приговоре? Ноль.
24. Распутывание всемирной паутины
В те далекие времена, когда Google еще не существовало, поиск в сети был безнадежным занятием[131]. Сайты, предлагаемые старыми поисковыми машинами, часто не соответствовали запросу, а те, которые содержали нужную информацию, были либо глубоко запрятаны в списке результатов, либо вообще отсутствовали.
Алгоритмы на основе анализа ссылок решили проблему, проникнув в суть парадокса, подобного коанам дзен: в результате поиска в интернете должны были отображаться лучшие страницы. А что же, кузнечик[132], делает страницу лучшей? Когда на нее ссылаются другие не менее хорошие страницы.
Звучит подобно рассуждениям про замкнутый круг.[133] Так и есть. Именно поэтому все настолько сложно. Ухватившись за эту идею и превратив ее в преимущество, алгоритм анализа ссылок дает решение поиска в сети в стиле джиу-джитсу.
Этот подход построен на идеях, взятых из линейной алгебры[134], изучения векторов и матриц. Если вы хотите выявить закономерности в огромном скоплении данных или выполнить гигантские вычисления с миллионами переменных, линейная алгебра предоставит для этого все необходимые инструменты[135]. С ее помощью был построен фундамент для алгоритма PageRank[136], положенного в основу Google. Она также помогает ученым классифицировать человеческие лица[137], провести анализ голосования в Верховном суде[138], а также выиграть приз Netflix[139] (вручаемый команде, сумевшей улучшить более чем на 10 % систему Netflix, на основе которой составляются рекомендации для просмотра лучших фильмов).
Чтобы изучить линейную алгебру в действии, рассмотрим, как работает алгоритм PageRank. А чтобы выявить его сущность без лишней суеты, представим игрушечную паутину, состоящую всего из трех страниц, связанных между собой следующим образом:
Стрелки указывают, что страница X содержит ссылку на страницу Y, однако Y не отвечает ей взаимностью. Наоборот, Y ссылается на Z. Тем временем X и Z ссылаются друг на друга, сцепившись между собой цифровыми лапками.
Какие страницы самые важные в этой маленькой паутине? Вы можете подумать, что это невозможно определить из-за недостатка информации об их содержимом. Но такой способ мышления устарел. Беспокойство по поводу контента вылилось в неудобный способ ранжирования страниц. Компьютеры мало понимают в смысловом наполнении, а люди не справляются с тысячами новых страниц, которые каждый день появляются в сети.
Подход, придуманный Ларри Пейджем и Сергеем Брином, аспирантами университета и основателями Google, состоял в том, чтобы позволить страницам самим ранжироваться в определенном порядке, голосуя ссылками. В приведенном выше примере страницы X и Y ссылаются на Z, благодаря чему Z становится единственной страницей с двумя входящими ссылками. Следовательно, она и будет самой популярной страницей в данной среде. Однако если ссылки поступают со страниц сомнительного качества, они станут работать против себя. Популярность сама по себе ничего не значит. Главное — иметь ссылки с хороших страниц.
И здесь мы снова оказывается в замкнутом круге. Страница считается хорошей, если на нее ссылаются хорошие страницы, но кто изначально решает, какие из них хорошие?
Это решает сеть. Вот как все происходит. (Далее я буду пропускать некоторые подробности, изложенные в примечании[140].)
Алгоритм Google назначает для каждой страницы дробное число от 0 до 1. Это численное значение называется PageRank и измеряет «важность» страницы по отношению к другим, высчитывая относительное количество времени, которое гипотетический пользователь потратит на ее посещение. Хотя пользователь может выбирать более чем из одной исходящей ссылки, он выбирает ее случайно с равной вероятностью. При таком подходе страницы считаются более авторитетными, если они чаще посещаются.