Сломанный код. Внутри Facebook и борьба за раскрытие его вредных секретов - Джефф Хорвиц
Шрифт:
Интервал:
Закладка:
Решением стало создание FB Learner, своего рода версии машинного обучения "по цифрам". Он упаковал методы в шаблон, который могли использовать инженеры, в буквальном смысле не понимающие, что они делают. FB Learner сделал для машинного обучения внутри Facebook то, что когда-то сделали сервисы вроде WordPress для создания веб-сайтов, избавив от необходимости возиться с HTML или настраивать сервер. Однако инженеры, о которых идет речь, не создавали блог, а возились с внутренностями того, что быстро становилось ведущей глобальной коммуникационной платформой.
Многие в Facebook знали о растущем беспокойстве по поводу искусственного интеллекта за стенами компании. Плохо разработанные алгоритмы, призванные поощрять хорошее здравоохранение, наказывали больницы, которые лечили более больных пациентов, а модели, призванные количественно оценить риск повторного совершения преступления кандидатом на условно-досрочное освобождение, оказывались предвзятыми в пользу содержания чернокожих в тюрьме. Но в социальной сети эти проблемы казались далекими.
Один из заядлых пользователей FB Learner позже охарактеризовал массовое распространение машинного обучения в Facebook как "вручение ракетных установок двадцатипятилетним инженерам". Но в то время Киньонеро и компания говорили об этом как о триумфе.
"Инженеры и команды, даже с небольшим опытом, могут с легкостью создавать и проводить эксперименты и внедрять продукты на основе искусственного интеллекта в производство быстрее, чем когда-либо", - объявил Facebook в 2016 году, хвастаясь тем, что FB Learner ежедневно получает триллионы точек данных о поведении пользователей и что инженеры проводят на них 500 000 экспериментов в месяц.
Огромное количество данных, которые собирал Facebook, и настолько хорошие результаты таргетинга рекламы, что пользователи регулярно подозревали (ошибочно) компанию в подслушивании их разговоров в офлайне, породили утверждение, что "Facebook знает о вас все".
Это было не совсем верно. Чудеса машинного обучения заслонили его пределы. Рекомендательные системы Facebook работали на основе сырой корреляции между поведением пользователей, а не на основе выявления их вкусов и интересов и последующей подачи контента на их основе. News Feed не могла сказать, нравится ли вам катание на коньках или на велосипеде, хип-хоп или K-pop, и не могла объяснить человеческим языком, почему одно сообщение появилось в вашей ленте выше другого. Хотя эта необъяснимость была очевидным недостатком, системы рекомендаций на основе машинного обучения говорили о глубокой вере Цукерберга в данные, код и персонализацию. Освобожденные от человеческих ограничений, ошибок и предвзятости, алгоритмы Facebook были способны, по его мнению, на беспрецедентную объективность и, что, возможно, более важно, эффективность.
Отдельное направление работы по машинному обучению было посвящено выяснению того, какой контент на самом деле содержится в постах, рекомендованных Facebook. Известные как классификаторы, эти системы искусственного интеллекта были обучены распознаванию образов на огромных массивах данных. За много лет до создания Facebook классификаторы доказали свою незаменимость в борьбе со спамом, позволив поставщикам электронной почты выйти за рамки простых фильтров по ключевым словам, которые блокировали массовые письма, скажем, о "Ви@гре". Получив и сравнив огромную коллекцию писем - некоторые из них были помечены как спам, а некоторые как не спам, - система машинного обучения могла разработать свой собственный рубрикатор для их различения. После того как этот классификатор будет "обучен", его можно будет пустить в свободное плавание, анализируя входящую почту и предсказывая вероятность того, что каждое сообщение будет отправлено во входящие, в папку нежелательной почты или прямиком в ад.
К тому времени, когда в Facebook начали появляться эксперты по машинному обучению, список вопросов, на которые пытались ответить классификаторы, вышел далеко за рамки "Это спам?", во многом благодаря таким людям, как ЛеКун. Цукерберг был уверен в будущем прогрессе этой технологии и ее применении в Facebook. В 2016 году он предсказывал, что в ближайшие пять-десять лет классификаторы превзойдут человеческие способности к восприятию, распознаванию и пониманию, что позволит компании закрывать от неправильного поведения и совершать огромные скачки в соединении мира. Это предсказание оказалось более чем оптимистичным.
Даже по мере совершенствования методов, увеличения массивов данных и ускорения обработки данных один недостаток машинного обучения сохранялся. Алгоритмы, которые создавала компания, упорно отказывались объяснять сами себя. Инженеры могли оценить успешность классификатора, протестировав его, чтобы узнать, какой процент его суждений был точным (его "точность") и какую часть вещей он обнаружил (его "отзыв"). Но поскольку система сама учила себя определять что-то на основе логики собственного дизайна, когда она ошибалась, не было никакой понятной человеку причины.
Иногда ошибки казались бессмысленными. В других случаях они были систематическими и отражали человеческий фактор. Артуро Бежар вспоминает, что в самом начале работы Facebook над классификатором для выявления порнографии система регулярно пыталась отсеять изображения кроватей. Вместо того чтобы научиться определять людей, занимающихся сексом, модель научилась распознавать мебель, на которой они чаще всего занимаются сексом.
Проблема легко решалась: инженерам нужно было просто обучить модель на большем количестве матрасных сцен с рейтингом PG. Это стало хорошей шуткой - если не принимать во внимание, что форма машинного обучения, которую только что испортили инженеры, была одной из самых простых, которые использовал Facebook. Подобные фундаментальные ошибки продолжали происходить, даже когда компания стала полагаться на гораздо более продвинутые методы ИИ для принятия гораздо более весомых и сложных решений, чем "порно или не порно". Компания полностью перешла на искусственный интеллект, как для определения того, что должны видеть люди, так и для решения любых проблем, которые могут возникнуть.
Несомненно, компьютерная наука была ослепительной, а достижения - конкретными. Но скорость, широта и масштабы внедрения машинного обучения в Facebook обошлись без понятности. Почему алгоритм Facebook "Страницы, которые вам могут понравиться" так сосредоточен на рекомендациях определенных тем? Как видеофрагмент из компьютерной анимации о зубных имплантатах оказался просмотренным сто миллионов раз? И почему некоторые новостные издательства добивались вирусности, просто переписывая материалы других изданий?
Отвечая на эти вопросы, специалисты по связям с общественностью Facebook отмечали, что системы компании реагируют на поведение людей и не учитывают вкусы. Эти доводы было трудно опровергнуть. Они также скрывали неудобный факт: Facebook добивалась своего роста не