Цифровая экономика - Tim Jordan
Шрифт:
Интервал:
Закладка:
Однако в своем первоначальном виде алгоритм PageRank просуществовал недолго. По мере того как Google завоевывал репутацию хорошей поисковой системы и трафик на него начал расти, появилась возможность поднять сайт в рейтинге поиска, добавив на него фальшивые ссылки. Крупные фермы сайтов, которые только и делали, что пытались обмануть рейтинг Google с помощью поддельных ссылок, появились в первых раундах зарождающейся и теперь уже бесконечной борьбы между попытками Google выдать результаты поиска, которые он считает наилучшими, и попытками отдельных сайтов обеспечить себе как можно более высокие позиции в результатах. Как сказал один из экспертов по поиску информации: "Сейчас определенно идет своего рода война между поисковыми системами и маркетологами, маркетологи давят на поисковые системы, чтобы те были более хитрыми, более достоверными в том, как они ранжируют" (цитируется по Mager 2012: 777). В результате Google приходится тратить значительные средства на постоянный мониторинг и модернизацию своих поисковых механизмов, что в свою очередь приводит к изменениям в рекламе. Это приводит ко второму набору практик, необходимых для понимания поиска Google, который включает в себя развитие первоначального алгоритма с помощью других алгоритмов (Hillis et al. 2012).
Одним из самых известных ранних дополнений к PageRank была модель случайного серфера, которая, как следует из названия, вносила случайность, предполагая, что в определенных точках любой человек, переходящий по веб-ссылкам, случайно переходит по другой ссылке. В дальнейшем в алгоритм вносились усовершенствования, некоторые из которых были направлены на попытки обмануть систему, а другие - на улучшение результатов поиска. Например, алгоритм Hilltop стремится разделить веб на тематические разделы, а затем определить, есть ли на сайте ссылки от экспертов, которые не связаны с этим сайтом. Если на сайт ссылается много независимых экспертов, то он считается авторитетным в своей тематической области и может использоваться для оценки важности других сайтов. Таким образом, Hilltop опирается на практику цитирования, развивая ее в определенном направлении. Этот алгоритм изначально разрабатывался независимо от Google и был куплен им для интеграции в собственный набор инструментов. Несомненно, существует множество других корректировок и совершенно новых алгоритмов, интегрированных в PageRank, и из-за коммерческой тайны их будет больше, чем нам известно. Но этих примеров достаточно, чтобы установить основной принцип: как бы он ни был реализован, успешный поиск Google - успешный как с точки зрения выдачи полезных результатов, так и с точки зрения популярности - происходит от чтения творений уже существующего сообщества Всемирной паутины (Turrow 2011: 64-8; Vaidhyanathan 2012: 60-4; Hillis et al. 2012).
Второе ключевое направление развития поиска было открыто Google только после того, как первые алгоритмы чтения WWW оказались успешными. Это второе направление - персонализация, которая стала возможной только после того, как Google стал достаточно большим, чтобы начать собирать значительные массивы данных о пользователях своей поисковой системы. Изучение этих данных позволило нацеливать результаты поиска, причем разные пользователи получают разные результаты поиска. Это особенно актуально, если пользователь пользуется другими сервисами Google, такими как Gmail, и имеет аккаунт Google. Персонализация, по мнению многих, представляет собой процесс, в ходе которого Google определяет, интересуется ли поисковик, использующий такой термин, как "серфинг", серфингом на воде, музыкальными каналами или Интернетом и т. д. Также кажется, что Google идентифицирует пользователей индивидуально, каждый из которых имеет определенный возраст, местоположение, пол, расу и так далее, предлагая пользователям результаты, которые, по мнению пользователей, соответствуют их демографическим характеристикам. Однако рассматривать персонализацию в таким образом - значит рассматривать ее с точки зрения практики пользователя, а не Google. Для последней ключевым является не столько каждый человек, сколько корреляции между многими людьми; именно взаимосвязи являются ключом к получению полезного результата для человека, а не наоборот. Это связано с тем, что необходимо постоянно делать выводы о том, что если многие люди определенного типа предпочитают конкретный результат поиска, то он может быть доставлен людям, которые соответствуют этому типу. Именно такие массовые корреляции позволяют ориентироваться на определенные группы людей - например, предположить, что мужчины определенной возрастной группы могут предпочесть версию фильма "Самый длинный ярд", снятую Бертом Рейнольдсом, тогда как представители более молодой возрастной группы могут искать одноименный ремейк Адама Сэндлера, а люди другой национальности могут быть заинтересованы в футбольной версии под названием "Злая машина" под руководством Винни Джонса (Feuz et al. 2011; Hillis et al. 2012).
Персонализация, достигаемая путем построения корреляций между категориями, или профилирование, как его иногда называют, - это второй способ добычи социальных связей для создания поиска Google (Elmer 2004). Результаты, выдаваемые индивидуумам, частично основаны на корреляциях, которые призваны математически отразить смысл социальной и культурной жизни. Это не тотализирующий анализ, который представляет собой один набор внутренне согласованных социальных динамик, а отслеживание или картирование любых социальных отношений, которые могут быть найдены в результате анализа данных, собранных Google. Таким образом, практика Google по выдаче результатов поиска и генерированию данных, на которых может быть основана реклама, включает в себя различные способы, с помощью которых алгоритмы могут читать отношения между людьми.
Начав с социальных отношений, которые можно вычитать из структуры WWW, поиск Google затем переходит к различным способам манипулирования и расширения этих данных. После сбора достаточного количества данных можно перейти к считыванию корреляций, определяющих социальные отношения, которые затем могут быть использованы для персонализации результатов поиска. В поисковой практике Google переплетаются различные типы людей, алгоритмов, наборов данных и процессов постоянного обновления и хранения, чтобы предоставить ответ на вопрос. Эта алгоритмическая логика, в которой переплетаются различные типы участников - люди, программное обеспечение, данные, аппаратное обеспечение и т. д., - должна продолжать обеспечивать успешную работу поисковой системы, но она также должна соответствовать корпоративной логике, которую Google приняла как коммерческая компания.
Например, одной из первоначальных проблем Google при получении финансовой прибыли от своей поисковой системы было то, как вызвать доверие к своему совершенно иному способу продажи рекламы (Auletta 2011: 3-6). Как уже упоминалось, Google проводит автоматические аукционы по распределению поисковых слов. С точки зрения рекламодателя, речь идет о том, чтобы связать его объявление с лучшим поисковым запросом или термином на лучшем сайте, в то время как для Google это баланс