Методы статистического анализа исторических текстов (часть 2) - Анатолий Фоменко

Читать онлайн Методы статистического анализа исторических текстов (часть 2) - Анатолий Фоменко

Шрифт:

Интервал:

Закладка:

Сделать

1 ... 131 132 133 134 135 136 137 138 139 ... 174

Перейти на страницу:

(I(A) — индикатор множества А), то хотя бы в одной из этих последовательностей происходит изменение математического ожидания. Следовательно, если существует алгоритм, обнаруживающий изменение математического ожидания, то этот же алгоритм обнаружит и изменение функции распределения. Аналогично можно обнаружить и изменение произвольной вероятностной характеристики. Например, если в последовательности меняется корреляционная функция, то рассматривая новые последовательности V () = x x, =0,1,2…., мы сведем задачу к обнаружению изменения математического ожидания в одной из последовательностей V ().

Указанное обстоятельство позволяет ограничиться разработкой только одного, базового, алгоритма, который может обнаруживать изменение математического ожидания, а не создавать (вообще говоря, бесконечное) семейство алгоритмов для обнаружения изменений тех или иных вероятностных характеристик.

Вторая идея нашего подхода заключается в использовании для обнаружения моментов «разладок» семейства статистик вида

Y (n) = [(1 —)] [- x — x] (1)

где 0 1, 1 n N-1, X= {x } — исследуемая реализация, и некоторых производных от этих статистик.

Семейство (1) представляет собой обобщенный вариант статистики Колмогорова-Смирнова, которая используется для проверки совпадения или различия функций распределения у двух выборок (при фиксированном n). Можно показать, что статистики вида (1) асимптотически (при N-> и сохранении соотношения между объемами «склеенных» реализаций) минимаксны (т. е. минимизируют максимально возможную вероятность ошибки оценивания момента «разладки») по порядку.

Указанные идеи (подробнее см.[546]) воплощены в комплексе прикладных программ VERDIA для персональной ЭВМ типа IBM-PC. Этот комплекс позволяет в диалоговом режиме обнаруживать «разладки» произвольной случайной последовательности. При помощи комплекса VERDIA нами был проведен анализ ряда конкретных исторических текстов. Результаты этого анализа изложены в следующем Дополнении 2 к настоящей книге.

Дополнение 2

Выявление однородных и неоднородных фрагментов внутри русских летописей, римских и греческих хроник, в Библии

Б.Е. Бродский, Б.С. Дарховский, Г.В. Носовский, А.Т. Фоменко

1. Введение

В современной математической статистике большое применение нашел важный метод разладки, созданный А.Н. Ширяевым. В настоящей работе кратко описываются результаты интересного численного эксперимента, идея которого была впервые предложена А.Н. Ширяевым и А.Т. Фоменко. Эта идея и эксперимент обсуждались на научно-исследовательском семинаре «Геометрия и статистика», работавшем под их руководством в математическом ин-те им В.А. Стеклова АН СССР. Цель эксперимента — применить метод разладки к важной задаче выявления, распознавания «однородных кусков» внутри достаточно больших исторических (и более общо, — т. н. нарративных) текстов. К таким текстам относятся, в частности, исторические хроники, летописи и т. п. Теоретические основы метода разладки см. в статье Б.Е. Бродского и В.С. Дарховского, помещенного в настоящей книге как Дополнение 2.

Выявление информативных количественных характеристик текстов и предварительная обработка исторических текстов, в частности, русских летописей и исторических книг Библии, были выполнены Г.В. Носовским и А.Т. Фоменко. Статистический анализ и компьютерный эксперимент были затем проведены Б.С. Дарховским и Б.Е. Бродским. Большую помощь при этом нам оказали Т. Толозова, А. Громова и Л. Мищенко.

Сейчас мы опишем постановку задачи, полученные результаты и их интерпретацию. Многие древние исторические источники составлены из отдельных фрагментов, кусков разной природы. Например, эти отдельные куски могли быть написаны в разное время разными авторами и вообще в разных странах. Поэтому могут существенно отличаться друг от друга своим характером, языком и стилем изложения, степенью подробности, эмоциональной окраской. Затем могло случиться так, что эти отдельные фрагменты были объединены каким-то более поздним летописцем в одну книгу. После этого первоначальное происхождение этих текстов-фрагментов было забыто. Они начинали существовать, «спаянные» в единое целое внутри какой-то одной поздней летописи. С течением времени, при многократной переписке летописей, их изменений под влиянием разных «редакторов», внешние различия, существовавшие первоначально между различными старыми фрагментами, составляющими «новый большой текст», постепенно стирались. Сегодня такие составные тексты часто воспринимаются как единое целое, поскольку предыстория их возникновения давно забыта.

Возникает естественный и важный вопрос: можно ли, опираясь на численный, статистический анализ различных частотных характеристик, выявить сегодня внутри единой большой летописи эти первичные составные части, куски, то есть можно ли снова разрезать большой текст на его первичные, древние фрагменты-первоисточники?

В основу излагаемого ниже метода положена идея, согласно которой каждый первичный, древний фрагмент был более или менее «однороден». Например, он мог быть написан одним автором, а потому несет на себе характерный отпечаток одной индивидуальности. Единый стиль, манера и т. п. Поскольку эта гипотетическая индивидуальность по-видимому «мало менялась» в процессе написания одного текста, то можно сформулировать естественную гипотезу, модель о «первичной однородности» фрагментов, написанных одним автором, в одно время, или в одной и той же исторической школе летописцев.

Эта на первый взгляд простая идея, сформулированная А.Н. Ширяевым и А.Т. Фоменко, оказалась полезной при анализе конкретных исторических текстов. Более того, оказалось, что результаты, полученные на основе применения этой идеи и статистического исследования Б.С. Дарховского, Б.Е. Бродского и Г.В. Носовского, применительно к конкретным историческим текстам, хорошо согласуются с независимыми результатами, полученными применением совсем других методов, тоже статистического характера.

В качестве численной характеристики исследуемого текста была взята функция объема, введенная выше. Напомним ее определение. Предположим, что исторический текст X разбит на «главы» X(t), где каждая «глава» это фрагмент текста, посвященный описанию событий одного года t. Такова структура очень многих древних летописей. Эта структура условно изображена на рис. Доп-2.1. Например, слева на странице указываются годы, например по эре от сотворения мира, или по эре Р.Х. Рядом с каждым годом помещен фрагмент текста, излагающий события, происшедшие (по мнению летописца) именно в этом году. Это и есть фрагменты X(t). Далее, можно вычислить объем каждого фрагмента. Объем можно измерять, например, числом строк, или числом страниц, или числом знаков. Таким образом, мы получаем последовательность чисел — объемов глав X(t). Эти числа удобно изобразить в виде графика. См. рис. Доп-2.2. Выбор единицы измерения объема здесь для нас абсолютно несущественен, так как изменение единицы измерения приводит лишь к смене масштаба по вертикали на рис. Доп-2.2.

Излагаемый ниже метод разбиения больших исторических текстов на однородные и неоднородные куски применим не только к графикам объема текстов, но и к другим численным характеристикам. Для упрощения изложения мы будем говорить здесь лишь о функциях объемов.

Выше мы говорили об однородных кусках исторических текстов. Однако в действительности, мы разобьем тексты на т. н. стационарные куски, являющиеся не только однородными, но и такими, что внутри них «параметры процесса» практически не меняются.

2. Разладки в русских летописях

Начнем с анализа русских летописей, собранных в Полном Собрании русских летописей (Москва, изд-во Наука). При этом из каждой летописи были выделены те куски, внутри которых имеется четкое разбиение на годы, что дало возможность вычислить объемы погодных фрагментов. Дело в том, что иногда в летописях имеются фрагменты, посвященные описанию длительных периодов и не имеющие детального разбиения по годам. Такие куски летописи не анализировались, так как отсутствие временной шкалы не позволяет вычислить функцию объема. Мы обработали функции объемов, вычисленные А.Т. Фоменко для следующих исторических текстов:

1) Двинской летописец (краткая редакция): фрагмент, описывающий события от 1390 до 1717 годов н. э.

2) Двинской летописец (пространная редакция): фрагмент, описывающий события от 1340 до 1751 годов н. э.

3) Повесть временных лет: фрагмент, описывающая события якобы от 850 до 1430 годов н. э.

4) Никифоровская летопись: фрагмент, описывающий события якобы от 850 до 1430 годов н. э.

5) Супрасльская летопись: фрагмент, описывающий события якобы от 850 до 1450 годов н. э.