Методы статистического анализа исторических текстов (часть 1) - Анатолий Фоменко
Шрифт:
Интервал:
Закладка:
При конкретных вычислениях удобно пользоваться приближенным способом вычисления коэффициента p(X,Y). Дело в том, что подсчет числа «целых точек» в множестве K довольно затруднителен. Но оказывается эту трудность можно обойти, перейдя от «дискретной модели» к «непрерывной модели». Хорошо известно, что если (n-1) — мерное множество K в (n-1) — мерном симплексе L достаточно велико, то число «целых точек» в K примерно равно (n-1) — мерному объему множества K. Поэтому с самого начала в качестве «предварительного коэффициента» p'(X,Y) можно брать просто отношение (n-1) — мерного объема K к (n-1) — мерному объему L, то есть
(n-1) — мерный объем K
p'(X,Y)= —
(n-1) — мерный объем L.
Например, в случае двух локальных максимумов в качестве коэффициента p'(X,Y) следует взять отношение:
площадь множества K.
площадь треугольника L.
Конечно, при малых значениях B-A, «дискретный коэффициент» и «непрерывный коэффициент» различны. Но в наших исследованиях мы будем иметь дело с временнЫми интервалами B-A в несколько десятков и даже сотен лет, так что для интересующих нас целей можно, не делая большой ошибки, уверенно пользоваться «непрерывной моделью» p'(X,Y). Точные математические формулы для подсчета «непрерывного коэффициента» p'(X,Y) приведены в работе [375], с. 107.
Укажем еще одно уточнение описанной статистической модели. При работе с конкретными графиками объема исторических текстов следует «сглаживать» эти графики, чтобы устранить мелкие случайные всплески. Мы проводили такое сглаживание графика, «усредняя по соседям», то есть заменяя значение функции объема в каждой точке t на среднее арифметическое трех значений функции, а именно, в точках t-1, t, t+1. В качестве «окончательного коэффициента» p(X,Y) следует взять его значение, подсчитанное для таких «сглаженных графиков».
Сформулированный выше принцип корреляции максимумов подтвердится, если для большинства пар заведомо зависимых текстов X и Y коэффициент p(X,Y) окажется «малым», а для большинства пар заведомо независимых текстов, напротив, «большим».
1.4. Экспериментальная проверка принципа корреляции максимумов
Примеры зависимых и независимых исторических текстов
В 1978–1985 годах нами был проведен первый обширный вычислительный эксперимент по подсчету чисел p(X,Y) для нескольких сотен пар конкретных исторических текстов — хроник, летописей и т. п. Детали см. в [416], [438], [419], [375].
Оказалось, что коэффициент p(X,Y) достаточно хорошо различает ЗАВЕДОМО ЗАВИСИМЫЕ и ЗАВЕДОМО НЕЗАВИСИМЫЕ пары исторических текстов. Было обнаружено, что для всех исследованных нами пар реальных летописей X,Y, описывающих ЗАВЕДОМО РАЗНЫЕ события (разные исторические эпохи или разные государства), — то есть для НЕЗАВИСИМЫХ текстов, число p(X,Y) колеблется от 1 до 1/100 при количестве локальных максимумов от 10 до 15. Напротив, если исторические летописи X и Y ЗАВЕДОМО ЗАВИСИМЫ, то есть описывают одни и те же события, то число p(X,Y) не превосходит 10-8 для того же количества максимумов.
Таким образом, между значениями коэффициента для зависимых и независимых текстов обнаруживается разрыв примерно на 5–6 порядков. Подчеркнем, что здесь важны не абсолютные величины получающихся коэффициентов, а тот факт, что «зона коэффициентов для заведомо зависимых текстов» отделена НЕСКОЛЬКИМИ ПОРЯДКАМИ от «зоны коэффициентов для заведомо независимых текстов». Приведем типичные примеры. Точные значения функций объемов для особо интересных летописей мы приводим в Приложении, в конце книги, чтобы не загромождать здесь изложение.
Пример 1.На рис. 3.9, рис. 3.10 и рис. 3.11 показаны графики объемов двух заведомо зависимых исторических текстов.
А именно, в качестве текста X мы взяли историческую монографию современного автора В.С. Сергеева «Очерки по истории древнего Рима», тома 1–2, М., 1938, ОГИЗ.
В качестве текста Y мы взяли «античный» источник, а именно, «Римскую историю» Тита Ливия, тома 1–6, М., 1897–1899.
Согласно скалигеровской хронологии, эти тексты описывают события на интервале якобы 757–287 годы до н. э. Итак, здесь A = 757 год до н. э., B = 287 год до н. э. Оба текста описывают одну и ту же историческую эпоху, примерно одни и те же события. Наглядно видно, что графики объемов делают свои ОСНОВНЫЕ всплески практически одновременно. Для количественного сравнения функций следует предварительно сгладить «мелкую зыбь», то есть вторичные всплески, накладывающиеся на основные, первичные колебания графиков. При вычислении коэффициента p(X,Y) мы сгладили, усреднили эти графики, чтобы выделить лишь их ОСНОВНЫЕ локальные максимумы, в количестве не превышающем пятнадцати. Оказалось, что здесь p(X,Y) = 2×10-12. Малая величина коэффициента указывает на ЗАВИСИМОСТЬ сравниваемых текстов. В данном случае это неудивительно. Как мы уже отмечали, оба текста описывают один и тот же период в истории «античного» Рима. Малое значение коэффициента p(X,Y) показывает, что если рассматривать наблюдаемую близость точек всплесков обоих графиков как случайное событие, то его вероятность чрезвычайно мала. Как мы видим, современный автор В.С. Сергеев достаточно аккуратно воспроизвел в своей книге «античный» оригинал. Конечно, он дополнил его своими соображениями и комментариями, но, как выясняется, они не влияют на характер зависимости этих текстов.
Теперь в качестве «летописи» X' возьмем снова книгу В.С. Сергеева, а в качестве «летописи» Y' — ее же, но заменив порядок лет в тексте на противоположный. То есть, грубо говоря, прочитав книгу Сергеева «задом наперед». Оказывается, в этом случае p(X',Y') будет равняться 1/3. Таким образом, получается значение, существенно более близкое к единице, чем предыдущее, и указывающее на независимость сравниваемых текстов. Что и неудивительно, так как проведенная нами операция «перевертывания летописи» очевидно дает два заведомо независимых текста.
Пример 2.Возьмем следующие заведомо зависимые исторические тексты, две русские летописи:
X — Никифоровская летопись,
Y — Супрасльская летопись [166].
Следующий интервал времени описан в обоих летописях: якобы, 850-1256 годы н. э.
См. графики их объемов на рис. 3.12. Оба графика объемов «глав» на интервале якобы 850-1255 годы н. э. имеют 31 всплеск и делают эти всплески практически одновременно, в одни и те же годы. Подсчет дает, что здесь p(X,Y) = 10-24. Это значение весьма мало, что подтверждает зависимость этих текстов. В Приложение 4.1 мы приводим точные численные значения функций объемов этих летописей.
Пример 3.Рассмотрим следующие две русские летописи:
X — Холмогорская летопись [166],
Y — «Повесть временных лет».
Следующий интервал времени описан в обоих летописях: якобы, 850-1000 годы н. э. Графики объемов летописей также достигают локальных максимумов ПРАКТИЧЕСКИ ОДНОВРЕМЕННО. И снова это не случайно, а закономерно, иначе реализовался бы единственный шанс из 1015 шансов. Здесь p(X,Y)=10-15. На указанном временнóм интервале эти две летописи зависимы. На рис. 3.13 представлены сразу три графика объемов для Супрасльской летописи, Никифоровской летописи и Повести временных лет. Последняя летопись «богаче», поэтому ее график имеет больше локальных максимумов и зависимость не столь очевидна. Тем не менее, после сглаживания выясняется, что между этими тремя графиками также имеется ярко выраженная зависимость. Подробнее о сравнении «богатых» и «бедных» летописей мы расскажем в следующих разделах. Распределение объемов указанных летописей приведено в Приложении 4.1.
Пример 4.Приведем пример из средневековой римской истории.
X — фундаментальная монография немецкого историка Фердинанда Грегоровиуса «История города Рима в средние века», тома 1–5. См. [47]. Эта книга написана в XIX веке на основе огромного числа средневековых светских и церковных документов.
Y — Liber Pontificalis (T. Mommsen, Gestorum Pontificum Romanorum, 1898). Это «Книга Понтифексов» (то есть список и жизнеописания римских пап средних веков), восстановленная немецким историком Теодором Моммзеном на основе средневековых римских текстов. Здесь, оказывается, p(X,Y)=10-10, что указывает на яркую зависимость этих двух текстов. В предположении случайности такой близости, реализовался бы один шанс из 10 миллиардов.
И так далее. Во всех нескольких десятках обработанных нами примерах исторических текстов, — как ЗАВЕДОМО ЗАВИСИМЫХ, так и ЗАВЕДОМО НЕЗАВИСИМЫХ, — наша теоретическая модель подтвердилась. Таким образом, удалось обнаружить закономерности, позволяющие статистически характеризовать ЗАВИСИМЫЕ исторические тексты, то есть описывающие один и тот же период времени, одни и те же «потоки событий» в истории одного и того же региона, государства. В то же время, как показали эксперименты, если два исторических текста X и Y, напротив, НЕЗАВИСИМЫ, то есть описывают заведомо разные исторические эпохи, или разные регионы, или существенно разные «потоки событий», то графики объемов vol X(t) и vol Y(t) делают всплески в существенно разные годы. То есть, никакой корреляции не наблюдается. В этом последнем случае типичное значение для коэффициента p(X,Y), при количестве локальных максимумов от 10 до 15, колеблется от 1 до 1/100. Приведем типичный пример.