Приведём теоретическое обоснование метода индекса совпадений. Пусть алфавит имеет размер
В простейшей модели языка предполагается, что тексты состоят из последовательности букв, порождаемых источником независимо друг от друга с известным распределением
Найдём индекс совпадений для различных предположений относительно распределений букв последовательности. Сначала рассмотрим случай, когда вероятности всех букв одинаковы. Пусть
– случайный текст с распределением
Найдём индекс совпадений
то есть вероятность того, что в случайно выбранной паре позиций находятся одинаковые буквы.
Для пары позиций
Эта вероятность не зависит от выбора пары позиций
Так как число различных пар равно
Следовательно,
Найдём теперь аналогичную вероятность
где одинаково распределённые случайные буквы в первой строке имеют распределение:
а одинаково распределённые случайные буквы во второй строке имеют другое распределение:
В этом случае сумму по всем парам мы разделяем на три суммы: по парам внутри позиций первой строки, по парам внутри позиций второй строки и по парам, в которых первая позиция берётся из первой строки, а вторая – из второй:
где обозначено
В общем случае рассмотрим последовательность, представленную в виде матрицы, состоящей из
Считаем, что одинаково распределённые случайные буквы в первой строке имеют распределение
одинаково распределённые случайные буквы во второй строке имеют распределение
и т. д., одинаково распределённые случайные буквы
Для вычисления вероятности того, что в случайно выбранной паре позиций будут одинаковые буквы, выполним суммирование по различным парам внутри строк и по парам между различными строками. Аналогично предыдущему случаю получим:
Первая сумма содержит
получим после несложных выкладок