Языковая модель (сглаживание Лапласа)
В качестве модели языка строится триграммная языковая модель.
Исходными данными для построения является двоезнаменный Ирмологий,
который переведен в электронный вид и хранится в базе данных.
Согласно статистическому машинному переводу модель языка
назначает наибольшую вероятность наиболее частотным строкам
(словам или фразам). В качестве «граммы» для знаменных песнопений
выбраны последовательности нот, которые соответствуют знамени.
Для учета недостатка неполноты исходных данных используется метод
сглаживания Лапласа, в соответствии с которым вероятность каждой
n-граммы вычисляется следующим образом:

Где c – исходное количество триграммы в тексте, |V| – число уникальных грамм в тексте.
N-грамма | Вероятность со сглаживанием | Вероятность без сглаживания | N |
шоре |
0,093578 |
0,446429 |
3 |
еаапр5 |
0,082627 |
0,974359 |
3 |
ееаапр |
0,081761 |
0,863636 |
3 |
РіРЅ5 |
0,069892 |
0,304 |
3 |
рошор |
0,068452 |
0,188285 |
3 |
ерош |
0,06383 |
0,380952 |
3 |
РѕСЂРїСЂРі |
0,0625 |
0,903226 |
3 |
папрг |
0,060729 |
0,47541 |
3 |
щщщ |
0,060429 |
0,375 |
3 |
РіРіРі |
0,058027 |
0,345238 |
3 |
РЅРЅРЅ |
0,056285 |
0,29 |
3 |
лошор |
0,054902 |
0,350649 |
3 |
олщ8 |
0,053512 |
0,187879 |
3 |
РЅСЂРїСЂРѕ |
0,052314 |
0,390625 |
3 |
олщш |
0,051839 |
0,181818 |
3 |
егне |
0,04908 |
0,410714 |
3 |
СЂ54 |
0,048035 |
0,84 |
3 |
РіРіРѕСЂ |
0,046422 |
0,27381 |
3 |
СЂРїРЅ54 |
0,046154 |
0,909091 |
3 |
оролор |
0,044625 |
0,35 |
3 |
длолщ |
0,043668 |
0,76 |
3 |
щщдл |
0,042885 |
0,2625 |
3 |
РЅРїСЂРѕС€ |
0,04185 |
0,857143 |
3 |
шгн5 |
0,041485 |
0,72 |
3 |
олоре |
0,040733 |
0,327586 |
3 |
|
|