О проекте
Победы
Партнеры
Обсуждения
Присоединиться
Контакты
Студентам

Грант РГНФ
№11-04-12025в
Новости Песнопения Исследования Сервисы Публикации Персоналии

Языковая модель (сглаживание Лапласа)

В качестве модели языка строится триграммная языковая модель. Исходными данными для построения является двоезнаменный Ирмологий, который переведен в электронный вид и хранится в базе данных.

Согласно статистическому машинному переводу модель языка назначает наибольшую вероятность наиболее частотным строкам (словам или фразам). В качестве «граммы» для знаменных песнопений выбраны последовательности нот, которые соответствуют знамени. Для учета недостатка неполноты исходных данных используется метод сглаживания Лапласа, в соответствии с которым вероятность каждой n-граммы вычисляется следующим образом:

Где c – исходное количество триграммы в тексте, |V| – число уникальных грамм в тексте.


N-граммаВероятность со сглаживаниемВероятность без сглаживанияN
шоре 0,093578 0,446429 3
еаапр5 0,082627 0,974359 3
ееаапр 0,081761 0,863636 3
РіРЅ5 0,069892 0,304 3
рошор 0,068452 0,188285 3
ерош 0,06383 0,380952 3
РѕСЂРїСЂРі 0,0625 0,903226 3
папрг 0,060729 0,47541 3
щщщ 0,060429 0,375 3
РіРіРі 0,058027 0,345238 3
РЅРЅРЅ 0,056285 0,29 3
лошор 0,054902 0,350649 3
олщ8 0,053512 0,187879 3
РЅСЂРїСЂРѕ 0,052314 0,390625 3
олщш 0,051839 0,181818 3
егне 0,04908 0,410714 3
СЂ54 0,048035 0,84 3
РіРіРѕСЂ 0,046422 0,27381 3
СЂРїРЅ54 0,046154 0,909091 3
оролор 0,044625 0,35 3
длолщ 0,043668 0,76 3
щщдл 0,042885 0,2625 3
РЅРїСЂРѕС€ 0,04185 0,857143 3
шгн5 0,041485 0,72 3
олоре 0,040733 0,327586 3
События
 

  Новости
  Анонсы
  Мероприятия
  Конференции

Сервисы
 

  Ввод рукописей
  Воспроизведение
  Исследование
  Шрифты

Библиотека

  Статьи по проекту
  Презентации
  Песнопения
  Ссылки

© Компьютерная Семиография, 2000 - 2013 e-mail: semio@it-claim.ru