Джерело:
Хабрахабр:
Дата публікації:
05/07/2022 17:04
Постійна адреса новини:
http://www.vsinovyny.com/9137807
05/07/2022 17:04 // Хабрахабр:
N-граммы
N-граммы – это статистические модели, которые предсказывают следующее слово после N-1 слов на основе вероятности их сочетания. Например, сочетание I want to в английском языке имеет высокую вероятностью, а want I to – низкую. Говоря простым языком, N-грамма – это последовательность n слов. Например, биграммы – это последовательности из двух слов (I want, want to, to, go, go to, to the…), триграммы – последовательности из трех слов (I want to, want to go, to go to…) и так далее.
Такие распределения вероятностей имеют широкое применение в машинном переводе, автоматической проверке орфографии, распознавании речи и умном вводе. Например, при распознавании речи, по сравнению с фразой eyes awe of an, последовательность I saw a van будет иметь большую вероятность. Во всех этих случаях мы подсчитываем вероятность следующего слова или последовательности слов. Такие подсчеты называются языковыми моделями.
Как же рассчитать P(w)? Например, вероятность предложения P(I, found, two, pounds, in, the, library). Для этого нам понадобится цепное правило, которое определяется так:
Читать далее« |
Наступна новина з архіву Извлечение информации из текста и NER |
Попередня новина з архіву Зміни клімату загрожують гірським регіонам (фотогалерея) |
» | |
|
||||