Лемматизируй это быстрее (PyMorphy2, PyMystem3 и немного магии)

Джерело:
Хабрахабр:

Дата публікації:
23/05/2020 11:45

Постійна адреса новини:
http://www.vsinovyny.com/6678217

Лемматизируй это быстрее (PyMorphy2, PyMystem3 и немного магии)

 

23/05/2020 11:45 // Хабрахабр:

Я работаю программистом, и в том числе занимаюсь машинным обучением применительно к анализу текстов. При обработке естественного языка требуется предварительная подготовка документов, и одним из способов является лемматизация – приведение всех слов текста к их нормальным формам с учетом контекста.
Недавно мы столкнулись с проблемой больших временных затрат на этот процесс. В конкретной задаче было более 100000 документов, средняя длина которых около 1000 символов, и требовалось реализовать обработку на обычном локальном компьютере, а не на нашем сервере для вычислений. Решение на просторах интернета мы найти не смогли, но нашли его сами, и я хотел бы поделиться — продемонстрировать сравнительный анализ двух наиболее популярных библиотек по лемматизации в этой статье.
Читать дальше →

 

» Читати повністю

 

« Наступна новина з архіву
Истории с работы в институтах
  Попередня новина з архіву
Экс-глава Нацслужбы здоровья подал документы на должность председателя НСЗУ
»

 

 
© 2026 www.vsinovyny.com