Джерело:
Хабрахабр:
Дата публікації:
23/05/2020 11:45
Постійна адреса новини:
http://www.vsinovyny.com/6678217
23/05/2020 11:45 // Хабрахабр:
Я работаю программистом, и в том числе занимаюсь машинным обучением применительно к анализу текстов. При обработке естественного языка требуется предварительная подготовка документов, и одним из способов является лемматизация – приведение всех слов текста к их нормальным формам с учетом контекста.
Недавно мы столкнулись с проблемой больших временных затрат на этот процесс. В конкретной задаче было более 100000 документов, средняя длина которых около 1000 символов, и требовалось реализовать обработку на обычном локальном компьютере, а не на нашем сервере для вычислений. Решение на просторах интернета мы найти не смогли, но нашли его сами, и я хотел бы поделиться — продемонстрировать сравнительный анализ двух наиболее популярных библиотек по лемматизации в этой статье.
Читать дальше →
| « |
Наступна новина з архіву Истории с работы в институтах |
Попередня новина з архіву Экс-глава Нацслужбы здоровья подал документы на должность председателя НСЗУ |
» | |
|
|
||||