Капитанов Андрей Иванович (Ассистент, Национальный исследовательский университет «МИЭТ»)
Трояновский Владимир Михайлович (Д.т.н., профессор, Национальный исследовательский университет «МИЭТ»)
|
При решении задачи кластеризации контекстов возникает проблема автоматического определения количества кластеров. Кластеризация контекстов позволяет эффективно разрешать проблему омонимии, что в свою очередь приводит к повышению качества ряда задач компьютерной лингвистики. На примере задачи классификации текстовых документов мы попытаемся вычислить необходимое количество кластеров для повышения доли распознанных документов. В ходе работы на основе плотностного алгоритма DBSCAN нам удалось вычислить количество кластеров, далее на основе агломеративной иерархической кластеризации разбить омонимичные контексты на кластеры и снять омонимию. После этого мы проверили качество классификации на основе алгоритма наивного байесовского классификатора и убедились в увеличении доли верно распознанных документов.
Ключевые слова:иерархическая кластеризация, кластерный анализ, классификация, полисемия, DBSCAN.
|
|
|
Читать полный текст статьи …
|
Ссылка для цитирования: Капитанов А. И., Трояновский В. М. Проблема автоматического определения количества кластеров в задаче кластеризации контекстов // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2020. -№06. -С. 100-104 DOI 10.37882/2223-2966.2020.06.19 |
|
|