Горячкин Борис Сергеевич (кандидат технических наук, доцент
Московский государственный технический университет им. Н.Э. Баумана
)
Коренькова Татьяна Вячеславовна (Московский государственный технический университет им. Н.Э. Баумана)
Черных Юлия Сергеевна (Московский государственный технический университет им. Н.Э. Баумана)
|
Одним из важнейших источников анализа социальных событий и процессов являются новости, поскольку они отражают практически все их аспекты и позволяют выстраивать полноценную картину социальной реальности. Для этого необходимо проводить предварительную классификацию новостей по социальным тематикам, а исходные рубрики новостей в различных новостных ресурсах недостаточно хорошо подходят для данной задачи. Поэтому в работе была разработана и проверена на практике методика определения оптимальных категорий для классификации новостных текстов, в частности, для социальной сферы. Методика включает в себя определение новых предварительных категорий новостей алгоритмом Word2Vec, многократное тематическое моделирование с помощью Zero-Shot классификации и полуавтоматическую модификацию категорий до достижения нужных порогов производной метрики. В результате был получен оптимальный список категорий, отражающих социальную реальность, а также доказано его преимущество по сравнению с исходными категориями.
Ключевые слова:Тематическое моделирование новостей, классификация новостей, социальное моделирование, Word2Vec, Zero-Shot классификация, NLI.
|
|
|
Читать полный текст статьи …
|
Ссылка для цитирования: Горячкин Б. С., Коренькова Т. В., Черных Ю. С. МЕТОДИКА ОПРЕДЕЛЕНИЯ ОПТИМАЛЬНЫХ КАТЕГОРИЙ ДЛЯ КЛАССИФИКАЦИИ НОВОСТНОГО МАССИВА // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2024. -№04. -С. 55-61 DOI 10.37882/2223-2966.2024.04.08 |
|
|