Егоркин Антон Александрович (Аспирант Российского Государственного
Социального Университета (РГСУ)
)
|
Работа посвящена применению метода кластеризации k-means для данных, распределенных по степенному закону. На примере массива данных по финансовым операциям была проведена кластеризация методом k-means, количество кластеров определялось путем оптимизации коэффициент силуэта.
В статье показано, что при использовании в качестве входных данных для алгоритма k-means логарифмов исходных данных, качество кластеризации улучшается, кластеры становятся однородными, внутриклассовая дисперсия снижается. Доказано, что в одномерном случае при использовании логарифмированных данных кластеризация осуществляется вокруг среднегеометрических значений. При этом результаты кластеризации не зависят от основания логарифма, по которому осуществляется логарифмирование исходных данных. Также была продемонстрирована необходимость в иных метриках качества, кластеризации, не базирующихся на евклидовом расстоянии или расстоянии городских кварталов, при работе с данными, распределенными по степенному закону.
Ключевые слова:кластеризация, алгоритм k-means, степенной закон распределения, коэффициент силуэта
|
|
|
Читать полный текст статьи …
|
Ссылка для цитирования: Егоркин А. А. ОСОБЕННОСТИ ИСПОЛЬЗОВАНИЯ АЛГОРИТМА КЛАССИФИКАЦИИ K-MEANS ДЛЯ ДАННЫХ, ПОДЧИНЕННЫХ СТЕПЕННОМУ ЗАКОНУ РАСПРЕДЕЛЕНИЯ // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2023. -№09. -С. 65-69 DOI 10.37882/2223-2966.2023.09.07 |
|
|