Журнал «Современная Наука»

Russian (CIS)English (United Kingdom)
МОСКВА +7(495)-142-86-81

Восстановление пропущенных значений в задачах классификации при несбалансированности данных

Канищев Илья Сергеевич  (Аспирант, Вятский государственный университет, Киров)

Отсутствие данных считается одной из самых больших проблем, с которыми сталкиваются модели машинного обучения. Она может усугубиться при наличии несбалансированных данных. Было предложено и сопоставлено несколько методов, например, аппроксимация шаблонов, но они не учитывают неблагоприятные условия, обнаруженные в реальных базах данных. В данной работе представлено сравнение методик, используемых для классификации записи из реальной несбалансированной базы данных с большим количеством отсутствующих данных, где основной целью является предварительная обработка данных для восстановления и выбора полностью заполненных записей для дальнейшего применения этих методов. Было проведено сравнение таких алгоритмов, как кластеризация, дерево решений, искусственные нейронные сети и байесовский классификатор. По результатам можно убедиться, что описание проблемы и понимание базы данных являются важными шагами для правильного сравнения методов в реальной проблеме.

Ключевые слова:восстановление пропущенных значений, несбалансированные данные, классификация

 

Читать полный текст статьи …



Ссылка для цитирования:
Канищев И. С. Восстановление пропущенных значений в задачах классификации при несбалансированности данных // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2021. -№05. -С. 63-66 DOI 10.37882/2223-2966.2021.05.13
ПРАВОВАЯ ИНФОРМАЦИЯ:
Перепечатка материалов допускается только в некоммерческих целях со ссылкой на оригинал публикации. Охраняется законами РФ. Любые нарушения закона преследуются в судебном порядке.
© ООО "Научные технологии"