Канищев Илья Сергеевич (Аспирант, Вятский государственный университет, Киров)
|
Отсутствие данных считается одной из самых больших проблем, с которыми сталкиваются модели машинного обучения. Она может усугубиться при наличии несбалансированных данных. Было предложено и сопоставлено несколько методов, например, аппроксимация шаблонов, но они не учитывают неблагоприятные условия, обнаруженные в реальных базах данных. В данной работе представлено сравнение методик, используемых для классификации записи из реальной несбалансированной базы данных с большим количеством отсутствующих данных, где основной целью является предварительная обработка данных для восстановления и выбора полностью заполненных записей для дальнейшего применения этих методов.
Было проведено сравнение таких алгоритмов, как кластеризация, дерево решений, искусственные нейронные сети и байесовский классификатор. По результатам можно убедиться, что описание проблемы и понимание базы данных являются важными шагами для правильного сравнения методов в реальной проблеме.
Ключевые слова:восстановление пропущенных значений, несбалансированные данные, классификация
|
|
|
Читать полный текст статьи …
|
Ссылка для цитирования: Канищев И. С. Восстановление пропущенных значений в задачах классификации при несбалансированности данных // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2021. -№05. -С. 63-66 DOI 10.37882/2223-2966.2021.05.13 |
|
|