|
В работе предлагается использовать современные подходы обучения без учителя для автоматического конструирования представления HTTP-запросов, а затем использовать ее для классификации аномалий в трафике. Решение основано на методах, используемых в обработке естественного языка, таких как Doc2Vec, которые потенциально могут достичь глубокое понимание сообщений HTTP и, следовательно, повысить эффективность системы обнаружения вторжений. Немаловажным свойством является интерпретируемость такой модели. Чтобы проверить, как решение будет работать в реальных условиях, была обучена языковая модель RoBERTa, адаптированная из области обработки естественных языков, на нормальном сетевом трафике, после была измерена ее возможность детектировать аномальный трафик, который модель не видела до этого. Предлагаемый метод оценивается на публично доступных данных CSIC 2010, CSE-CIC-IDS 2018. Согласно полученным результатам, обучение модели на исключительно нормальном сетевом трафике позволяет хорошо детектировать аномальные HTTP-запросы, также такой подход не требует экспертной разметки и векторные представления дают интерпретируемость, т.е. система способна указать конкретные места в конкретном HTTP-запросе, которые она посчитала аномальными. В большинстве случаев легко снять обычный сетевой трафик и относительно сложно снять достаточное количество вредоносного трафика, так как системы основную часть времени находятся не под атакой и для выделения вредоносного трафика из всего потока требуется либо экспертное время, либо настроенная внешняя система. В работе приводится объяснение результатов на основе кластеров, возникающих в пространстве векторизованных запросов, и простого классификатора логистической регрессии. Хорошее разделение после t-SNE говорит о легком разделении http-запросов на указанных датасетах, а векторное представление запросов дает возможность получать похожие по семантике запросы из истории.
Ключевые слова:Детекция аномалий, http-трафик, языковые модели, обучение модели.
|