Научный журнал Байкальского государственного университета
System Analysis &
Mathematical Modeling
Издается с 2019 года
Menu

Информация о статье

Название статьи:

Исследование достоверности обучающих наборов данных анализатора сетевого трафика

Авторы:
Баженов М.Д., магистрант, кафедра математических методов и цифровых технологий, Байкальский государственный университет, г. Иркутск, Российская Федерация, bazhenovmd@yandex.ru,

Бусько М.М., кандидат технических наук, доцент, кафедра математических методов и цифровых технологий, Байкальский государственный университет, г. Иркутск, Российская Федерация, BuskoMM@bgu.ru
В рубрике:
ТЕХНИЧЕСКИЕ НАУКИ
Год: 2025 Том: 7 Номер журнала: 2
Страницы: 153-164
Тип статьи: Научная статья
УДК: 004.056.53
DOI: 10.17150/2713-1734.2025.7(2).153-164
Аннотация:
В настоящей работе представлены результаты исследования наборов данных нормального и аномального сетевого трафика из общедоступных источников. Целью ставилось определение наиболее качественных данных для глубокого машинного обучения эвристического анализатора способного распознавать вредоносную сетевую активность. В качестве алгоритма машинного обучения выбран метод случайного леса. Проанализировано пять наборов данных. В результате сделано заключение, что набор данных CIC-IDS2017 является наиболее качественным и имеет наиболее высокие значения метрик оценки модели: Precision = 0.95, Recall = 0.94 и F1-score = 0.94. Кроме этого, были выделены наиболее важные признаки сетевого трафика для классификации нормального и атакующего трафика. В силу того, что признаки в разных наборах данных не совпадают, был составлен унифицированный перечень аналогичных. Наибольший вес в классификации имеют объём переданных данных (total_bytes) и скорость передачи (data_rate). Далее следует длительность соединения (flow_duration). Результаты, которые получены в настоящей работе, могут быть использованы для тестирования, других алгоритмов машинного обучения и разработки эвристических анализаторов на основе искусственного интеллекта и машинного обучения.
Ключевые слова: информационная безопасность, анализ сетевого трафика, машинное обучение, набор данных, метод случайного леса
Список цитируемой литературы:
  • Иванов С.О. Методика создания и обучения искусственной нейронной сети для решения задачи распознавания аномалий сетевого трафика / С.О. Иванов. - DOI 10.17587/it.30.32-41. - EDN NRGZNE // Информационные технологии. - 2024. - Т. 30, № 1. - С. 32-41.
  • Поздняк И.С. Модели обнаружения атак с использованием методов машинного обучения / И.С. Поздняк, И.С. Макаров. - DOI 10.18137/RNU.V9187.24.01.P.99. - EDN MNMSYZ // Вестник Российского нового университета. Серия: Сложные системы: модели, анализ и управление. - 2024. - № 1. - С. 99-109.
  • Анализ и отбор значимых характеристик сетевого трафика для использования в машинном обучении / Е.А. Дмитриев, О.И. Пантюхин, Г.А. Рябов, Б.В. Солодухин. - EDN WVDMKC // Актуальные проблемы инфотелекоммуникаций в науке и образовании : материалы XIII Междунар. науч.-науч.-метод. конф. : в 4 т., Санкт-Петербург, 27-28 февр. 2024 г. - Санкт-Петербург, 2024. - T. 1. - С. 277-281.
  • Тураев С.Э. Разработка системы обнаружения вредоносного трафика для повышения количества обнаруженных аномалий / С.Э. Тураев, Д.А. Заколдаев. - EDN GSYVEE // Инженерный вестник Дона. - 2024. - № 11(119). - С. 360-373.
  • Бабичева М.В. Применение методов машинного обучения для автоматизированного обнаружения сетевых вторжений / М.В. Бабичева, И.А. Третьяков. - DOI 10.21822/2073-6185-2023-50-1-53-61. - EDN MGBAGF // Вестник Дагестанского государственного технического университета. Технические науки. - 2023. - Т. 50, № 1. - С. 53-61.
  • Макаров Д.А. Обнаружение аномалий в сетевом трафике с помощью метода «Случайный лес» / Д.А. Макаров, А.А. Байкалов. - EDN IDHIAA // Научный аспект. - 2023. - Т. 15, № 6. - С. 1987-1991.
  • Груздев А.В. Прогнозное моделирование в IBM SPSS, R и Python: метод деревьев решений и случайный лес / А.В. Груздев. - Москва : ДМК Пресс, 2018. - 642 с.
  • Рашка С. Машинное обучение с PyTorch и Scilit-Learn / С. Рашка, Ю. Лю, В. Мирджалили. - Астана : Фолиант, 2024. - 688 с.
  • Васильев Юлий. Python для data science / Юлий Васильев. - Санкт-Петербург : Питер, 2023. - 272 с.
  • Серрано Луис. Грокаем машинное обучение / Луис Серрано. - Санкт-Петербург : Питер, 2024. - 512 с.