Название статьи:
Исследование влияния параметров алгоритма k-ближайших соседей на метрики качества моделей
Авторы: Родионов А.В., кандидат технических наук, доцент, кафедра математических методов и цифровых технологий, Байкальский государственный университет, г. Иркутск, Российская Федерация,
RodionovAV@bgu.ru,
Ищенко К.Л., магистрант, Институт культуры, социальных коммуникаций и информационных технологий, Байкальский государственный университет, г. Иркутск, Российская Федерация,
is.konstantin@gmail.com Для цитирования:
Родионов А.В. Исследование влияния параметров алгоритма k-ближайших соседей на метрики качества моделей / А.В. Родионов, К.Л. Ищенко. — DOI 10.17150/2713-1734.2024.6(2).251-262. — EDN VVJQSW // System Analysis & Mathematical Modeling. — 2024. — Т. 6, № 2. — С. 251–262.
В рубрике:
МАТЕМАТИЧЕСКИЕ НАУКИ / ТЕХНИЧЕСКИЕ НАУКИ
Год: 2024 Том: 6 Номер журнала: 2
Страницы: 251-262
Тип статьи: Научная статья
УДК: 681.3.06
DOI: 10.17150/2713-1734.2024.6(2).251-262
Аннотация:
В данной статье было проведено исследование влияния параметра k, размера обучающей выборки и ряда популярных метрик расстояний для метода k-ближайших соседей (kNN - k-nearest neighbors) на качество моделей с использованием метрик RMSE и R2. Алгоритм K-ближайших соседей является одним из самых популярных среди ML-моделей для решения задач классификации и регрессии. Тщательная настройка параметров - фундаментальный аспект для достижения баланса между точностью и эффективностью модели. Важность правильного выбора параметров k и метрики расстояния является ключевым фактором для создания модели с высокой точностью. В результате исследования были получены оптимальные значения параметра k алгоритма, которые применимы для решения большинства прикладных задач. Наиболее часто используемые метрики, такие как Евклидова и Манхэттенская, показали сопоставимую эффективность по сравнению с метриками Чебышева и Махаланобиса. Практическая применимость оптимальных характеристик алгоритма делает его решения востребованными в разнообразных прикладных задачах классификации и регрессии.
Ключевые слова: метод k-ближайших соседей, регрессия, метрики расстояний, Евклидово расстояние, расстояние городских кварталов (манхэттенское расстояние), расстояние Махаланобиса, расстояние Чебышева, расстояние Минковского
Информация о статье: Дата поступления: 1 декабря 2023 г.; дата принятия к публикации: 23 мая 2024 г.; дата онлайн-размещения: 19 июня 2024 г.
Список цитируемой литературы: - Malkov Y.A. Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs / Y.A. Malkov, D.A. Yashunin // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2018. - Vol. 42, no. 4. - P. 824-836.
- Di Franco G. Machine learning, artificial neural networks and social research / G. Di Franco, M. Santurro // Qual Quant. - 2021. - No. 5. - P. 1007-1025.
- Deza М.М. Encyclopedia of Distances / M.M. Deza, E. Deza. - 4 изд. - Berlin Heidelberg : Springer-Verlag, 2016. - 650 p.
- Лебедев И.С. Адаптивное применение моделей машинного обучения на отдельных сегментах выборки в задачах регрессии и классификации / И.С. Лебедев. - DOI 10.31799/1684-8853-2022-3-20-30. - EDN ZOEVFC // Информационно-управляющие системы. - 2022. - № 3. - C. 20-30.