Название статьи:
Разработка алгоритма построения вполне интерпретируемых квазилинейных регрессий на двух подвыборках
Авторы: Базилевский М.П., кандидат технических наук, доцент, кафедра математики, https://orcid.org/0000-0002-3253-5697, SPIN-код: 4347-5028, Иркутский государственный университет путей сообщения, г. Иркутск, Российская Федерация,
mik2178@yandex.ru Для цитирования:
Базилевский М.П. Разработка алгоритма построения вполне интерпретируемых квазилинейных регрессий на двух подвыборках / М.П. Базилевский. — DOI 10.17150/2713-1734.2025.7(4).491-506. — EDN AIWBCI // System Analysis & Mathematical Modeling. — 2025. — Т. 7, № 4. — С. 491–506.
В рубрике:
МАТЕМАТИЧЕСКИЕ НАУКИ
Год: 2025 Том: 7 Номер журнала: 4
Страницы: 491-506
Тип статьи: Научная статья
УДК: 519.862.6
DOI: 10.17150/2713-1734.2025.7(4).491-506
Аннотация:
Статья посвящена проблеме построения интерпретируемых моделей машинного обучения. Рассмотрены вполне интерпретируемые квазилинейные регрессии, к которым предъявляются, в частности, требования значимости оценок, согласованности знаков оценок содержательному смыслу стоящих при них факторов и низкой мультиколлинеарности. Из-за таких жестких требований построенная с помощью метода наименьших квадратов вполне интерпретируемая регрессия может иметь низкое качество аппроксимации, что приводит к существенным ошибкам при использовании её для прогнозирования значений объясняемой переменной. Поэтому в данной статье предлагается разделять исходную выборку данных на две подвыборки, оценивая на каждой из них своё уравнение квазилинейной регрессии. Для формирования правила, позволяющего классифицировать выборку на подвыборки в зависимости от значений объясняющих переменных, использована модель логистической регрессии. Для оценки её неизвестных параметров применен метод максимального правдоподобия. Разработан алгоритм построения квазилинейных регрессий на двух подвыборках. Построенная в результате его использования модель по величине общей суммы квадратов остатков всегда превосходит регрессию, построенную по исходной выборке со всеми наблюдениями. Однако при этом могут нарушаться требования к интерпретируемости квазилинейных регрессий. В таком случае предлагается перестраивать уравнения, решая известную задачу частично булевого линейного программирования. Предложенный алгоритм применен для решения технической задачи моделирования прочности бетона на сжатие по выборке, содержащей 1030 наблюдений. Построенная в результате модель с двумя вполне интерпретируемыми уравнениями оказалась по величине суммы квадратов остатков лучше построенной ранее модели с одним уравнением на 20,38 %.
Ключевые слова: регрессионный анализ, интерпретируемость, вполне интерпретируемая квазилинейная регрессия, логистическая регрессия, классификация, прочность бетона
Информация о статье: Дата поступления: 2 сентября 2025; дата принятия к публикации: 15 декабря 2025 г.; дата онлайн-размещения: 26 декабря 2025 г.
Список цитируемой литературы: - Molnar C. Interpretable machine learning / C. Molnar. - Lulu.Com, 2020. - 251 p.
- Interpretable machine learning for weather and climate prediction : a review / R. Yang, J. Hu, Z. Li [et al]. - DOI 10.1016/j.atmosenv.2024.120797 // Atmospheric Environment. - 2024. - Vol. 338. - P. 120797.
- Explainable and interpretable machine learning and data mining / M. Atzmueller, J. Fürnkranz, T. Kliegr, U. Schmid. - DOI 10.1007/s10618-024-01041-y // Data Mining and Knowledge Discovery. - 2024. - Vol. 38, no. 5. - P. 2571-2595.
- Latha N.M. Overview of Regression Models and How to Determine the Best Model for Data / N.M. Latha, K. Geetha, S. Damodharan. - DOI 10.9734/jsrr/2024/v30i102452 // Journal of Scientific Research and Reports. - 2024. - Vol. 30, no. 10. - P. 250-266.
- Roustaei N. Application and interpretation of linear-regression analysis / N. Roustaei. - DOI 10.51329/mehdiophthal1506 // Medical Hypothesis, Discovery and Innovation in Ophthalmology. - 2024. - Vol. 13, no. 3. - P. 151-159.
- Базилевский М.П. Технология построения вполне интерпретируемых квазилинейных регрессионных моделей / М.П. Базилевский. - DOI 10.15593/2499-9873/2024.1.08. - EDN HGBMOC // Прикладная математика и вопросы управления. - 2024. - № 1. - С. 123-138.
- Mitigating the multicollinearity problem and its machine learning approach: a review / J.Y.L. Chan, S.M.H. Leow, K.T. Bea [et al]. - DOI 10.3390/math10081283 // Mathematics. - 2022. - Vol. 10, no. 8. - P. 1283.
- Игнатьева С.А. Формирование обучающей выборки для сверточных нейронных сетей при реидентификации людей по видеоданным / С.А. Игнатьева, Р.П. Богуш. - DOI 10.35596/1729-7648-2023-21-3-87-95. - EDN GAGZIF // Доклады Белорусского государственного университета информатики и радиоэлектроники. - 2023. - Т. 21, № 3. - С. 87-95.
- Парасич А.В. Формирование обучающей выборки в задачах машинного обучения. Обзор / А.В. Парасич, В.А. Парасич, И.В. Парасич. - DOI 10.31799/1684-8853-2021-4-61-70. - EDN SYIIYB // Информационно-управляющие системы. - 2021. - № 4 (113). - С. 61-70.
- Effects of dataset size and interactions on the prediction performance of logistic regression and deep learning models / A. Bailly, C. Blanc, E. Francis [et al]. - DOI 10.1016/j.cmpb.2021.106504 // Computer Methods and Programs in Biomedicine. - 2022. - Vol. 213. - P. 106504.
- Minimum sample size for developing a multivariable prediction model using multinomial logistic regression / A. Pate, R.D. Riley, G.S. Collins [et al]. - DOI 10.1177/09622802231151220 // Statistical methods in medical research. - 2023. - Vol. 32, no. 3. - P. 555-571.
- Ibrahim W.S. Estimation of the general spatial regression model (SAC) by the maximum likelihood method / W.S. Ibrahim, N.S. Mousa. - DOI 10.22075/IJNAA.2022.6027 // International Journal of Nonlinear Analysis and Applications. - 2022. - Vol. 13, no. 1. - P. 2947-2957.
- Maximum likelihood training of score-based diffusion models / Y. Song, C. Durkan, I. Murray, S. Ermon // Advances in neural information processing systems. - 2021. - Vol. 34. - P. 1415-1428.
- Базилевский М.П. Программа построения вполне интерпретируемых элементарных и неэлементарных квазилинейных регрессионных моделей / М.П. Базилевский. - DOI 10.15514/ISPRAS-2023-35(4)-7. - EDN KTOSCW // Труды Института системного программирования РАН. - 2023. - Т. 35, № 4. - С. 129-144.
- Базилевский М.П. Критерии нелинейности квазилинейных регрессионных моделей / М.П. Базилевский. - DOI 10.26102/2310-6018/2018.23.4.015. - EDN YZSOFF // Моделирование, оптимизация и информационные технологии. - 2018. - Т. 6, № 4 (23). - C. 185-196.
- Матраева Л.В. Использование логистической регрессии при выявлении приоритетов региональной инвестиционной политики в отношении иностранных инвесторов в регионы РФ / Л.В. Матраева. - EDN RPKPQV // Экономика, статистика и информатика. Вестник УМО. - 2013. - № 6. - С. 170-174.
- Базилевский М.П. Метод оценивания логистических регрессий с помощью аппарата линейного программирования / М.П. Базилевский, А.А. Малыгин, А.Е. Шаманова. - DOI 10.35266/1999-7604-2024-2-2. - EDN AVGVYB // Вестник кибернетики. - 2024. - Т. 23, № 2. - С. 14-22.