Научный журнал Байкальского государственного университета
System Analysis &
Mathematical Modeling
Издается с 2019 года
Menu

Информация о статье

Название статьи:

Обзор методов искусственного интеллекта для решения задач классификации текстов

Авторы:
Раковская Е.Е., аспирант, кафедра математических методов и цифровых технологий, Байкальский государственный университет, г. Иркутск, Российская Федерация, rakovskaya19@mail.ru
В рубрике:
СОЦИАЛЬНО-ГУМАНИТАРНЫЕ НАУКИ
Год: 2020 Том: 2 Номер журнала: 4
Страницы: 32-43
Тип статьи: Научная статья
УДК: 8132
Аннотация:
В настоящее время наблюдается экспоненциальный рост объемов естественно-языковой информации, доступной в сети Интернет. Имеется необходимость автоматической обработки текстовых данных, чтобы применить лингвистические ресурсы для решения практических задач. В статье дается краткий обзор алгоритмов классификации текстов, рассматриваются различные варианты определения признаков текста для классификации, методы предобработки текстов, методы уменьшения размерности. Уделяется внимание перспективным направления развития технологий обработки естественного языка.
Ключевые слова: классификация текстов, обработка естественного языка, модель векторного пространства, взвешивание терминов, эмбеддлинговые модели, классификация коротких текстов
Список цитируемой литературы:
  • Harish B.S. Representation and Classification of Text Documents: A Brief Review / B.S. Harish, D.S. Guru, S. Manjunath // International Journal of Computer Applications. - 2010. - No. 1. - P. 110-119.
  • Popping R. Qualitative Decisions in quantitative Text Analysis Research / R. Popping // Sociological Methodology. - 2012. - Vol. 42, no. 1. - P. 88-90.
  • Hindle D. Structural Ambiguity and Lexical Relations / D. Hindle, M. Rooth // Computational Linguistics. - 1993. - Vol. 19, no. 1. - P. 103-120.
  • Raghavan V.V. A Critical Analysis of Vector Space Model for Information Retrieval / V.V. Raghavan, S.K.M. Wong // Journal of the American Society for Information Science. - 1986. - Vol. 37, no. 5. - P. 279-287.
  • Salton G. A Vector Space Model for Automatic Indexing / G. Salton, A. Wong, C.S. Yang // Communications of the ACM. - 1975. - Vol. 18, no. 11. - P. 613-620.
  • Algarni A. Feature Selection and Term Weighting / A. Algarni, N. Tairan // International Joint Conferences on Web Intelligence and Intelligent Agent Technologies. - 2014. - Vol. 1. - P. 336-339.
  • Aizawa A. An Information-Theoretic Perspective of TF-IDF Measures / A. Aizawa // Information Processing & Management. - 2003. - Vol. 39, no. 1. - P. 45-65.
  • Syntactic Dependency-Based N-grams as Classification Features / G. Sidorov, F. Velasquez, E. Stamatatos [et al.] // Mexican International Conference on Artificial Intelligence. - Berlin, 2012. - P. 1-11.
  • Goncalves T. Is Linguistic Information Relevant for the Classification of Legal Texts? / T. Goncalves, P. Quaresma // Proceedings of the 10th International Conference on Artificial Intelligence and Law. - 2005. - P. 168-176.
  • Moschitti A. Complex Linguistic Features for Text Classification: A Comprehensive Study / A. Moschitti, R. Basili // European Conference on Information Retrieval. - Berlin, 2004. - P. 181-196.
  • Efficient Estimation of Word Representations in Vector Space / T. Mikolov, K. Chen, G. Corrado, J. Dean // International Conference on Learning Representations. - Scottsdale, 2013. - URL: https://arxiv.org/abs/1301.3781.
  • Goldberg Y. Word2vec Explained: Deriving Mikolov et al.'s Negative-sampling Word-Embedding Method / Y. Goldberg, O. Levy // ArXiv. - 2014. - Vol. 1402.3722.
  • Burges C.J.C. Dimension Reduction: A Guided Tour / C.J.C. Burges // Foundations and Trends in Machine Learning. - 2009. - Vol. 2, no. 4. P. 275-365.
  • Extracting Gamers' Opinions from Reviews / D. Dascalu, M. Dascalu, A. Secui, S.A. Crossley // 18th International Symposium on Symbolic and Numeric Algorithms for Scientific Computing. - 2016. - P. 227-232.
  • Landauer T.K. An Introduction to Latent Semantic Analysis / T.K. Landauer, P.W. Foltz, D. Laham // Discourse Processes. - 1998. - Vol. 25, no. 2-3. - P. 259-284.
  • Nonnegative Matrix Factorization and its Application to Pattern Analysis and Text Mining / J.M. Zurada, T. Ensari, E. Hosseini, J. Chorowski // Federated Conference on Computer Science and Information Systems. - 2013. - P. 11-16.
  • An Improved K-Nearest-Neighbor Algorithm for Text Categorization / S. Jiang, G. Pang, M. Wu, L. Kuang // Expert Systems with Applications. - 2012. - Vol. 39, no. 1. - P. 1503-1509.
  • Joachims T. Text Categorization with Support Vector Machines: Learning with Many Relevant Features / T. Joachims // European Conference on Machine Learning. - Berlin, 1998. - P. 137-142.
  • Breiman L. Bagging Predictors / L. Breiman // Machine Learning. - 1996. - Vol. 24, no. 2. - P. 123-140.
  • Dong Y.S. A Comparison of Several Ensemble Methods for Text Categorization / Y.S. Dong, K.S. Han // International Conference on Services Computing. - 2004. - P. 419-422.
  • Polikar R. Ensemble Learning // Ensemble Machine Learning / ed. C. Zhang, Y. Ma. - Boston : Springer, 2012. - P. 1-34.
  • Ferreira A.J. Boosting Algorithms: A Review of Methods, Theory and Applications / A.J. Ferreira, M.A.T. Figueiredo // Ensemble Machine Learning / ed. C. Zhang, Y. Ma. - Boston : Springer, 2012. - P. 35-85.
  • Li Y.H. Classification of Text Documents / Y.H. Li, A.K. Jain // The Computer Journal. - 1998. - Vol. 41, no. 8. - P. 537-546.
  • Сравнительный анализ статистических методов классификации научных публикаций в области медицины / Г.В. Данилов, В.В. Жуков, А.С. Куликов [и др.] // Компьютерные исследования и моделирование. - 2020. - Т. 12, № 4. - С. 921-933.
  • Patient2vec: A Personalized Interpretable Deep Representation of the Longitudinal Electronic Health Record / J. Zhang, K. Kowsari, J.H. Harrison [et al.] // IEEE Access. - 2018. - Vol. 6. - P. 65333-65346.
  • Ofoghi B. Textual Emotion Classification: An Interoperability Study on Cross-Genre Data Sets / B. Ofoghi, K. Verspoor // Australasian Joint Conference on Artificial Intelligence. - Cham : Springer, 2017. - P. 262-273.
  • Paul M.J. Social Monitoring for Public Health / M.J. Paul, M. Dredze // Synthesis Lectures on Information Concepts, Retrieval and Services. - 2017. - Vol. 9, no. 5. - P. 1-183.
  • Jaeger S. Mol2vec: Unsupervised Machine Learning Approach with Chemical Intuition / S. Jaeger, S. Fulle, S. Turk // Journal of Chemical Information and Modeling. - 2018. - Vol. 58, no. 1. - P. 27-35.
  • Zhan J. Using Deep Learning for Short Text Understanding / J. Zhan, B. Dahal // Journal of Big Data. - 2017. - Vol. 4, no. 1. - P. 34.
  • Zhang X. Character-level Convolutional Networks for Text Classification / X. Zhang, J. Zhao, Y. LeCun // Advances in Neural Information Processing Systems. - Montreal, 2015. - P. 649-657.
  • Da Silva N.F.F. Tweet Sentiment Analysis with Classifier Ensembles / N.F.F. Da Silva, E.R. Hruschka, J.E.R. Hruschka // Decision Support Systems. - 2014. - Vol. 66. - P. 170-179.
  • Боровский А.В. Дискриминантный анализ технических коротких текстов / А.В. Боровский, Е.Е. Раковская, А.Л. Бисикало // Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика. - 2018. - №. 2. - С. 53-60.
  • Gabrilovich E. Computing Semantic Relatedness Using Wikipedia-Based Explicit Semantic Analysis // E. Gabrilovich, S. Markovitch // Proceedings of the 20th International Joint Conference on Artificial Intelligence. - 2007. - P. 1606-1611.
  • Query Enrichment for Web-query Classification / D. Shen, R. Pan, J.T. Sun [et al.] // ACM Transactions on Information Systems. - 2006. - Vol. 24, no. 3. - P. 320-352.
  • Современные технологии обработки естественного языка для решения задач стратегической аналитики / И.Ф. Кузьминов, П.Д. Бахтин, А.А. Тимофеев [и др.] // Искусственный интеллект и принятие решений. - 2020. - № 1. - С. 3-16.