Научный журнал Байкальского государственного университета
System Analysis &
Mathematical Modeling
Издается с 2019 года
Menu

Информация о статье

Название статьи:

Сравнительный анализ технологий транскрибации речи для цифровизации службы технической поддержки

Авторы:
Архипова З.В., кандидат экономических наук, доцент, кафедра математических методов и цифровых технологий, Байкальский государственный университет, г. Иркутск, Российская Федерация, zvarhipova@yandex.ru,

Ставер В.А., магистрант, кафедра математических методов и цифровых технологий, Байкальский государственный университет, г. Иркутск, Российская Федерация, vlstavervl@gmail.com
В рубрике:
ТЕХНИЧЕСКИЕ НАУКИ
Год: 2025 Том: 7 Номер журнала: 1
Страницы: 5-16
Тип статьи: Научная статья
УДК: 004.42
DOI: 10.17150/2713-1734.2025.7(1).5-16
Аннотация:
Статья посвящена применению нейросетевых технологий для повышения эффективности и качества работы служб технической поддержки. Применение технологий транскрибации речи становится все более актуальным в условиях повышения требований к качеству обработки информации в различных сферах. В рамках исследования рассмотрены основные подходы к транскрибации речи, включая классические методы, решения на основе глубокого обучения, гибридные подходы, а также готовые коммерческие и открытые инструменты. Исследование направлено на сравнительный анализ современных систем транскрибации для выбора и последующего внедрения в службу поддержки франчайзинговой компании «Лаборатория С», так как в компании сотрудники после разговора с клиентом записывают сам разговор вручную. Для проведения исследования были использованы как коммерческие решения, так и инструменты с открытым исходным кодом. Коммерческие системы (Google Speech-to-Text, Яндекс SpeechKit, Amazon Transcribe, Azure Speech-to-Text) применялись непосредственно через официальные платформы соответствующих сервисов. Открытые решения (Kaldi, DeepSpeech, OpenAI Whisper) были развернуты в среде Google Colab. Полученные результаты транскрибации, как от коммерческих, так и от открытых инструментов, затем подвергались сравнению в Google Colab, где с использованием Python и библиотек, таких как NumPy и scikit-learn, производились расчеты метрик и оценка качества транскрибации. Оценка эффективности этих систем проводилась с использованием метрик WER (Word Error Rate), MER (Match Error Rate), WIP (Word Information Preserved) и WIL (Word Information Loss). Для анализа применялись два набора данных: первый представлял собой записи, выполненные в идеальных условиях, второй - записи, отражающие реальные рабочие сценарии компании «Лаборатория С». Результаты исследования позволили выявить сильные и слабые стороны различных технологий транскрибации речи, а также определить их применимость в условиях реальной рабочей среды службы технической поддержки.
Ключевые слова: нейросетевые технологии, транскрибация речи, автоматическое распознавание речи, техническая поддержка, метрики качества транскрибации, Whisper (OpenAI), Google Speech-to-Text, Яндекс SpeechKit, Amazon Transcribe, Azure Speech-to-Text, Kaldi, DeepSpeech
Список цитируемой литературы:
  • Mon S. M., Tun H. M. Speech-to-text conversion (STT) system using hidden Markov model (HMM). International Journal of Scientific & Technology Research, 2015, vol. 4, no. 6, pp. 349-352.
  • McLachlan G. J. Finite Mixture Models. - New York : Wiley, 1999.
  • Dempster A. P., Laird N. M., Rubin D. B. Maximum likelihood from incomplete data via the EM algorithm (with discussion). Journal of the Royal Statistical Society, 1997, B 39, pp. 1-38.
  • Saleh M. A. M., Ibrahim N. S., Ramli D. A. Data reduction on MFCC features based on kernel PCA for speaker verification system. WALIA Journal, 2014, vol. 30, pp. 56-62.
  • Geitgey A. Machine learning is fun! Part 2. Medium, Feb. 13, 2018.
  • Dhanashri D., Dhonde S. B. Speech recognition using neural networks: A review. International Journal of Multidisciplinary Research and Development, 2015, vol. 2, no. 6, pp. 226-229.
  • Long Y., Li Y., Ye H., Mao H. Domain adaptation of lattice-free MMI based TDNN models for speech recognition // International Journal of Speech Technology, 2017. Vol. 20, no. 1, pp. 171-178.
  • Shaik M. A. B., Mousa A. E.-D., Schluter R., Ney H. Hybrid language models using mixed types of sub-lexical units for open vocabulary german lvcsr. INTERSPEECH, 2011, pp. 1441-1444.
  • Fauziya F., Nijhawan G. A comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling. International Journal of Computer Applications, 2014, vol. 98, no. 6, pp. 12-16.
  • Utane A. S. Emotion recognition through speech using gaussian mixture model and hidden Markov model. International Journal of Advanced Research in Computer Science and Software Engineering, 2013, vol. 3, no. 4.
  • Morris A. C., Maier V., Green P. From WER and RIL to MER and WIL: improved evaluation measures for connected speech recognition // INTERSPEECH 2004 -- ICSLP 8th International Conference on Spoken Language Processing ICC Jeju, Jeju Island, Korea October 4-8, 2004. URL: http://www.isca-speech.org/archive.