Development of an automated information retrieval system for media content in natural language

Abstract


The paper presents the development of an automated information retrieval system of media content on user's request in natural language. It describes the current problems of search in the context of rapid growth of media content volume and diversity, and also reveals the limitations of traditional search methods based on the exact match of keywords and metadata. Special attention is paid to the analysis of natural language processing (NLP) methods, such as tokenization, lemmatization, vectorization and semantic proximity computation, as well as the use of neural network models based on the “transformer” architecture. A comparative analysis of modern open language models, including Qwen3, Vikhr, Saiga and YandexGPTLite 5, in terms of their applicability for multilingual and multimodal text retrieval and generation tasks is carried out. The paper proposes solutions for integrating modern NLP-methods and neural network algorithms into the server side of the search system, which allows to improve the relevance, accuracy and convenience of media content search for unstructured and imprecise user queries. The presented approaches provide a balance between search quality, performance and versatility of the system, and open up prospects for further development of intelligent search services.

Full Text

6

About the authors

O. A Poliakova

Perm National Research Polytechnic University

K. P Kuznetsov

Perm National Research Polytechnic University

References

  1. Афанасьева, Е.А. Роль автора в создании медиаконтента: трансформация профессиональных практик / Е.А. Афанасьева // Журналистский ежегодник. – 2015. – С. 151–154.
  2. Хобсон, Лейн. Обработка естественного языка в действии / Лейн Хобсон, Ханнес Хапке, Коул Ховард. – СПб.: Питер, 2020. – 576 с.
  3. Гольдберг, Й. Нейросетевые методы в обработке естественного языка / Й. Гольдберг; пер. с англ. А.А. Слинкина. – М.: ДМК Пресс, 2019. – 282 с.
  4. Мосалев, П.М. Обзор методов нечеткого поиска текстовой информации / П.М. Мосалев // Вестник МГУП имени Ивана Федорова. – 2013. – № 2. – С. 87–91.
  5. Прошина М. Современные методы обработки естественного языка: нейронные сети / М.В. Прошина // Экономика строительства. – 2022. – № 5. – С. 27–42.
  6. Jurafsky, D. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition / D. Jurafsky, J.H. Martin. – 3rd ed. – Pearson, 2021.
  7. Яруллин, Д.В. Интеллектуальная система управления подготовкой ИТспециалистов на основе денотативной аналитики / Д.В. Яруллин. – doi: 10.15593/2499-9873/2022.3.08 // Прикладная математика и вопросы управления / Applied Mathematics and Control Sciences. – 2022. – № 3. – С. 141–164.
  8. LLM Vs Traditional NLP models: A Comparative Analysis – goML [Электронный ресурс]. – URL: https://www.goml.io/llm-vs-traditional-nlp-models/ (дата обращения: 19.05.2025).
  9. Что такое скрытые модели Маркова [Электронный ресурс]. – URL: https://habr.com/ru/articles/135281/ (дата обращения: 19.05.2025).
  10. The 10 Biggest Issues Facing Natural Language Processing – i2 Group [Электронный ресурс]. – URL: https://i2group.com/articles/the-10-biggest-issues-facing-natural-language-processing (дата обращения: 19.05.2025).
  11. Attention Is All You Need [Электронный ресурс]. – URL: https://arxiv.org/html/1706.03762 (дата обращения: 19.05.2025).
  12. Alibaba Group. Alibaba Group [Электронный ресурс]. – URL: https://www.ali¬baba-group.com/ (дата обращения: 19.05.2025).
  13. Qwen Team. Qwen3 [Электронный ресурс]. – URL: https://qwenlm.github.io/blog/qwen3/ (дата обращения: 19.05.2025).
  14. Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian / А. Николич, К. Королев, С. Братчиков, Н. Компанець, А. Шельманов // arXiv preprint arXiv:2405. – 2024. 13929. https://arxiv.org/pdf/2405.13929
  15. Ilya Gusev. Saiga: Russian Instruction-following Large Language Models [Электронный ресурс]. – URL: https://huggingface.co/IlyaGusev/saiga_7b_lora (дата обращения: 19.05.2025).
  16. Яндекс. Официальный сайт компании [Электронный ресурс]. – URL: https://yandex.ru/company/ (дата обращения: 19.05.2025).
  17. Яндекс. YandexGPT-5-Lite-8B-instruct [Электронный ресурс]. – URL: https://huggingface.co/yandex/YandexGPT-5-Lite-8B-instruct (дата обращения: 19.05.2025).
  18. Yandex Cloud. Foundation Models – Документация [Электронный ресурс]. – URL: https://yandex.cloud/ru/docs/foundation-models/ (дата обращения: 19.05.2025).
  19. Документация по языку программирования JavaScript [Электронный ресурс]. – URL: https://metanit.com/web/javascript/ (дата обращения: 19.05.2025).
  20. Документация по React [Электронный ресурс]. – URL: https://ru.react.js.org (дата обращения: 19.05.2025).

Statistics

Views

Abstract - 19

PDF (Russian) - 5

Refbacks

  • There are currently no refbacks.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies