Development of an automated information retrieval system for media content in natural language
- Authors: Poliakova O.A1, Kuznetsov K.P1
- Affiliations:
- Perm National Research Polytechnic University
- Issue: No 2 (2025)
- Pages: 83–98
- Section: ARTICLES
- URL: https://ered.pstu.ru/index.php/amcs/article/view/4702
- DOI: https://doi.org/10.15593/2499-9873/2025.2.06
- Cite item
Abstract
The paper presents the development of an automated information retrieval system of media content on user's request in natural language. It describes the current problems of search in the context of rapid growth of media content volume and diversity, and also reveals the limitations of traditional search methods based on the exact match of keywords and metadata. Special attention is paid to the analysis of natural language processing (NLP) methods, such as tokenization, lemmatization, vectorization and semantic proximity computation, as well as the use of neural network models based on the “transformer” architecture. A comparative analysis of modern open language models, including Qwen3, Vikhr, Saiga and YandexGPTLite 5, in terms of their applicability for multilingual and multimodal text retrieval and generation tasks is carried out. The paper proposes solutions for integrating modern NLP-methods and neural network algorithms into the server side of the search system, which allows to improve the relevance, accuracy and convenience of media content search for unstructured and imprecise user queries. The presented approaches provide a balance between search quality, performance and versatility of the system, and open up prospects for further development of intelligent search services.
Full Text
6About the authors
O. A Poliakova
Perm National Research Polytechnic University
K. P Kuznetsov
Perm National Research Polytechnic University
References
- Афанасьева, Е.А. Роль автора в создании медиаконтента: трансформация профессиональных практик / Е.А. Афанасьева // Журналистский ежегодник. – 2015. – С. 151–154.
- Хобсон, Лейн. Обработка естественного языка в действии / Лейн Хобсон, Ханнес Хапке, Коул Ховард. – СПб.: Питер, 2020. – 576 с.
- Гольдберг, Й. Нейросетевые методы в обработке естественного языка / Й. Гольдберг; пер. с англ. А.А. Слинкина. – М.: ДМК Пресс, 2019. – 282 с.
- Мосалев, П.М. Обзор методов нечеткого поиска текстовой информации / П.М. Мосалев // Вестник МГУП имени Ивана Федорова. – 2013. – № 2. – С. 87–91.
- Прошина М. Современные методы обработки естественного языка: нейронные сети / М.В. Прошина // Экономика строительства. – 2022. – № 5. – С. 27–42.
- Jurafsky, D. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition / D. Jurafsky, J.H. Martin. – 3rd ed. – Pearson, 2021.
- Яруллин, Д.В. Интеллектуальная система управления подготовкой ИТспециалистов на основе денотативной аналитики / Д.В. Яруллин. – doi: 10.15593/2499-9873/2022.3.08 // Прикладная математика и вопросы управления / Applied Mathematics and Control Sciences. – 2022. – № 3. – С. 141–164.
- LLM Vs Traditional NLP models: A Comparative Analysis – goML [Электронный ресурс]. – URL: https://www.goml.io/llm-vs-traditional-nlp-models/ (дата обращения: 19.05.2025).
- Что такое скрытые модели Маркова [Электронный ресурс]. – URL: https://habr.com/ru/articles/135281/ (дата обращения: 19.05.2025).
- The 10 Biggest Issues Facing Natural Language Processing – i2 Group [Электронный ресурс]. – URL: https://i2group.com/articles/the-10-biggest-issues-facing-natural-language-processing (дата обращения: 19.05.2025).
- Attention Is All You Need [Электронный ресурс]. – URL: https://arxiv.org/html/1706.03762 (дата обращения: 19.05.2025).
- Alibaba Group. Alibaba Group [Электронный ресурс]. – URL: https://www.ali¬baba-group.com/ (дата обращения: 19.05.2025).
- Qwen Team. Qwen3 [Электронный ресурс]. – URL: https://qwenlm.github.io/blog/qwen3/ (дата обращения: 19.05.2025).
- Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian / А. Николич, К. Королев, С. Братчиков, Н. Компанець, А. Шельманов // arXiv preprint arXiv:2405. – 2024. 13929. https://arxiv.org/pdf/2405.13929
- Ilya Gusev. Saiga: Russian Instruction-following Large Language Models [Электронный ресурс]. – URL: https://huggingface.co/IlyaGusev/saiga_7b_lora (дата обращения: 19.05.2025).
- Яндекс. Официальный сайт компании [Электронный ресурс]. – URL: https://yandex.ru/company/ (дата обращения: 19.05.2025).
- Яндекс. YandexGPT-5-Lite-8B-instruct [Электронный ресурс]. – URL: https://huggingface.co/yandex/YandexGPT-5-Lite-8B-instruct (дата обращения: 19.05.2025).
- Yandex Cloud. Foundation Models – Документация [Электронный ресурс]. – URL: https://yandex.cloud/ru/docs/foundation-models/ (дата обращения: 19.05.2025).
- Документация по языку программирования JavaScript [Электронный ресурс]. – URL: https://metanit.com/web/javascript/ (дата обращения: 19.05.2025).
- Документация по React [Электронный ресурс]. – URL: https://ru.react.js.org (дата обращения: 19.05.2025).
Statistics
Views
Abstract - 19
PDF (Russian) - 5
Refbacks
- There are currently no refbacks.