Разработка автоматизированной информационно-поисковой системы медиаконтента на естественном языке
- Авторы: Полякова О.А1, Кузнецов К.П1
- Учреждения:
- Пермский национальный исследовательский политехнический университет
- Выпуск: № 2 (2025)
- Страницы: 83–98
- Раздел: Статьи
- URL: https://ered.pstu.ru/index.php/amcs/article/view/4702
- DOI: https://doi.org/10.15593/2499-9873/2025.2.06
- Цитировать
Аннотация
Представлена разработка автоматизированной информационно-поисковой системы медиаконтента по запросу пользователя на естественном языке. Описаны современные проблемы поиска в условиях стремительного роста объемов и разнообразия медиаконтента, а также выявлены ограничения традиционных методов поиска, основанных на точном совпадении ключевых слов и метаданных. Особое внимание уделено анализу методов обработки естественного языка (NLP), таких как токенизация, лемматизация, векторизация и вычисление семантической близости, а также использованию нейросетевых моделей на основе архитектуры «трансформер». Проведен сравнительный анализ современных открытых языковых моделей, включая Qwen3, Vikhr, Saiga и YandexGPTLite 5, с точки зрения их применимости для многоязычных и мультимодальных задач поиска и генерации текстов. В работе предложены решения по интеграции современных NLP-методов и нейросетевых алгоритмов в серверную часть поисковой системы, что позволяет повысить релевантность, точность и удобство поиска медиаконтента по неструктурированным и неточным запросам. Представленные подходы обеспечивают баланс между качеством поиска, производительностью и универсальностью системы, а также открывают перспективы для дальнейшего развития интеллектуальных поисковых сервисов.
Ключевые слова
Полный текст
6Об авторах
О. А Полякова
Пермский национальный исследовательский политехнический университет
К. П Кузнецов
Пермский национальный исследовательский политехнический университет
Список литературы
- Афанасьева, Е.А. Роль автора в создании медиаконтента: трансформация профессиональных практик / Е.А. Афанасьева // Журналистский ежегодник. – 2015. – С. 151–154.
- Хобсон, Лейн. Обработка естественного языка в действии / Лейн Хобсон, Ханнес Хапке, Коул Ховард. – СПб.: Питер, 2020. – 576 с.
- Гольдберг, Й. Нейросетевые методы в обработке естественного языка / Й. Гольдберг; пер. с англ. А.А. Слинкина. – М.: ДМК Пресс, 2019. – 282 с.
- Мосалев, П.М. Обзор методов нечеткого поиска текстовой информации / П.М. Мосалев // Вестник МГУП имени Ивана Федорова. – 2013. – № 2. – С. 87–91.
- Прошина М. Современные методы обработки естественного языка: нейронные сети / М.В. Прошина // Экономика строительства. – 2022. – № 5. – С. 27–42.
- Jurafsky, D. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition / D. Jurafsky, J.H. Martin. – 3rd ed. – Pearson, 2021.
- Яруллин, Д.В. Интеллектуальная система управления подготовкой ИТспециалистов на основе денотативной аналитики / Д.В. Яруллин. – doi: 10.15593/2499-9873/2022.3.08 // Прикладная математика и вопросы управления / Applied Mathematics and Control Sciences. – 2022. – № 3. – С. 141–164.
- LLM Vs Traditional NLP models: A Comparative Analysis – goML [Электронный ресурс]. – URL: https://www.goml.io/llm-vs-traditional-nlp-models/ (дата обращения: 19.05.2025).
- Что такое скрытые модели Маркова [Электронный ресурс]. – URL: https://habr.com/ru/articles/135281/ (дата обращения: 19.05.2025).
- The 10 Biggest Issues Facing Natural Language Processing – i2 Group [Электронный ресурс]. – URL: https://i2group.com/articles/the-10-biggest-issues-facing-natural-language-processing (дата обращения: 19.05.2025).
- Attention Is All You Need [Электронный ресурс]. – URL: https://arxiv.org/html/1706.03762 (дата обращения: 19.05.2025).
- Alibaba Group. Alibaba Group [Электронный ресурс]. – URL: https://www.ali¬baba-group.com/ (дата обращения: 19.05.2025).
- Qwen Team. Qwen3 [Электронный ресурс]. – URL: https://qwenlm.github.io/blog/qwen3/ (дата обращения: 19.05.2025).
- Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian / А. Николич, К. Королев, С. Братчиков, Н. Компанець, А. Шельманов // arXiv preprint arXiv:2405. – 2024. 13929. https://arxiv.org/pdf/2405.13929
- Ilya Gusev. Saiga: Russian Instruction-following Large Language Models [Электронный ресурс]. – URL: https://huggingface.co/IlyaGusev/saiga_7b_lora (дата обращения: 19.05.2025).
- Яндекс. Официальный сайт компании [Электронный ресурс]. – URL: https://yandex.ru/company/ (дата обращения: 19.05.2025).
- Яндекс. YandexGPT-5-Lite-8B-instruct [Электронный ресурс]. – URL: https://huggingface.co/yandex/YandexGPT-5-Lite-8B-instruct (дата обращения: 19.05.2025).
- Yandex Cloud. Foundation Models – Документация [Электронный ресурс]. – URL: https://yandex.cloud/ru/docs/foundation-models/ (дата обращения: 19.05.2025).
- Документация по языку программирования JavaScript [Электронный ресурс]. – URL: https://metanit.com/web/javascript/ (дата обращения: 19.05.2025).
- Документация по React [Электронный ресурс]. – URL: https://ru.react.js.org (дата обращения: 19.05.2025).
Статистика
Просмотры
Аннотация - 22
PDF (Russian) - 9
Ссылки
- Ссылки не определены.
