Разработка автоматизированной информационно-поисковой системы медиаконтента на естественном языке

Аннотация


Представлена разработка автоматизированной информационно-поисковой системы медиаконтента по запросу пользователя на естественном языке. Описаны современные проблемы поиска в условиях стремительного роста объемов и разнообразия медиаконтента, а также выявлены ограничения традиционных методов поиска, основанных на точном совпадении ключевых слов и метаданных. Особое внимание уделено анализу методов обработки естественного языка (NLP), таких как токенизация, лемматизация, векторизация и вычисление семантической близости, а также использованию нейросетевых моделей на основе архитектуры «трансформер». Проведен сравнительный анализ современных открытых языковых моделей, включая Qwen3, Vikhr, Saiga и YandexGPTLite 5, с точки зрения их применимости для многоязычных и мультимодальных задач поиска и генерации текстов. В работе предложены решения по интеграции современных NLP-методов и нейросетевых алгоритмов в серверную часть поисковой системы, что позволяет повысить релевантность, точность и удобство поиска медиаконтента по неструктурированным и неточным запросам. Представленные подходы обеспечивают баланс между качеством поиска, производительностью и универсальностью системы, а также открывают перспективы для дальнейшего развития интеллектуальных поисковых сервисов.

Полный текст

6

Об авторах

О. А Полякова

Пермский национальный исследовательский политехнический университет

К. П Кузнецов

Пермский национальный исследовательский политехнический университет

Список литературы

  1. Афанасьева, Е.А. Роль автора в создании медиаконтента: трансформация профессиональных практик / Е.А. Афанасьева // Журналистский ежегодник. – 2015. – С. 151–154.
  2. Хобсон, Лейн. Обработка естественного языка в действии / Лейн Хобсон, Ханнес Хапке, Коул Ховард. – СПб.: Питер, 2020. – 576 с.
  3. Гольдберг, Й. Нейросетевые методы в обработке естественного языка / Й. Гольдберг; пер. с англ. А.А. Слинкина. – М.: ДМК Пресс, 2019. – 282 с.
  4. Мосалев, П.М. Обзор методов нечеткого поиска текстовой информации / П.М. Мосалев // Вестник МГУП имени Ивана Федорова. – 2013. – № 2. – С. 87–91.
  5. Прошина М. Современные методы обработки естественного языка: нейронные сети / М.В. Прошина // Экономика строительства. – 2022. – № 5. – С. 27–42.
  6. Jurafsky, D. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition / D. Jurafsky, J.H. Martin. – 3rd ed. – Pearson, 2021.
  7. Яруллин, Д.В. Интеллектуальная система управления подготовкой ИТспециалистов на основе денотативной аналитики / Д.В. Яруллин. – doi: 10.15593/2499-9873/2022.3.08 // Прикладная математика и вопросы управления / Applied Mathematics and Control Sciences. – 2022. – № 3. – С. 141–164.
  8. LLM Vs Traditional NLP models: A Comparative Analysis – goML [Электронный ресурс]. – URL: https://www.goml.io/llm-vs-traditional-nlp-models/ (дата обращения: 19.05.2025).
  9. Что такое скрытые модели Маркова [Электронный ресурс]. – URL: https://habr.com/ru/articles/135281/ (дата обращения: 19.05.2025).
  10. The 10 Biggest Issues Facing Natural Language Processing – i2 Group [Электронный ресурс]. – URL: https://i2group.com/articles/the-10-biggest-issues-facing-natural-language-processing (дата обращения: 19.05.2025).
  11. Attention Is All You Need [Электронный ресурс]. – URL: https://arxiv.org/html/1706.03762 (дата обращения: 19.05.2025).
  12. Alibaba Group. Alibaba Group [Электронный ресурс]. – URL: https://www.ali¬baba-group.com/ (дата обращения: 19.05.2025).
  13. Qwen Team. Qwen3 [Электронный ресурс]. – URL: https://qwenlm.github.io/blog/qwen3/ (дата обращения: 19.05.2025).
  14. Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian / А. Николич, К. Королев, С. Братчиков, Н. Компанець, А. Шельманов // arXiv preprint arXiv:2405. – 2024. 13929. https://arxiv.org/pdf/2405.13929
  15. Ilya Gusev. Saiga: Russian Instruction-following Large Language Models [Электронный ресурс]. – URL: https://huggingface.co/IlyaGusev/saiga_7b_lora (дата обращения: 19.05.2025).
  16. Яндекс. Официальный сайт компании [Электронный ресурс]. – URL: https://yandex.ru/company/ (дата обращения: 19.05.2025).
  17. Яндекс. YandexGPT-5-Lite-8B-instruct [Электронный ресурс]. – URL: https://huggingface.co/yandex/YandexGPT-5-Lite-8B-instruct (дата обращения: 19.05.2025).
  18. Yandex Cloud. Foundation Models – Документация [Электронный ресурс]. – URL: https://yandex.cloud/ru/docs/foundation-models/ (дата обращения: 19.05.2025).
  19. Документация по языку программирования JavaScript [Электронный ресурс]. – URL: https://metanit.com/web/javascript/ (дата обращения: 19.05.2025).
  20. Документация по React [Электронный ресурс]. – URL: https://ru.react.js.org (дата обращения: 19.05.2025).

Статистика

Просмотры

Аннотация - 22

PDF (Russian) - 9

Ссылки

  • Ссылки не определены.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах