ARCHITECTURAL AND TECHNOLOGICAL ORGANIZATION OF THE INFORMATION SYSTEM FOR MANAGING LARGE DATA IN INDUSTRY AND ENERGY

Abstract


In article considers the main standards, directions, technologies and methods for working with a large amount of information ("Big Data" - large data) inherent in modern cyberphysical systems. Such systems are popular abroad and are characterized by large-scale use of sensors and computer facilities in the collection, processing, analysis of information and management of production, energy systems, urban infrastructure. A conglomerate of measuring and control digital devices located in the same unified network provides facilities for managing objects taking into account a number of enlarged criteria, including safety, comfort, and energy saving. Global in terms of system scale management is effective for large, distributed, technically complex systems, as well as systems in no-structured connections between themselves and the world around them. Computerization of various areas of anthropogenic activity leads to an increase in the load of data transmission networks and processor nodes, the requirements to the composition of analytical functions are increased. Based on the review of the main institutions for working with standards, the main directions of use and providers of large data infrastructure, the architectural and technological implementation of the information system was proposed. Recommendations for its implementation using modern information technologies are given.

Full Text

Введение. В современном мире тенденция роста объемов информации наблюдается на протяжении нескольких десятилетий. Внедрение цифровых технологий [1] в отрасли экономики, традиционно считающиеся нецифровыми, приводит к резкой загрузке имеющихся вычислительных мощностей и самих каналов передачи информации. По оценкам специалистов ведущих ИТ-компаний, в течение суток создается около 1018 байт данных, что многократно превышает объем всей накопленной человеком информации до XXI века. Так, результаты исследований CNews Analytics и Oracle показывают, что на 2014 г. в России было накоплено 155∙1018 байт информации, что составило 1,8 % от мировых данных, а к 2020 г. прогнозируется, что объем информации достигнет 980∙1018 байт и займет 2,2 %. Таким образом, средний темп роста объема информации в России составляет 36 % в год. Большие данные - это набор подходов, методов обработки и инструментов для обработки объемов структурированной и неструктурированной информации, отличающихся многообразием и возможностью передачи скрытых причинно-следственных связей [2-8]. На сегодняшний день основной целью использования больших данных в промышленности и энергетике является повышение эффективности работы сложных и распределенных систем на основе широкомасштабного учета потребления ресурсов, мониторинга технического состояния оборудования и узлов, выявления неисправностей, контроля качества энергии, оптимизации расходов, улучшения точности прогнозирования режимов работы, минимизации рисков компаний и др. Основные направления больших данных представлены на рис. 1. Общая интенсификация информационных потоков обусловливает появление новых информационных систем управления для различных секторов экономики, включая промышленность, энергетику, городское хозяйство, инфраструктуру и др. Существующие информационные технологии хранения и обработки данных, ориентированные на медленно растущие объемы, нуждаются в развитии. Актуальны проблемы создания гибких и масштабируемых архитектур информационных систем, осуществляющих сбор, систематизацию, визуализацию, анализ и принятие решений в условиях больших объемов информации (больших данных) и их непрерывного роста [9, 10]. Рис. 1. Основные направления больших данных 1. Стандарты в области больших данных. Над стандартами в области больших данных работают крупные институты, а именно: Международная организация по стандартизации и Международная электротехническая комиссия (ISO/IEC), Международный союз электросвязи (ITU), Британский институт стандартов (BSI), Национальный институт стандартов и технологий (NIST). Международной организацией по стандартизации и Международной электротехнической комиссией (ИСО/МЭК) были созданы 3 рабочие группы, которые ориентированы на стандартизацию технологий [11-17]: 1) больших данных (ISO/IEC JTC1/WG 9 «Big data»); 2) интернет-вещей (ISO/IEC JTC1/WG 10 «Internet of Things»); 3) умных городов (ISO/IEC JTC1/WG 11 «Smart Cities»). На рис. 2 представлены области активности больших данных, которые отмечаются в ITU [14]. Рис. 2. Области активности больших данных NIST предлагает более проработанный Фреймворк по большим данным. NIST Big Data Interoperability Framework V1.0 включает в себя компоненты, которые представлены на рис. 3 [17]. Рис. 3. Компоненты NIST Big Data Interoperability Framework V1.0 В документе «Систематика» больших данных представляется готовая базовая модель [16] (рис. 4). 2. Аналитика рынка больших данных и IT-продуктов. На рынке больших данных активно ведут себя как крупные ИТ-предприятия, такие как IBM, HP, DELL. Также известны новые компании, например: Neo Technology, Sumo Logic, Cloudera и др. Несмотря на то, что доходы крупных разработчиков программных продуктов от больших данных занимают всего 1 %, их доля на рынке в 2016 г. была высока. Это подтверждается исследованием UMBEL, в соответствии с которым 46 % компаний инвестируют в услуги, 41 % - в ПО, 13 % - в аппаратное обеспечение [18]. Рис. 4. Ссылочная модель от NIST Основными поставщиками услуг и ПО для работы с большими данными являются: SAP, Oracle, IBM, Microsoft, Teradata, Pivotal (EMC), SAS, HP Vertica, Cloudera, Google, Amazon Wed Service. Они занимаются продажей специализированных СУБД и сопутствующего аналитического программного обеспечения. Из-за того, что внедрение этих продуктов требует высокой квалификации сотрудников, многие компании предпочитают использовать внешних системных интеграторов и IT-консультантов. Компания IDC оценивает российский рынок больших данных в 340 млн $, из них 100 млн $ составляют решения SAP, а остальные 240 млн $ составляют аналогичные решения Oracle, IBM, SAS, SAP, Microsoft и др. Так, например, Oracle, начиная с 2015 г., активно внедряет программно-аппаратный комплекс Oracle Big Data Appliance X5, который успешно интегрирован в FORS Solution Center, предназначенный для обучения новым технологиям и создания пилотных проектов в России. На рис. 5 показаны сферы применения больших данных в промышленности и энергетике. Самым большим является клиентский сервис, а самая малая доля приходится на риск-менеджмент. На рис. 6 приведено распределение сегментов рынка больших данных. Видно, что ключевую долю рынка больших данных занимают сервисные услуги. Клиентский сервис Операционная эффективность Риск-менеджмент Сервисные услуги Программное обеспечение Оборудование Рис. 5. Сферы применения Рис. 6. Объем рынка больших данных До 2020 г. в России планируется рост числа приложений, работающих с большими данными, в энергетике, госсекторе, логистических компаниях, добывающей промышленности, но большой популярности эти технологии пользуются в банковской сфере и телекоммуникациях. По данным CNews на 2015 г. большие данные в России внедряли 24 банка, 8 компаний операторов услуг связи. Например, компания «Мегафон» запустила сервис для анализа пассажирских перевозок, который позволяет транспортным компаниям с точностью до нескольких минут анализировать пассажирский поток и подсчитать число постоянных пассажиров на любом виде транспорта. При этом доступна статистика, что большие данные используют всего 2 промышленных компании, 2 компании нефтегазовой отрасли, 1 компания, специализирующаяся на деятельности в отрасли энергетики и ЖКХ. Технологии больших данных применяются при добыче полезных ископаемых для анализа качества сырья и самих технологических процессов, оценки способов извлечения, отслеживания процесса бурения. Большие данные также используется транспортными компаниями для мониторинга парка автомобилей, учета потребления топлива, обработки заявок клиентов. Так, например, после внедрения технологий больших данных на базе продуктов SAP в компании РЖД сократились сроки подготовки отчетности в 43,5 раза (с 14,5 ч до 20 мин), повысилась точность распределения затрат в 40 раз. Большие данные внедрены в процессы планирования и тарифного регулирования [19]. На рис. 7 показано, как влияет увеличение анализируемых данных на различные процессы, протекающие на предприятии: самое большое влияние результатов анализа оказано на координацию действий подразделения. На рис. 8 представлены источники данных. Рис. 7. Результаты анализа больших данных: 1 - оперативная координация действий подразделений, 2 - точное прогнозирование потребностей, 3 - прогнозирование энергопотребления, 4 - прозрачность информации, 5 - оценка удовлетворенности персонала, 6 - снижение издержек, 7 - формирование новых сервисов Рис. 8. Источники данные: 1 - мобильные устройства и приложения, 2 - Интернет, 3 - веб-аналитика, 4 - электронная почта, 5 - IoT-счетчики и контроллеры, 6 - системы геопозиционирования, 7 - датчики RFID, 8 - цифровые сенсоры Несмотря на значительные преимущества использования больших данных при внедрении в промышленности и энергетике, возникают следующие проблемы: - ограниченное число поставщиков данных; - недостаточный объем накапливаемой информации; - нехватка квалифицированных кадров, обладающих компетенциями как в области аналитики и информационных технологий, так и в области энергетики и производств; - недоверие и закрытость компаний к данным технологиям, включая Интернет вещей - IoT [12, 20]; - привлечение внешних специалистов энергоменеджеров; - обеспечение надежного хранения и безопасности данных; - высокая сложность интеграции и стоимость внедрения. В связи с указанными проблемами внедрение технологий больших данных на практике ведется поэтапно. Активно внедряются разрозненные элементы для работы с документами как источниками данных, которые в дальнейшем могут быть интегрированы в единую систему. Начальные этапы внедрения уже пройдены в Омском филиале ТГК-11, на Курской атомной электростанции, в филиалах ООО «Газпромэнерго», в ПАО «Юнипро» (ранее в ОАО «Э.ОН Россия») и других. 3. Архитектурно-функциональная организация информационной системы для работы с большими данными в промышленности и энергетике. Развитие промышленного Интернета, Интернета вещей, средств и технологий интеллектуального анализа данных, машинного обучения, предиктивной аналитики приводит к изменениям в структуре информационных систем в промышленности и энергетике как за рубежом, так и в России [21-27]. Энергетические компании, осознавая потребность в данных технологиях, инициируют процессы функциональной интеграции по шагам. Во-первых, создается гибкая и расширяемая инфраструктура сетей, вычислений и хранения данных на отраслевом уровне [28, 29]. Инфокоммуникационная сеть должна охватывать как можно большее число участников информационного взаимодействия, источников и потребителей данных, внешних систем, описываемых открытыми архитектурами. На этом этапе создается платформа для подготовки данных к последующему анализу. Во-вторых, модернизируется управление активами и ремонтами систем генерации и энергосетей как наиболее капиталоемких секторов. Поставщиками данных выступают различные энергоучетные системы, которые вводят новые информационные каналы в систему больших данных. На основе данных о состоянии оборудования, режиме его работы, состоянии отдельных узлов, полученных от сенсоров и датчиков, производятся обработка, расчетно-статистические вычисления и анализ накопленной информации в режиме реального времени [21]. Для работы с потоками измерительной информации применяются средства хранения временных рядов, балансировки нагрузки серверных станций, технологии параллельных вычислений. Результатом работы аналитических блоков являются модели для прогнозирования спроса на энергию, а также прогноза потребления, вероятных поломок оборудования, стратегии реагирования и воздействия на устройства управления. В-третьих, технология внедряется на розничном рынке, где энергосбытовые компании собирают данные об энергопотреблении клиентов в конкретный момент времени. На основании полученных данных осуществляется контроль энергопотерь, аварийных ситуаций и принимаются решения по их предотвращению [30]. С учетом современных технологий построения распределенных приложений для работы с большими данными предложена архитектурно-функциональная организация информационной системы, ориентированная на применение в промышленности и энергетике и реализующая указанные выше этапы интеграции (рис. 9) [31, 32]. В данной схеме ключевыми блоками являются архитектура разрабатываемой системы, поставщик и потребитель данных, поставщик приложений. Архитектура системы определяет и интегрирует требуемые действия в информационной системе управления большими данными, она должна быть открытой и основанной на принципах сервисориентированных архитектур. Поставщик приложений реализует жизненный цикл управления большими данными, соответствует требованиям безопасности и конфиденциальности, а также требованиям архитектуры системы. Потребитель данных - это конечные пользователи или другие системы, которые используют результаты работы «поставщика данных». Предложенная архитектура основана на принципах работы с большими данными и обладает горизонтальной маштабируемостью, отказоустойчивостью, глобальностью. Она реализует метод MapReduce, основанный на модели распределенной обработки больших объемов данных с помощью компьютерных кластеров. Рис. 9. Архитектурно-функциональная организация информационной системы для работы с большими данными в промышленности и энергетике Функционально-алгоритмическое обеспечение, реализуемое системой с предложенной архитектурой, в результате должно включать в себя технологии по работе с большими данными, а также реализуемые расчетно-аналитические задачи (рис. 10). Благодаря применению информационной системы для работы с большими данными, построенной на базе предложенной архитектуры, возможно достижение эффективности использования актива энергокомпании или промышленных производств и снижение стоимости владения. В компаниях энергораспределительного комплекса, по данным проектов SAP, резервы составляют порядка 20 %. Рациональная работа с данными позволит снизить аварийность. Рис. 10. Технологии обработки больших данных Выводы. В данной статье были рассмотрены стандарты применения больших данных, области применения, направления, технологии и методы для работы с большим объемом информации, свойственным современным киберфизическим системам. После анализа объема рынка больших данных 40 % всего объема составляют сервисные услуги. Большие данные могут применяться для сбора данных с интеллектуальных датчиков, для возможности прогнозирования рынков электроэнергии и для работы с информацией о чрезвычайных ситуациях в энергетике. На основе ссылочной модели от NIST была построена архитектурно-функциональная организация информационной системы для работы с большими данными.

About the authors

A. V Kychkin

Perm National Research Polytechnic University

Ya. I Kvitko

Perm National Research Polytechnic University

References

  1. Цифровая экономика Российской Федерации: распоряжение Правительства РФ от 28 июля 2017 г. № 1632-р // Доступ из справ.-правовой системы «КонсультантПлюс».
  2. Стандарты в области больших данных / Д.Е. Намиот, В.П. Куприяновский, Д.Е. Николаев, Е.В. Зубраева // International Journal of Open Information Technologies. - 2016. - Vol. 4. - № 11.
  3. BSI Big Data and standards market research. - January 2016.
  4. Иванов П.Д., Вампилов В.Ж. Технологии Big Data и их применение на современном промышленном предприятии [Электронный ресурс] // Инженерный журнал: наука и инновации. - 2014. - Вып. 8. - URL: http://engjournal.ru/catalog/it/asu/1228.html (дата обращения: 01.11.2017).
  5. Томас Х. Давенпорт. Большие данные на работе: рассеивание мифов, раскрытие возможностей // Harvard Business Review Press. - 2014. - C. 240.
  6. Атаманов Ю.С., Гончарук В.С., Гордеев С.Н. Введение в Big Data // Молодой ученый. - 2017. - № 11. - С. 33-34.
  7. Что такое Big Data? [Электронный ресурс] // ПостНаука. - URL: https://postnauka.ru/faq/46974 (дата обращения: 01.11.2017).
  8. Майер-Шенбергер В., Кукьер К. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим. - М.: Манн, Иванов и Фербер, 2013. - С. 134.
  9. Лесковец Юре, Раджараман Ананд, Ульман Джеффри Д. Добыча массивных наборов данных. - Stanford Univ., Milliway Labs, 2014. - 516 с.
  10. Kychkin А.V., Mikriukov G.P. Applied data analysis in energy monitoring system // Проблемы региональной энергетики. - 2016. - № 2(31). - С. 84-92.
  11. Намиот Д.Е., Шнепс-Шнеппе М.А. Об отечественных стандартах для Умного города // International Journal of Open Information Technologies. - 2016. - Т. 4. - № 7. - С. 32-37.
  12. Формирование рабочих групп по большим данным. ISO/IEC JTC 1 Forms Two Working Groups on Big Data and Internet of Things [Электронный ресурс]. - URL: http://www.ansi.org/news_publications/news_ story.aspx?menuid=7&articled=5b101d27-41b5-4540-bca-657314402591 (дата обращения: 01.11.2017).
  13. ITU - T LIAISON STATEMENT ISO/IEC JTC1/WG9 - ISO/IEC JTC1/WG 9 N 201 [Электронный ресурс]. - URL: http://www.itu.int/net/itu-t/ls/ls.aspx?isn=12493 (дата обращения: 01.11.2017).
  14. Большие данные. ITU Big Data [Электронный ресурс]. - URL: http://www.itu.int/en/ITU-T/techwatch/Pages/big-data-standards.aspx (дата обращения: 01.11.2017).
  15. Smith John R. Riding the multimedia big data wave // Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval. - ACM, 2013.
  16. Big Data Taxonomies [Электронный ресурс]. - URL: http://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-2.pdf (дата обращения: 01.11.2017).
  17. NIST Big Data [Электронный ресурс]. - URL: http://www.nist.gov/ itl/bigdata/bigdatainfo.cfm (дата обращения: 01.11.2017).
  18. Big Data Standards and Market Research [Электронный ресурс]. - URL: http://shop.bsigroup.com/upload/275237/ The-Big-Data-And-Standards-Market-Research-Report-By-BSI-And-Circle-Research.pdf (дата обращения: 01.11.2017).
  19. Марр Бернард. Большие данные: использование интеллектуальных больших данных, аналитики и показателей для принятия лучших решений и повышения производительности. - Wiley, 2015. - 256 с.
  20. Кычкин А.В., Артемов С.А., Белоногов А.В. Распределенная система энергомониторинга реального времени на основе технологии IoT // Датчики и системы. - 2017. - № 8-9(217). - С. 49-55.
  21. Барлоу Майк. Аналитика больших данных в реальном времени: новая архитектура. - O’Reilly Media, 2013. - 32 с.
  22. Кычкин А.В., Микрюков Г.П. Метод обработки результатов мониторинга группы энергопотребителей // Энергобезопасность и энергосбережение. - 2016. - № 6. - С. 9-14.
  23. Марз Натан, Уоррен Джеймс. Большие данные: принципы и передовая практика масштабируемых систем передачи данных в реальном времени. - Manning, 2015. - 330 с.
  24. Виттен Ян Х., Франк Эйб, Холл Марк А. Добыча данных: практические инструменты и методы машинного обучения. - Morgan Kaufmann, 2011. - 630 с.
  25. Алемейер-Стуббе Андреа, Коулман Ширли. Практическое руководство по интеллектуальному анализу данных для бизнеса и промышленности. - John Wiley & Sons, Ltd, 2014. - 303 с.
  26. Чубукова И.А. Анализ данных: курс лекций интернет-университета INTUIT. - 2006. - 328 с.
  27. Flach Peter. Machine Learning: the Art and Science of Algorithms that Make Sense of Data. - Cambridge University Press, 2012. - 396 с.
  28. Кычкин А.В. Синтез системы удаленного энергетического мониторинга производства // Металлург. - 2015. - № 9. - С. 20-27.
  29. Кычкин А.В. Программно-аппаратное обеспечение сетевого энергоучетного комплекса // Датчики и системы. - 2016. - № 7. - С. 24-32.
  30. Кычкин А.В., Хорошев Н.И., Елтышев Д.К. Концепция автоматизированной информационной системы поддержки энергетического менеджмента // Энергобезопасность и энергосбережение. - 2013. - № 5. - С. 12-17.
  31. Уайт Том. Hadoop: окончательное руководство: пер. с англ. Е. Матвеева. - СПб.: Питер, 2013. - 672 с. - (Бестселлеры O’Reilly).
  32. Гуллер Мохаммед. Большая аналитика данных с Spark. - Apress, 2016. - 504 с.

Statistics

Views

Abstract - 110

PDF (Russian) - 25

Refbacks

  • There are currently no refbacks.

Copyright (c) 2022 PNRPU Bulletin. Electrotechnics, Informational Technologies, Control Systems

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies