РАЗРАБОТКА И ИССЛЕДОВАНИЕ МОДЕЛИ ИЕРАРХИЧЕСКОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ ОБЪЕКТОВ ДЛЯ ОЦЕНКИ ВЛИЯНИЯ ПАРАМЕТРОВ ИЗОБРАЖЕНИЙ НА БЫСТРОДЕЙСТВИЕ РАСПОЗНАВАНИЯ

Аннотация


Рассматриваются преимущества иерархического подхода перед стандартными подходами распознавания: уменьшение числа распознаваемых пикселей (за счёт отбрасывания участков изображения, не несущих полезной информации для процесса распознавания), уменьшение общего времени обработки изображения. Суть иерархического метода распознавания заключается в том, что он добавляет предварительную обработку изображения, выделяя области интереса на изображении (ROI), и распознаёт только их. Для оценки влияния иерархического подхода было решено создать аналитическую модель, входными параметрами которой являются интенсивность возникновения объектов в зоне распознавания, размер изображения объекта и максимально возможная скорость обработки изображения системой (при большой загрузке производительность системы снижается). Модель рассчитывает интенсивность обслуживания заявок, исходя из допустимых размеров области интереса (ROI), учитывает возможность распараллеливания процесса распознавания объекта за счёт освободившихся вычислительных ресурсов. Результаты, полученные в ходе моделирования, помогают проанализировать перспективы применения иерархического метода распознавания для каждой конкретной системы и выполнить предварительный расчёт среднего времени обработки одной заявки. Цель исследования: создание аналитической модели расчёта параметров системы иерархического распознавания объектов. Для этого были применены методы из теории систем массового обслуживания (СМО), теории телетрафика и статистический анализ. Результаты: произведён расчёт оптимальных характеристик системы (рекомендованный размер изображения для грубого и точного поиска) в условиях заданного размера изображения и времени, необходимого алгоритму на обработку одного пикселя. Предложен вариант приблизительного расчёта времени распознавания объекта на изображении системой иерархического распознавания.

Полный текст

Введение. Системы машинного зрения, занимающиеся распознаванием объектов, уже достаточно прочно вошли в нашу жизнь. Разрабатываются сотни платформ и алгоритмов, выполняющих эти функции. Каждая имеет свои плюсы и минусы, но почти все сходятся на том, что входное изображение анализируется целиком, каким бы большим оно не являлось [1]. И это могут себе позволить стационарные мощные платформы, обладающие достаточным количеством вычислительных ресурсов для подобных операций. Однако очень часто возникает необходимость разработать такую систему распознавания, которая работала бы на портативной платформе или платформе с малой вычислительной мощностью [2]. Как правило, при решении этой задачи просто наращивают вычислительные возможности устройств. Так, например, известны решения от компаний NVIDIA, Intel, Google для распознавания образов, которые либо, сохраняя миниатюрность, стараются оптимизировать использование процессора и памяти, увеличить рабочие частоты и объём памяти, либо вовсе отказываются от процессов распознавания на платформе, передавая данные для анализа стационарной мощной платформе. Эти удорожает решения и усложняет обслуживание таких систем. Но есть альтернативный вариант решения - изменение метода извлечения полезной информации из изображения. Чаще всего объект на изображении занимает не всю площадь, оставляя участки не несущие полезной информации для процесса распознавания. Если отбросить эти участки, то размер изображения сократится, что положительно отразится на времени распознавания изображения. Это называется методом иерархического поиска информации. 1. Иерархический метод распознавания объекта. Отличием иерархического метода распознавания является то, что изображение, получаемое от камеры, проходит предобработку, а лишь потом выполняется распознавание: - исходное изображение делится на фрагменты и сохраняется в специальной файловой системе; - создаются дубликаты исходного изображения в более низком качестве (меньшее разрешение) [3, 4]. Первый этап распознавания производится на дубликате оригинального изображения с самым низким разрешением. Это снижает время поиска и количество ресурсов, затрачиваемых на обработку изображения (по сравнению с обработкой оригинального изображения). На изображении отмечаются ROI (англ. «Region Of Interest» - область интереса), которые удовлетворяют критериям грубого предварительного поиска. Такой поиск отличается от обычного тем, что порог отсеивания ложных срабатываний значительно ниже. Благодаря этому на изображении будут обнаружены все объекты, которые хотя бы отдалённо напоминают объект поиска. Алгоритм, используя угловые координаты рамки ROI, производит расчёт новой области поиска. Фрагменты исходного изображения, соответствующие этой области, загружаются из памяти. На втором этапе происходит обработка загруженных фрагментов исходного изображения в стандартном режиме распознавания (с высоким порогом отсеивания ложных срабатываний) - точный поиск. В более продвинутых системах таких итераций грубого поиска может быть больше. Это позволяет снизить количество ложных вызовов после грубого поиска, так как каждый фрагмент изображения будет распознаваться более одного раза [5-10]. Данный подход имеет преимущество над стандартными подходами по времени распознавания исходного изображения. Как правило, для анализа изображения (стандартными подходами) требуется обойти «скользящим окном» все пиксели изображения. Время распознавания (T) можно грубо рассчитать как произведение трёх чисел (в случае, если алгоритм распознавания перебирает «скользящим окном» все пиксели): - высота изображения в пикселях (h); - ширина изображения в пикселях (w); - время, затрачиваемое «скользящим окном» на операцию распознавания для каждого пикселя (t) - при анализе многоканального изображения время получается из суммы времени, затрачиваемого для каждого из каналов. . (1) Примером алгоритма, использующего «скользящее окно», является свёртка (рис. 1), применяемая в нейронных сетях. Рис. 1. Свёртка изображения Иерархический метод значительно уменьшает первые два числа (высота изображения в пикселях, ширина изображения в пикселях), что снижает общее время обработки. Однако следует помнить, что каждая итерация этапа грубого поиска требует некоторого времени, в которое входит не только «время на распознавание пикселя», но и время, затрачиваемое на файловые операции с изображением (создание дубликатов изображения, разбиение изображения на фрагменты, определение новой области ROI) [11-17]. Однако время распознавания не всегда линейно зависит от 3 названных выше величин. Из фундаментальных законов производительности вычислительных систем известна зависимость среднего времени обработки заявки от состояния загруженности системы в конкретный момент времени (коэффициент использования). Когда коэффициент использования достигает 100 %, т.е. сервер оказывается перегруженным, время обработки стремится к бесконечности из-за ограниченности вычислительных ресурсов [18]. Это означает, что необходимо обеспечить сервер таким объёмом вычислительной мощности, чтобы справляться без перегрузки с требуемыми функциями. В этой ситуации, иерархический метод тоже имеет преимущество перед обычными методами, так как все вычисления производятся над меньшим числом пикселей. Таким образом, иерархический метод распознавания имеет ряд преимуществ перед стандартными методами, но требует предварительного расчёта параметров, при которых он будет эффективен. 2. Модель системы распознавания объекта. Для определения условий, в которых применение иерархического метода будет эффективным, можно использовать теорию СМО. Она позволяет достаточно точно предсказать параметры системы. Промоделировать такой процесс обработки информации можно представив его как n-канальную СМО с отказами. Отказы в данном случае будут представлять собой объекты, на которые система не успела среагировать из-за того, что вычислительные возможности были заняты распознаванием другого объекта [19, 20]. Для расчёта аналитической модели нам необходимо знать показатели λ и µ. Поэтому будем считать, что запросы к системе на распознавание объекта появляются с интенсивностью Х штук в минуту (60 с). Каждый запрос - изображение, извлекаемое системой из памяти, первоначально полученное от камеры снимающей объекты. Отсюда следует, что (2) Интенсивность обслуживания в случае одноканальной СМО с отказами можно рассчитать, зная объём информации (V) и скорость её обработки (vобр). Допустим, что каждое изображение было первоначально получено от камеры с разрешением 1,2 Мп и состоит из 1 200 000 пикселей, которые необходимо обойти скользящим окном алгоритма распознавания. Ресурсы системы позволяют обрабатывать скользящим окном 120 000 пикселей в секунду (3). Время, затрачиваемое на загрузку изображения из памяти, в данной модели не учитывается, так как оно значительно меньше времени, затрачиваемого на само распознавание: (3) Данные параметры описывают ситуацию, когда вычислительная платформа целиком принимает изображение от камеры и распознаёт его. В случае иерархического подхода с одной итерацией интенсивность обслуживания будет представлена двумя числами. Одна итерация означает, что система предварительно получает и анализирует изображение, сжатое в несколько раз. После обнаружения на сжатом изображении чего-то, напоминающего объект, на изображении выделяется область ROI. Данная область получается из полного изображения, но меньше по площади. Первая строчка (табл. 1) описывает систему, работающую с применением стандартных методов. В следующих строчках система применяет иерархический метод. Допустим, что система изначально анализирует изображение, сжатое в 5 раз, т.е. площадь изображения составляет 300 пикселей. Для усреднения полученных результатов предположим, что область ROI всегда в n раз меньше оригинального изображения. Это позволяет системе обрабатывать n изображений одновременно, распараллеливая процесс распознавания. Результаты моделирования случаев, когда область ROI меньше исходного изображения в 2, 3 и 4 раза, представлены в табл. 1. Таблица 1 Таблица расчёта интенсивности обслуживания Площадь ROI Площадь изображения в пикселях Интенсивность обслуживания (1/с) Без иерарх. м. 1 200 000 0,1 840 000 (240 000+600 000) 0,14 640 000 (240 000+400 000) 0,19 540 000 (240 000+300 000) 0,22 Уменьшение площади ROI возможно только до определённого числа. Это обусловлено тем, что при уменьшении количества пикселей, отображающих объект, повышается вероятность возникновения ошибок распознавания (как первого, так и второго рода). Так, например, в системах распознавания лиц не рекомендуется уменьшать размер изображения, описывающего объект, ниже 64 пикселей. Изображение меньшего разрешения будет значительно чаще выдавать некорректный результат. Стоит также отметить, что при использовании иерархического метода вычислительные ресурсы, требуемые для распознавания объекта, сокращаются. Это позволяет либо разделять заявку между процессами распознавания (каналы с взаимопомощью), либо одновременно обрабатывать несколько заявок распараллеливания процесса распознавания. В данной модели будет учтён второй вариант. На основании вышеперечисленных условий были произведены и расчёты, а полученные результаты занесены в табл. 2 и представлены на рис. 2. Таблица 2 Результаты расчёта относительной пропускной способности системы распознавания объекта Параметры системы Интенсивность потока заявок λ (1/c) Без иерарх. м. 85 54 37 28 23 19 16 14 13 11 10 9 9 ROI = 99 90 75 64 55 47 42 37 34 31 28 26 24 ROI = 100 99 95 89 82 75 69 64 59 54 51 47 44 ROI = 100 99 99 97 95 91 87 83 79 75 71 67 64 Целевой функцией была выбрана относительная пропускная способность (Q) - средняя доля поступивших заявок, обслуживаемых системой в единицу времени (т.е. отношение среднего числа заявок, обслуживаемое системой в единицу времени, к среднему числу поступающих за это время заявок). В табл. 2 данная величина для удобства представлена в виде процентов. Как и в табл. 1, первая строка в табл. 2 описывает систему, работающую с применением стандартных методов, а в следующих строчках система применяет иерархический метод. Столбцы соответствуют интенсивности потока заявок, получаемой по формуле (1). Результаты демонстрируют, что внедрение в систему иерархического метода при любой интенсивности потока заявок даёт прирост в производительности (увеличивается относительная пропускная способность СМО). Наибольший прирост производительности наблюдается при λ, равной 10/60, при переходе от стандартного метода к иерархическому с ROI, равной 1/2 площади оригинального изображения (на 38,4 %). Однако относительная пропускная способность, равная 75,5 %, означает, что примерно в четверти случаев система распознавания будет испытывать перегрузку. В эти моменты времени время распознавания будет больше, чем обычно, что негативно отразится на всёх остальных параметрах. Рис. 2. График относительной пропускной способности системы распознавания объекта Для эффективного применения иерархического метода распознавания относительная пропускная способность должна быть равна 100 % [14]. Поэтому, исходя из полученных результатов, необходимо обратить внимание на использование ROI = 1/3 и ROI = 1/4 при λ = 1/60. Такая система распознавания будет распознавать все поступающие изображения своевременно, а время распознавания можно будет описать достаточно близко линейной функцией (в случае если алгоритм распознавания перебирает «скользящим окном» все пиксели): (4) где h - высота изображения в пикселях, w - ширина изображения в пикселях, t - время, затрачиваемое «скользящим окном» на операцию распознавания для каждого пикселя, - коэффициент сжатия изображения для грубого поиска (дубликат изображения в низком качестве), - коэффициент сжатия изображения для точного поиска (ROI). Так, согласно формуле (4), время распознавания для моделируемой системы (при ROI = 1/4 и λ = 1/60) будет определяется как (5) А при стандартном методе, согласно формуле (1), время будет равно «1500t». Это на 55 % медленнее, и, кроме того, время распознавания такой системы будет часто ещё больше увеличиваться из-за перегрузки вычислительной платформы (относительная пропускная способность 85,7 %). Выводы. Иерархический метод распознавания изображения позволяет уменьшить число требуемых вычислительных ресурсов для этого процесса. Это достигается за счёт уменьшения разрешения исходного изображения, выделяя только важную информацию и отбрасывая ненужную. Разработанная модель может быть применена для предварительной оценки эффективности работы иерархической системы распознавания и расчёта характеристик, необходимых для оптимальной работы алгоритма. Однако стоит помнить, что платформе необходимо иметь запас вычислительных ресурсов, чтобы избежать перегрузки. Только в таком случае можно достаточно точно прогнозировать время выполнения операций, используя предложенные расчёты.

Об авторах

А. И Тур

Пермский национальный исследовательский политехнический университет

А. Н Кокоулин

Пермский национальный исследовательский политехнический университет

К. Р Ахметзянов

Пермский национальный исследовательский политехнический университет

А. А Южаков

Пермский национальный исследовательский политехнический университет

А. В Дзыгарь

ООО «Фейспасс»

Список литературы

  1. Иванько М.А., Клепикова А.В. Системы искусственного зрения // Вестник МГУП им. Ивана Фёдорова. - 2015. - № 5.
  2. Слива М.В. Использование миникомпьютера Raspberry PI для преподавания основ робототехники // Культура, наука, образование: проблемы и перспективы: материалы III Всерос. науч.-практ. конф. / Нижневартов. гос. ун-т. - Нижневартовск, 2014. - С. 326-328.
  3. Кокоулин А. Методы распределенной обработки и хранения больших изображений // IEEE EuroCon 2013. - Ст. № 6625191. - С. 1606-1610. doi: 10.1109/EUROCON.2013.6625191
  4. Тур А.И. Использование технологии burst buffer для обработки больших данных // Перспективные технологии в средствах передачи информации: материалы XII Междунар. науч.-техн. конф. ПТСПИ-2017 (г. Суздаль, 5-7 июля 2017 г.). Т. 1 / Рос. науч.-техн. общ-во радиотехники, электроники и связи им. А.С. Попова [и др.]. - Владимир: Изд-во ВлГУ им. А.Г. и Н.Г. Столетовых, 2017.
  5. Южаков А.А., Кокоулин А.Н., Тур А.И. Иерархическая архитектура сверточной нейронной сети в распределенной системе распознавания лиц // Нейрокомпьютеры: разработка, применение. - 2019. - Т. 21, № 3. - С. 28-34. doi: 10.18127/j19998554-201903-04
  6. Supriya Suresh & Subaji Mohan. ROI-based feature learning for efficient true positive prediction using convolutional neural network for lung cancer diagnosis // Neural Computing and Applications. - 2020.
  7. Zuech Richard, Taghi M. Khoshgoftaar, Randall Wald. Intrusion detection and Big Heterogeneous Data: a Survey // Journal of Big Data. - 2015.
  8. Тур А.И., Кокоулин А.Н., Дзыгарь А.В. Иерархическая система поиска и распознавания штрихкода на повреждённой таре в автомате раздельного сбора отходов // Вестник Пермского национального исследовательского политехнического университета. Электротехника, информационные технологии, системы управления. - 2019. - № 29. - С. 44-57.
  9. Архитектура иерархической сверточной нейронной сети в распределенной системе распознавания лиц / А.Н. Кокоулин, А.И. Тур, А.А. Южаков, А.И. Князев // Материалы конф. молод. ученых-исследователей в области электротехники и электроники (ElConRus), IEEE 2019 (Санкт-Петербург, Москва, 29-30 января 2019 г.), секция IEEE - Российская Северо-Западная секция. [Б. М.] : [б. и.]. - СПб., 2019. - URL: https://ieeexplore.ieee.org/document/8656727
  10. Проект по сбору контейнеров для напитков / А.Н. Кокоулин, А.А. Южаков, А.И. Тур, С.В. Полыгалов, А.С. Троегубов, В.Н. Коротаев // Материалы конф. IOP. Сер. Земля и наука об окружающей среде. - 2019. - Т. 317. - Артикул 012006. - URL: https://iopscience.iop.org/ article/10.1088/1755-1315/317/1/012006
  11. Clay D. Spence, John C. Pearson, Jim Bergen. Coarse-to-Fine Image Search Using Neural Networks. - URL: https://papers.nips.cc/paper/ 982-coarse-to-fine-image-search-using-neural-networks.pdf
  12. Тур А.И., Кокоулин А.Н., Князев А.И. Применение иерархического подхода для распознавания объектов в автоматах по приему использованной тары // Материалы XIII Всерос. совещания по проблемам управления (ВСПУ-2019) (г. Москва, 17-20 июня 2019) / Ин-т проблем управления им. В.А. Трапезникова РАН. - М.: Изд-во ИПУ им. В.А. Трапезникова РАН, 2019. - 5 с.
  13. Kokoulin A. Development of hierarchical distributed GIS system // International Multidisciplinary Scientific GeoConference Surveying Geology and Mining Ecology Management, SGEM. - 2019. - № 19(2.1). - P. 833-839.
  14. Cheng Lei, Yee-Hong Yang. Optical Flow Estimation on Coarse-to-Fine Region-Trees using Discrete Optimization. - URL: https://cs.brown.edu/courses/cs296-4/Papers/2010/iccv2009_201.pdf
  15. Южаков А.А., Тур А.И. Выбор алгоритмов для реализации системы машинного зрения // Материалы XIV Всерос. школы-конф. молодых ученых. - 2017. - C. 377-384.
  16. Кулаков И.Ю., Вологин Д.А., Пикалов В.В. Многосеточный алгоритм в задаче веерной ROI-томографии // Теория и численные методы решения обратных и некорректных задач: тез. докл. V Междунар. молодеж. науч. школа-конф. (Новосибирск, Академгородок, 8-13 октября 2013 г.). - Новосибирск, 2013.
  17. Kokoulin A., May I., Kokoulina A. Image Processing Methods in Analysis of Component Composition and Distribution of Dust Emissions for Environmental Quality Management // Proceedings of 10th International Conference on Large-Scale Scientific Computations (LSSC) / Bulgarian Acad Sci, Sozopol, Bulgaria. - 2015. - June 08-12. - Vol. 9374. - P. 352-359.
  18. Крылов В.В., Самохвалова С.С. Теория телетрафика и её приложения. - СПб.: БХВ-Петербург, 2005. - 288 с.
  19. Вентцель Е.С. Исследование операций. - М.: Советское радио, 1972. - 552 с.
  20. Вентцель Е.С., Овчаров Л.А. Прикладные задачи теории вероятностей. - М.: Радио и связь, 1983. - 416 с.

Статистика

Просмотры

Аннотация - 45

PDF (Russian) - 15

Ссылки

  • Ссылки не определены.

© Вестник Пермского национального исследовательского политехнического университета. Электротехника, информационные технологии, системы управления, 2022

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах