DEVELOPMENT AND RESEARCH OF A MODEL OF HIERARCHICAL OBJECT RECOGNITION SYSTEM FORASSESSING THE INFLUENCE OF IMAGE PARAMETERS ON SPEED OF RECOGNITION

Abstract


The article discusses the advantages of a hierarchical approach over standard recognition approaches: a decrease in the number of recognized pixels (by discarding image areas that do not carry useful information for the recognition process), and a decrease in the total image processing time. The essence of the hierarchical recognition method is that it adds preprocessing to the image, highlighting regions of interest in the image (ROI), and recognizes only them. To assess the influence of the hierarchical approach, it was decided to create an analytical model, the input parameters of which are the intensity of the appearance of objects in the recognition zone, the size of the object's image and the maximum possible speed of image processing by the system (under heavy load, the system performance decreases). The model calculates the intensity of servicing requests based on the permissible size of the region of interest (ROI), takes into account the possibility of parallelizing the object recognition process at the expense of the released computing resources. The results obtained during the simulation help to analyze the prospects for applying the hierarchical recognition method for each specific system and to perform a preliminary calculation of the average processing time for one request. Purpose: creating an analytical model for calculating parameters of a hierarchical object recognition system. For this, methods from the theory of mass service systems, the theory of teletrafics and statistical analysis were applied. Results: calculation of optimal characteristics of the system (recommended image size for coarse and accurate search) in conditions of a given image size and the time required by the algorithm for processing one pixel. A version of approximate calculation of object recognition time on an image by a hierarchical recognition system is proposed.

Full Text

Введение. Системы машинного зрения, занимающиеся распознаванием объектов, уже достаточно прочно вошли в нашу жизнь. Разрабатываются сотни платформ и алгоритмов, выполняющих эти функции. Каждая имеет свои плюсы и минусы, но почти все сходятся на том, что входное изображение анализируется целиком, каким бы большим оно не являлось [1]. И это могут себе позволить стационарные мощные платформы, обладающие достаточным количеством вычислительных ресурсов для подобных операций. Однако очень часто возникает необходимость разработать такую систему распознавания, которая работала бы на портативной платформе или платформе с малой вычислительной мощностью [2]. Как правило, при решении этой задачи просто наращивают вычислительные возможности устройств. Так, например, известны решения от компаний NVIDIA, Intel, Google для распознавания образов, которые либо, сохраняя миниатюрность, стараются оптимизировать использование процессора и памяти, увеличить рабочие частоты и объём памяти, либо вовсе отказываются от процессов распознавания на платформе, передавая данные для анализа стационарной мощной платформе. Эти удорожает решения и усложняет обслуживание таких систем. Но есть альтернативный вариант решения - изменение метода извлечения полезной информации из изображения. Чаще всего объект на изображении занимает не всю площадь, оставляя участки не несущие полезной информации для процесса распознавания. Если отбросить эти участки, то размер изображения сократится, что положительно отразится на времени распознавания изображения. Это называется методом иерархического поиска информации. 1. Иерархический метод распознавания объекта. Отличием иерархического метода распознавания является то, что изображение, получаемое от камеры, проходит предобработку, а лишь потом выполняется распознавание: - исходное изображение делится на фрагменты и сохраняется в специальной файловой системе; - создаются дубликаты исходного изображения в более низком качестве (меньшее разрешение) [3, 4]. Первый этап распознавания производится на дубликате оригинального изображения с самым низким разрешением. Это снижает время поиска и количество ресурсов, затрачиваемых на обработку изображения (по сравнению с обработкой оригинального изображения). На изображении отмечаются ROI (англ. «Region Of Interest» - область интереса), которые удовлетворяют критериям грубого предварительного поиска. Такой поиск отличается от обычного тем, что порог отсеивания ложных срабатываний значительно ниже. Благодаря этому на изображении будут обнаружены все объекты, которые хотя бы отдалённо напоминают объект поиска. Алгоритм, используя угловые координаты рамки ROI, производит расчёт новой области поиска. Фрагменты исходного изображения, соответствующие этой области, загружаются из памяти. На втором этапе происходит обработка загруженных фрагментов исходного изображения в стандартном режиме распознавания (с высоким порогом отсеивания ложных срабатываний) - точный поиск. В более продвинутых системах таких итераций грубого поиска может быть больше. Это позволяет снизить количество ложных вызовов после грубого поиска, так как каждый фрагмент изображения будет распознаваться более одного раза [5-10]. Данный подход имеет преимущество над стандартными подходами по времени распознавания исходного изображения. Как правило, для анализа изображения (стандартными подходами) требуется обойти «скользящим окном» все пиксели изображения. Время распознавания (T) можно грубо рассчитать как произведение трёх чисел (в случае, если алгоритм распознавания перебирает «скользящим окном» все пиксели): - высота изображения в пикселях (h); - ширина изображения в пикселях (w); - время, затрачиваемое «скользящим окном» на операцию распознавания для каждого пикселя (t) - при анализе многоканального изображения время получается из суммы времени, затрачиваемого для каждого из каналов. . (1) Примером алгоритма, использующего «скользящее окно», является свёртка (рис. 1), применяемая в нейронных сетях. Рис. 1. Свёртка изображения Иерархический метод значительно уменьшает первые два числа (высота изображения в пикселях, ширина изображения в пикселях), что снижает общее время обработки. Однако следует помнить, что каждая итерация этапа грубого поиска требует некоторого времени, в которое входит не только «время на распознавание пикселя», но и время, затрачиваемое на файловые операции с изображением (создание дубликатов изображения, разбиение изображения на фрагменты, определение новой области ROI) [11-17]. Однако время распознавания не всегда линейно зависит от 3 названных выше величин. Из фундаментальных законов производительности вычислительных систем известна зависимость среднего времени обработки заявки от состояния загруженности системы в конкретный момент времени (коэффициент использования). Когда коэффициент использования достигает 100 %, т.е. сервер оказывается перегруженным, время обработки стремится к бесконечности из-за ограниченности вычислительных ресурсов [18]. Это означает, что необходимо обеспечить сервер таким объёмом вычислительной мощности, чтобы справляться без перегрузки с требуемыми функциями. В этой ситуации, иерархический метод тоже имеет преимущество перед обычными методами, так как все вычисления производятся над меньшим числом пикселей. Таким образом, иерархический метод распознавания имеет ряд преимуществ перед стандартными методами, но требует предварительного расчёта параметров, при которых он будет эффективен. 2. Модель системы распознавания объекта. Для определения условий, в которых применение иерархического метода будет эффективным, можно использовать теорию СМО. Она позволяет достаточно точно предсказать параметры системы. Промоделировать такой процесс обработки информации можно представив его как n-канальную СМО с отказами. Отказы в данном случае будут представлять собой объекты, на которые система не успела среагировать из-за того, что вычислительные возможности были заняты распознаванием другого объекта [19, 20]. Для расчёта аналитической модели нам необходимо знать показатели λ и µ. Поэтому будем считать, что запросы к системе на распознавание объекта появляются с интенсивностью Х штук в минуту (60 с). Каждый запрос - изображение, извлекаемое системой из памяти, первоначально полученное от камеры снимающей объекты. Отсюда следует, что (2) Интенсивность обслуживания в случае одноканальной СМО с отказами можно рассчитать, зная объём информации (V) и скорость её обработки (vобр). Допустим, что каждое изображение было первоначально получено от камеры с разрешением 1,2 Мп и состоит из 1 200 000 пикселей, которые необходимо обойти скользящим окном алгоритма распознавания. Ресурсы системы позволяют обрабатывать скользящим окном 120 000 пикселей в секунду (3). Время, затрачиваемое на загрузку изображения из памяти, в данной модели не учитывается, так как оно значительно меньше времени, затрачиваемого на само распознавание: (3) Данные параметры описывают ситуацию, когда вычислительная платформа целиком принимает изображение от камеры и распознаёт его. В случае иерархического подхода с одной итерацией интенсивность обслуживания будет представлена двумя числами. Одна итерация означает, что система предварительно получает и анализирует изображение, сжатое в несколько раз. После обнаружения на сжатом изображении чего-то, напоминающего объект, на изображении выделяется область ROI. Данная область получается из полного изображения, но меньше по площади. Первая строчка (табл. 1) описывает систему, работающую с применением стандартных методов. В следующих строчках система применяет иерархический метод. Допустим, что система изначально анализирует изображение, сжатое в 5 раз, т.е. площадь изображения составляет 300 пикселей. Для усреднения полученных результатов предположим, что область ROI всегда в n раз меньше оригинального изображения. Это позволяет системе обрабатывать n изображений одновременно, распараллеливая процесс распознавания. Результаты моделирования случаев, когда область ROI меньше исходного изображения в 2, 3 и 4 раза, представлены в табл. 1. Таблица 1 Таблица расчёта интенсивности обслуживания Площадь ROI Площадь изображения в пикселях Интенсивность обслуживания (1/с) Без иерарх. м. 1 200 000 0,1 840 000 (240 000+600 000) 0,14 640 000 (240 000+400 000) 0,19 540 000 (240 000+300 000) 0,22 Уменьшение площади ROI возможно только до определённого числа. Это обусловлено тем, что при уменьшении количества пикселей, отображающих объект, повышается вероятность возникновения ошибок распознавания (как первого, так и второго рода). Так, например, в системах распознавания лиц не рекомендуется уменьшать размер изображения, описывающего объект, ниже 64 пикселей. Изображение меньшего разрешения будет значительно чаще выдавать некорректный результат. Стоит также отметить, что при использовании иерархического метода вычислительные ресурсы, требуемые для распознавания объекта, сокращаются. Это позволяет либо разделять заявку между процессами распознавания (каналы с взаимопомощью), либо одновременно обрабатывать несколько заявок распараллеливания процесса распознавания. В данной модели будет учтён второй вариант. На основании вышеперечисленных условий были произведены и расчёты, а полученные результаты занесены в табл. 2 и представлены на рис. 2. Таблица 2 Результаты расчёта относительной пропускной способности системы распознавания объекта Параметры системы Интенсивность потока заявок λ (1/c) Без иерарх. м. 85 54 37 28 23 19 16 14 13 11 10 9 9 ROI = 99 90 75 64 55 47 42 37 34 31 28 26 24 ROI = 100 99 95 89 82 75 69 64 59 54 51 47 44 ROI = 100 99 99 97 95 91 87 83 79 75 71 67 64 Целевой функцией была выбрана относительная пропускная способность (Q) - средняя доля поступивших заявок, обслуживаемых системой в единицу времени (т.е. отношение среднего числа заявок, обслуживаемое системой в единицу времени, к среднему числу поступающих за это время заявок). В табл. 2 данная величина для удобства представлена в виде процентов. Как и в табл. 1, первая строка в табл. 2 описывает систему, работающую с применением стандартных методов, а в следующих строчках система применяет иерархический метод. Столбцы соответствуют интенсивности потока заявок, получаемой по формуле (1). Результаты демонстрируют, что внедрение в систему иерархического метода при любой интенсивности потока заявок даёт прирост в производительности (увеличивается относительная пропускная способность СМО). Наибольший прирост производительности наблюдается при λ, равной 10/60, при переходе от стандартного метода к иерархическому с ROI, равной 1/2 площади оригинального изображения (на 38,4 %). Однако относительная пропускная способность, равная 75,5 %, означает, что примерно в четверти случаев система распознавания будет испытывать перегрузку. В эти моменты времени время распознавания будет больше, чем обычно, что негативно отразится на всёх остальных параметрах. Рис. 2. График относительной пропускной способности системы распознавания объекта Для эффективного применения иерархического метода распознавания относительная пропускная способность должна быть равна 100 % [14]. Поэтому, исходя из полученных результатов, необходимо обратить внимание на использование ROI = 1/3 и ROI = 1/4 при λ = 1/60. Такая система распознавания будет распознавать все поступающие изображения своевременно, а время распознавания можно будет описать достаточно близко линейной функцией (в случае если алгоритм распознавания перебирает «скользящим окном» все пиксели): (4) где h - высота изображения в пикселях, w - ширина изображения в пикселях, t - время, затрачиваемое «скользящим окном» на операцию распознавания для каждого пикселя, - коэффициент сжатия изображения для грубого поиска (дубликат изображения в низком качестве), - коэффициент сжатия изображения для точного поиска (ROI). Так, согласно формуле (4), время распознавания для моделируемой системы (при ROI = 1/4 и λ = 1/60) будет определяется как (5) А при стандартном методе, согласно формуле (1), время будет равно «1500t». Это на 55 % медленнее, и, кроме того, время распознавания такой системы будет часто ещё больше увеличиваться из-за перегрузки вычислительной платформы (относительная пропускная способность 85,7 %). Выводы. Иерархический метод распознавания изображения позволяет уменьшить число требуемых вычислительных ресурсов для этого процесса. Это достигается за счёт уменьшения разрешения исходного изображения, выделяя только важную информацию и отбрасывая ненужную. Разработанная модель может быть применена для предварительной оценки эффективности работы иерархической системы распознавания и расчёта характеристик, необходимых для оптимальной работы алгоритма. Однако стоит помнить, что платформе необходимо иметь запас вычислительных ресурсов, чтобы избежать перегрузки. Только в таком случае можно достаточно точно прогнозировать время выполнения операций, используя предложенные расчёты.

About the authors

A. I Tur

Perm National Research Polytechnic University

A. N Kokoulin

Perm National Research Polytechnic University

K. R Akhmetzyanov

Perm National Research Polytechnic University

A. A Yuzhakov

Perm National Research Polytechnic University

A. V Dzygar

OOO “FacePass”

References

  1. Иванько М.А., Клепикова А.В. Системы искусственного зрения // Вестник МГУП им. Ивана Фёдорова. - 2015. - № 5.
  2. Слива М.В. Использование миникомпьютера Raspberry PI для преподавания основ робототехники // Культура, наука, образование: проблемы и перспективы: материалы III Всерос. науч.-практ. конф. / Нижневартов. гос. ун-т. - Нижневартовск, 2014. - С. 326-328.
  3. Кокоулин А. Методы распределенной обработки и хранения больших изображений // IEEE EuroCon 2013. - Ст. № 6625191. - С. 1606-1610. doi: 10.1109/EUROCON.2013.6625191
  4. Тур А.И. Использование технологии burst buffer для обработки больших данных // Перспективные технологии в средствах передачи информации: материалы XII Междунар. науч.-техн. конф. ПТСПИ-2017 (г. Суздаль, 5-7 июля 2017 г.). Т. 1 / Рос. науч.-техн. общ-во радиотехники, электроники и связи им. А.С. Попова [и др.]. - Владимир: Изд-во ВлГУ им. А.Г. и Н.Г. Столетовых, 2017.
  5. Южаков А.А., Кокоулин А.Н., Тур А.И. Иерархическая архитектура сверточной нейронной сети в распределенной системе распознавания лиц // Нейрокомпьютеры: разработка, применение. - 2019. - Т. 21, № 3. - С. 28-34. doi: 10.18127/j19998554-201903-04
  6. Supriya Suresh & Subaji Mohan. ROI-based feature learning for efficient true positive prediction using convolutional neural network for lung cancer diagnosis // Neural Computing and Applications. - 2020.
  7. Zuech Richard, Taghi M. Khoshgoftaar, Randall Wald. Intrusion detection and Big Heterogeneous Data: a Survey // Journal of Big Data. - 2015.
  8. Тур А.И., Кокоулин А.Н., Дзыгарь А.В. Иерархическая система поиска и распознавания штрихкода на повреждённой таре в автомате раздельного сбора отходов // Вестник Пермского национального исследовательского политехнического университета. Электротехника, информационные технологии, системы управления. - 2019. - № 29. - С. 44-57.
  9. Архитектура иерархической сверточной нейронной сети в распределенной системе распознавания лиц / А.Н. Кокоулин, А.И. Тур, А.А. Южаков, А.И. Князев // Материалы конф. молод. ученых-исследователей в области электротехники и электроники (ElConRus), IEEE 2019 (Санкт-Петербург, Москва, 29-30 января 2019 г.), секция IEEE - Российская Северо-Западная секция. [Б. М.] : [б. и.]. - СПб., 2019. - URL: https://ieeexplore.ieee.org/document/8656727
  10. Проект по сбору контейнеров для напитков / А.Н. Кокоулин, А.А. Южаков, А.И. Тур, С.В. Полыгалов, А.С. Троегубов, В.Н. Коротаев // Материалы конф. IOP. Сер. Земля и наука об окружающей среде. - 2019. - Т. 317. - Артикул 012006. - URL: https://iopscience.iop.org/ article/10.1088/1755-1315/317/1/012006
  11. Clay D. Spence, John C. Pearson, Jim Bergen. Coarse-to-Fine Image Search Using Neural Networks. - URL: https://papers.nips.cc/paper/ 982-coarse-to-fine-image-search-using-neural-networks.pdf
  12. Тур А.И., Кокоулин А.Н., Князев А.И. Применение иерархического подхода для распознавания объектов в автоматах по приему использованной тары // Материалы XIII Всерос. совещания по проблемам управления (ВСПУ-2019) (г. Москва, 17-20 июня 2019) / Ин-т проблем управления им. В.А. Трапезникова РАН. - М.: Изд-во ИПУ им. В.А. Трапезникова РАН, 2019. - 5 с.
  13. Kokoulin A. Development of hierarchical distributed GIS system // International Multidisciplinary Scientific GeoConference Surveying Geology and Mining Ecology Management, SGEM. - 2019. - № 19(2.1). - P. 833-839.
  14. Cheng Lei, Yee-Hong Yang. Optical Flow Estimation on Coarse-to-Fine Region-Trees using Discrete Optimization. - URL: https://cs.brown.edu/courses/cs296-4/Papers/2010/iccv2009_201.pdf
  15. Южаков А.А., Тур А.И. Выбор алгоритмов для реализации системы машинного зрения // Материалы XIV Всерос. школы-конф. молодых ученых. - 2017. - C. 377-384.
  16. Кулаков И.Ю., Вологин Д.А., Пикалов В.В. Многосеточный алгоритм в задаче веерной ROI-томографии // Теория и численные методы решения обратных и некорректных задач: тез. докл. V Междунар. молодеж. науч. школа-конф. (Новосибирск, Академгородок, 8-13 октября 2013 г.). - Новосибирск, 2013.
  17. Kokoulin A., May I., Kokoulina A. Image Processing Methods in Analysis of Component Composition and Distribution of Dust Emissions for Environmental Quality Management // Proceedings of 10th International Conference on Large-Scale Scientific Computations (LSSC) / Bulgarian Acad Sci, Sozopol, Bulgaria. - 2015. - June 08-12. - Vol. 9374. - P. 352-359.
  18. Крылов В.В., Самохвалова С.С. Теория телетрафика и её приложения. - СПб.: БХВ-Петербург, 2005. - 288 с.
  19. Вентцель Е.С. Исследование операций. - М.: Советское радио, 1972. - 552 с.
  20. Вентцель Е.С., Овчаров Л.А. Прикладные задачи теории вероятностей. - М.: Радио и связь, 1983. - 416 с.

Statistics

Views

Abstract - 80

PDF (Russian) - 24

Refbacks

  • There are currently no refbacks.

Copyright (c) 2022 PNRPU Bulletin. Electrotechnics, Informational Technologies, Control Systems

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies