Exploring color dependency of convolutional neural networks for computer vision promlems

S. L. Gladkiy; Гладкий С. Л.; S. D. Khalyavin; Халявин С. Д.

doi:10.15593/2499-9873/2024.1.07

Исследование цветовой зависимости сверточных нейронных сетей в задачах компьютерного зрения

Авторы: Гладкий С.Л.¹, Халявин С.Д.²
Учреждения:
1. ООО «ВИПАКС+»
2. Московский государственный университет им. М.В. Ломоносова
Выпуск: № 1 (2024)
Страницы: 111-122
Раздел: Статьи
URL: https://ered.pstu.ru/index.php/amcs/article/view/4238
DOI: https://doi.org/10.15593/2499-9873/2024.1.07
Цитировать

Аннотация
Полный текст
Об авторах
Список литературы
Статистика

Аннотация

Рассматриваются проблемы зависимости сверточных нейронных сетей от цветовых параметров изображений. Выдвигаются гипотезы о том, что обучение нейронных сетей в задачах компьютерного зрения является зависимым от цветов объектов на изображениях обучающей выборки. Разработаны и проведены специальные эксперименты по обучению нейронных сетей на синтетических изображениях для подтверждения данных гипотез. Проведен анализ результатов экспериментов, который показывает наличие зависимости обучения сверточной сети от цветовых признаков объектов. Сформулированы методы преодоления некоторых выявленных проблем и задачи для дальнейших исследований.

Ключевые слова

сверточная нейронная сеть, глубокое обучение, компьютерное зрение, цветовая зависимость, распознавание изображений.

Полный текст

Введение Сверточные нейронные сети (СНС) являются основными моделями искусственного интеллекта, используемыми при решении задач компьютерного зрения и распознавания изображений. Именно с использованием СНС во многом связан успех и революция глубокого обучения [1; 2]. В настоящее время лучшие СНС способны превзойти человека по точности решения во многих задачах компьютерного зрения, таких как распознавание лиц и классификации изображений животных [3-6]. Первые настоящие успехи искусственного интеллекта в распознавании изображений были достигнуты благодаря появлению специальных архитектур СНС и методов инициализации весов и регуляризации. Дальнейшее развитие было связано в основном с разработкой новых продвинутых архитектур СНС для обучения все более и более глубоких моделей. Одним из движущих факторов также являлось постоянное увеличение размера наборов данных для обучения нейронных сетей [1; 2]. В настоящий момент можно считать, что проблема разработки архитектуры нейронных сетей для основных задач распознавания изображений решена. Разработано множество стандартных архитектур СНС, которые хорошо себя зарекомендовали при решении тех или иных задач, исследованы сравнительные преимущества и недостатки этих архитектур. Выбор архитектуры и настройка гиперпараметров модели (количество нейронов на разных слоях и др.) является скорее практической, нежели исследовательской задачей [4-6]. Проведено также множество исследований в направлении понимания внутренней работы СНС и интерпретации результатов. В частности, показано, что СНС обучаются выделять значимые признаки объектов на изображениях. и данные признаки могут быть использованы для решения задач распознавания других объектов методами переносимого обучения [5; 6]. Тем не менее многие аспекты работы нейронных сетей остаются в рамках их интерпретации как черного ящика. Изучение таких аспектов должно привести к созданию боле надежных и эффективных СНС. Одной из главных нерешенных проблем обучения нейронных сетей является проблема определения их обобщающей способности. Обычная практика обучения нейронных сетей сводится к тому, что полный набор изображений делится на две части - обучающий набор и валидационный. Обобщающая способность определяется по точности работы нейросети на валидационном наборе. Однако, поскольку обычно это просто часть данных одного набора, такая проверка не является полностью корректной, если исходный набор данных не является репрезентативным для решаемой задачи. Одной из проблем при составлении репрезентативных наборов данных в компьютерном зрении является проблема цветовых характеристик объектов. В исследовании анализируются вопросы зависимости обучения СНС от цветовых признаков объектов в задачах компьютерного зрения. Сформулированы проблемы использования цветных изображений для обучения СНС и гипотеза цветовой зависимости. Проведена серия экспериментов по подтверждению данной гипотезы и предложены варианты решения проблемы цветовой зависимости для различных задач компьютерного зрения. Теория Проблемы зависимости точности работы СНС от параметров изображения, таких как яркость, контрастность, цветовой баланс, качество, четкость и др., исследовались с момента первых успехов СНС в задачах компьютерного зрения. Из всех исследований следует вывод, что параметры изображений напрямую влияют на точность работы нейронных сетей [7]. При любом отрицательном изменении качества изображения точность СНС понижается. Более того, в [8] показано, что добавление к изображению гауссова шума, который не влияет на визуальное восприятие изображения человеком, может приводить к критическим ошибкам работы CНС в задачах классификации изображений. Влияние цветовых характеристик и их изменений на качество распознавания изображений исследовалось во многих работах [7; 9]. Показано, что с помощью изменения цветовых параметров изображений (color attack) можно значительно снизить точность распознавания СНС. В [10] исследуется цветовое представление в глубоких нейронных сетях. Показано наличие нейронов, реагирующих только на цвета в некотором узком диапазоне оттенков, а также исследовано распределение цветочувствительных нейронов по слоям в некоторых предобученных сетях стандартной архитектуры. Показано наличие нейронов, активирующихся только при наличии на изображении объектов определенного класса и цвета. Несмотря на наличие достаточного количества работ по теме зависимости СНС от различных параметров изображений, тема цветовой зависимости нейронных сетей остается нераскрытой. В настоящей работе основная часть исследований сфокусирована на зависимости СНС от цветовых характеристик объектов в обучающем наборе изображений. В задачах распознавания изображений с применением СНС в качестве входных данных в большинстве случаев используются цветные изображения. Все задачи распознавания можно разделить на две категории, в зависимости от необходимости учитывать цвет: категория A - цвет имеет значение для задачи распознавания; категория B - цвет не имеет значения. Примером задачи A является задача классификации цветков растений, где цвет, несомненно, является значимым признаком. Другим примером может служить задача распознавания болезней растений, когда изменение цвета является признаком наличия заболевания. К категории B относятся задачи, в которых значимыми признаками являются только геометрические характеристики (форма), например, распознавание лиц или марок автомобилей. Отметим, что в обеих категориях форма (геометрия) является значимым признаком для решения задачи. Для задач A можно выделить следующие проблемы: A1. Проблема мультипликативного количества признаков. Данная проблема основана на гипотезе о цветогеометрических признаках, которая состоит в том, что СНС обучаются не раздельным цветовым и геометрическим признакам, а совместным - цвето-геометрическим. Например, если в данных есть объекты трех разных классов и трех цветов, то нейронная сеть обучится девяти признакам, а не шести. То есть количество признаков мультипликативное число, а не аддитивное. A2. Проблема неполного набора данных возникает тогда, когда в обучающей выборке присутствуют объекты не всех цветов. При применении такой нейронной сети в реальных условиях, где встречаются данные объекты других цветов, точность распознавания может существенно снижаться [7; 9]. Для задач B можно выделить следующие проблемы: B1. Проблема потери значимой информации. Основным подходом при решении задач распознавания, когда цвет не является значимым признаком, является преобразование цветного изображение в градации серого (деколоризация). Такое преобразование невозможно без потери значимой информации о форме (потеря границ, градиентов и др.) [11; 12]. Точность обучения и работы СНС зависит от полноты информации в данных. При потере значимой информации точность может значительно снижаться. B2. Проблема зависимого обучения возникает в задачах B, когда для исключения проблемы потери информации СНС обучается на цветных изображениях. В этом случае нейронная сеть может обучиться так, что цвета будут для нее значимыми признаками некоторых объектов, хотя по сути таковыми не являются. Последняя проблема зависимого обучения основана на гипотезе цветовой зависимости, которая предполагает, что при наличии у объектов в обучающем наборе цветовых признаков, которые на самом деле не являются значимыми признаками для данной задачи распознавания изображений, СНС обучится считать данные признаки значимыми. Это приведет к снижению обобщающей способности обученной нейронной сети. Данные и методы Для исследования гипотезы цветовой зависимости проведены несколько экспериментов. Все эксперименты выполнены на наборе изображений для распознавания (классификации) машинописных цифр. В наборе 1000 изображений размером 28×28 пикселей для каждой цифры. Исходные изображения в наборе являются черно-белыми, примеры приведены на рис. 1. Для всех экспериментов будет использоваться простая СНС для классификации. Входом для сети является изображение размером 28×28 пикселей, выходом является вектор из десяти значений вероятности для каждого класса (цифры). Схема СНС представлена на рис. 2, всего нейронная сеть содержит 221 514 обучаемых параметров. Рис. 1. Исходные черно-белые изображения цифр Рис. 2. Схема нейронной сети Полученные результаты Эксперимент № 1. Исходные изображения преобразуются в цветные следующим образом: все изображения каждой цифры раскрашивается в один цвет; всего выбрано 5 различных цветов; первые две цифры (ноль и один) раскрашиваются в первый цвет, следующие две во второй и т.д. Обозначим цвета по порядку следующими буквами a, b, c, d, e. Тогда данную цветовою схему раскраски можно условно обозначить как a-a-b-b-c-c-d-d-e-e. Примеры цветных изображений для данной схемы приведены на рис. 3. Рис. 3. Примеры изображений по цветовой схеме a-a-b-b-c-c-d-d-e-e На данном наборе цветных изображений обучена СНС. При обучении набор изображений делится на обучающую и тестирующую выборку в соотношении 80 и 20 % соответственно. Формируется новый набор цветных изображений по такому же принципу, но цветовая схема подвергается циклическому сдвигу. В данном эксперименте использовались две цветовые схемы, полученные циклическим сдвигом на два и один элемент соответственно. Полученные цветовые схемы e-e-a-a-b-b-c-c-d-d и e-a-a-b-b-c-c-d-d-e изображены на рис. 4. а б Рис. 4. Примеры изображений по цветовой схеме: а - e-e-a-a-b-b-c-c-d-d; б - e-a-a-b-b-c-c-d-d-e Следует отметить, что первый набор изображений полностью отличается по цветам от исходного набора, на котором проводилось обучение нейронной сети. Во втором наборе половина цифр имеет тот же цвет, что и в исходном наборе. Используя новые наборы данных, вычисляется точность классификации цифр обученной нейронной сети. При вычислении точности используется полный набор данных (1000 изображений на каждый класс). Результаты эксперимента представлены в табл. 1. Таблица 1 Результаты эксперимента № 1 Цветовая схема (цветовая схема обучения) Точность обучения, % Точность тестирования, % a-a-b-b-c-c-d-d-e-e 100,0 99,9 e-e-a-a-b-b-c-c-d-d (a-a-b-b-c-c-d-d-e-e) - 8,6 e-a-a-b-b-c-c-d-d-e (a-a-b-b-c-c-d-d-e-e) - 50,0 Как видно из данных табл. 1, точность работы СНС на данных с другими цветовыми характеристиками резко снизилась, что свидетельствует о цветовой зависимости обученной нейронной сети. Эксперимент № 2. Исходные изображения преобразуются в цветные следующим образом: изображение каждой цифры раскрашивается в несколько цветов; всего выбрано 5 различных цветов; цвета для всех цифр одинаковые. Данную цветовою схему, когда каждая цифра раскрашивается во все цвета в одинаковых пропорциях, обозначим abcde, примеры изображений приведены на рис. 5. Рис. 5. Примеры изображений по цветовой схеме abcde На данном наборе цветных изображений обучена СНС. При обучении набор изображений делится на обучающую и тестирующую выборку в соотношении 80 и 20 % соответственно. Формируется новый набор цветных изображений по такому же принципу, но для цветовой схемы выбраны другие 5 цветов, обозначенных f, g, h, k, l (рис. 6). Рис. 6. Примеры изображений по цветовой схеме fghkl Для нового набора данных вычисляется точность классификации цифр обученной нейронной сети (используя полный набор - 1000 изображений на каждый класс). Результаты эксперимента представлены в табл. 2. Результаты эксперимента, представленные в табл. 2, позволяют сделать вывод, что при обучении СНС на данных по схеме abcde удалось исключить цветовую зависимость, поскольку точность тестирования на данных по схеме fghkl осталась на том же уровне. Таблица 2 Результаты эксперимента № 2 Цветовая схема (цветовая схема обучения) Точность обучения, % Точность тестирования, % abcde 100,0 99,2 fghkl (abcde) - 99,8 Эксперимент № 3. Цветные данные для обучения формируются аналогично эксперименту № 2, то есть каждая цифра раскрашивается во все цвета в одинаковых пропорциях. Сформированы четыре набора данных с разными цветами (рис. 7, а-г), на которых обучены четыре СНС. а б в г Рис. 7. Примеры изображений по цветовым схемам: а - ab; б - aa50; в - aa75; г - a Для каждой обученной нейронной сети вычислена точность на наборе цветных изображений, раскрашенных по схеме fghkl, то есть все цвета тестирующего набора отличны от цветов обучающего. Цвета различных обучающих наборов выбраны так, чтобы определить влияние различия цветов на цветовую зависимость нейронной сети. Результаты эксперимента представлены в табл. 3. Как видно из результатов эксперимента, представленных в табл. 3, точность работы сохранила единственная СНС, которая была обучена на данных с сохранилась только для данных по схеме ab (то есть с двумя максимально отличными цветами). Остальные нейронные сети показали снижение точности. Эксперимент № 4. Исходные изображения преобразуются в цветные следующим образом: изображения каждой цифры раскрашивается в 2 цвета; всего выбрано 6 различных цветов; каждые две цифры раскрашиваются наполовину в уникальный цвет, наполовину в общий для всех цифр цвет. Данную цветовую схему обозначим am-am-bm-bm-cm-cm-dm-dm-em-em, примеры изображений приведены на рис. 8. Таблица 3 Результаты эксперимента № 3 Цветовая схема (цветовая схема обучения) Точность обучения, % Точность тестирования, % ab 100,0 99,6 aa50 100,0 99,7 aa75 100,0 99,6 a 100,0 99,5 fghkl (ab) - 99,8 fghkl (aa50) - 88,8 fghkl (aa75) - 84,7 fghkl (a) - 83,6 Рис. 8. Примеры изображений по цветовой схеме am-am-bm-bm-cm-cm-dm-dm-em-em Таким образом, в наборе изображений этой цветовой схемы каждая цифра имеет общий со всеми остальными цифрами цвет, но не все цвета каждой цифры являются общими. На данном наборе изображений обучена и протестирована СНС. Данная СНС затем протестирована также на наборе изображений по цветовой схеме fghkl, в которой все цвета изображений отличны от всех цветов в обучающем наборе. Результаты эксперимента приведены в табл. 4. Таблица 4 Результаты эксперимента № 4 Цветовая схема (цветовая схема обучения) Точность обучения, % Точность тестирования, % am-am-bm-bm-cm-cm-dm-dm-em-em 100,0 99,8 fghkl (am-am-bm-bm-cm-cm-dm-dm-em-em) - 97,5 Данные таблицы 4 показывают снижение точности работы СНС на наборе данных с другой цветовой схемой, что подтверждает наличие цветовой зависимости данной нейронной сети. Обсуждение Эксперимент № 1 демонстрирует явную зависимость обучения нейронной сети от цветовых характеристик объектов в обучающей выборке. Когда в выборке присутствует явная корреляция между цветами объектов и их классом, нейросеть обучается по пути наименьшего сопротивления: поскольку различить объекты по цвету является простейшим способом, нейросеть обучается считать цвет значимым признаком. При тестировании такой нейронной сети на наборе изображений, в котором все объекты отличаются по цвету от обучающего набора, мы получаем точность классификации 8,6 % (то есть близкой к случайному выбору - 10 %). Если в тестирующем наборе половина объектов раскрашена в те же цвета, а половина - в отличные от обучающего набора, то точность классификации соответственно становится равной 50 %. Эксперимент № 2 показывает, что правильный обучающий набор данных позволяет решить проблему цветовой зависимости. Когда паттерн цветовой схемы содержит достаточно информации для логического вывода о независимости класса от цвета, нейронная сеть обучается исключать цвет из значимых признаков и ищет другой путь решения задачи. В данном эксперименте все объекты имеют одинаковые цвета в равных пропорциях, поэтому нейронная сеть просто не имеет возможности различать объекты по цвету. Таким образом, цвет полностью исключен из значимых признаков, и точность тестирования на совершенно отличных цветах остается близкой к 100 %. Отметим, что в реальных задачах компьютерного зрения создать такой идеальный набор данных практически невозможно. Эксперимент № 3 разработан для выявления влияния различия цветов в обучающей выборке на степень цветовой зависимости. Первый тест эксперимента показывает, что для исключения зависимости достаточно минимум двух различных цветов - в данном случае это красный и зеленый (схема ab). При тестировании данной СНС на абсолютно отличных цветах (fghkl) точность классификации остается близкой к 100 %. Однако при использовании для обучающего набора двух более близких цветов (оттенки красного) цветовая зависимость остается. В эксперименте использованы цветовые схемы с разными степенями отличия цветов. Последний тест с одним цветом (схема «a») можно считать предельным случаем, когда отличие двух цветов стремится к нулю. Эксперимент показывает, что при уменьшении различия цветов от условных 100 % до 0 % точность СНС на наборе данных с другими цветами (fghkl) падает c 99,8 до 83,6 %. Эксперимент № 4 показывает, что для исключения цветовой зависимости недостаточно, чтобы разные классы просто имели одинаковые цветовые признаки. Наличие только одного общего цвета у всех цифр в обучающей выборке не дает возможности исключить цвет из значимых признаков при наличии также других цветов, отличных для разных классов. Цветовая зависимость остается на достаточно высоком уровне, поскольку точность тестирования на данных fghkl снижается c 99,8 до 97,5 % (погрешность возросла в 12,5 раза). Заключение Итак, в работе представлена гипотеза о цветовой зависимости СНС. Проведены эксперименты по обучению СНС на синтетических изображениях. Результаты экспериментов демонстрируют явную зависимость обучения нейронных сетей от цветовых характеристик объектов на изображениях в обучающей выборке. Из анализа результатов следует, что при неправильном составлении тренировочного набора цветных изображений СНС может не-верно интерпретировать цветовые признаки объектов, что приведет к плохой обобщаемости - малой точности распознавания на других изображениях, цветовые признаки объектов на которых отличны от обучающей выборки. Теоретически при правильном создании набора данных цветовая зависимость обучения нейронной сети может быть полностью исключена. Однако в реальных задачах компьютерного зрения создать такой набор данных практически невозможно, а, как показывают эксперименты, при любом отклонении от идеального набора данных цветовая зависимость сохраняется, причем степень этой зависимости вычислить сложно. Для задач компьютерного зрения, в которых цвет объектов не является значимым признаком (задачи B), основной проблемой является проблема потери значимой информации (B1), которая обусловлена преобразованием цветных изображений в градации серого. Решение данной проблемы снимет необходимость применения цветных изображений в данных задачах, то есть проблема зависимого обучения потеряет актуальность. Существуют специальные алгоритмы деколоризации, минимизирующие функцию потерь информации при преобразовании цветного изображения в градации серого [11; 12]. Одним из способов решения проблемы потери значимой информации может быть разработка алгоритма деколоризации на основе максимизации разности яркости изображения для перцептивно-противоположных цветов [13]. Следует отметить, что данные алгоритмы преобразования не могут решить проблему полностью, поскольку преобразование цветного изображения в градации серого без потери информации невозможно. Вторым способом решения проблемы B1 является разработка алгоритма преобразования изображения в такое представление, которое содержит полную информацию о геометрии (форме), но информация о цветах в нем полностью исключена. Данное представление и алгоритм деколоризации на основе перцептивно-противоположных цветов являются темой дальнейших разработок. Проблема неполного набора данных (A2) является скорее практической проблемой, и ее решение может быть связано с увеличением тренировочного набора или специальной аугментацией с изменением цветовых оттенков. Гипотеза мультипликативного количества признаков в настоящей работе не исследуется, и проблема A1 также является темой дальнейших исследований.

Об авторах

С. Л. Гладкий

ООО «ВИПАКС+»

С. Д. Халявин

Московский государственный университет им. М.В. Ломоносова

Список литературы

Гудфеллоу, Я. Глубокое обучение / Я. Гудфеллоу, И. Бенджио, А. Курвилль; пер. с англ. А.А. Слинкина. - 2-е изд., испр. - М.: ДМК Пресс, 2018. - 652 с.
Николенко, С. Глубокое обучение. Погружение в мир нейронных сетей / С. Николенко, А. Кадурин, Е. Архангельская. - СПб.: Питер, 2018. - 480 с.
Chollet, F. Deep Learning with Python / F. Chollet. - NY.: Manning Publications Co., 2018. - 386 p.
Rosebrock, A. Deep Learning for Computer Vision with Python. Starter Bundle / A. Rosebrock. - pyimagesearch.com, 2017. - 332 p.
Rosebrock, A. Deep Learning for Computer Vision with Python. Practitioner Bundle / A. Rosebrock. - pyimagesearch.com, 2017. - 210 p.
Rosebrock, A. Deep Learning for Computer Vision with Python. ImageNet Bundle / A. Rosebrock. - pyimagesearch.com, 2017. - 323 p.
De, K. Impact of Color on Robustness of Deep Neural Networks / K. De, M. Pedersen // IEEE International Conference on Computer Vision Workshops. IEEE, 2021. - P. 21-30. doi: 10.1109/ICCVW54120.2021.00009
Intriguing properties of neural networks [Электронный ресурс] / C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, R. Fergus. - 2014. - URL: https://arxiv.org/pdf/1312.6199.pdf (дата обращения: 20.02.2024).
Kantipudi, J. Color Channel Perturbation Attacks for Fooling Convolutional Neural Networks and A Defense Against Such Attacks [Электронный ресурс] /j. Kantipudi, S.R. Dubey, S. Chakraborty // IEEE Transactions on artificial intelligence. IEEE, 2020. - P. 181-191. - URL: https://arxiv.org/pdf/2012.14456.pdf (дата обращения: 20.02.2024).
Engilberge, M. Color representation in deep neural neworks / M. Engilberge, E. Collins, S. Susstrunk // IEEE Intl. Conf. on Image Processing. IEEE, 2017. - P. 2786-2790. doi: 10.1109/ICIP.2017.8296790
Saravanan, C. Color Image to Grayscale Image Conversion / C. Saravanan // Second International Conference on Computer Engineering and Applications. IEEE, 2010. - P. 196-199. doi: 10.1109/ICCEA.2010.192
Bolun, C. Perception preserving decolorization / C. Bolun, X. Xiangmin, X. Xiaofen // IEEE International Conference on Image Processing. IEEE, 2018. - P. 2810-2814. doi: 10.1109/ICIP.2018.8451303
Чангизи, М. Революция в зрении. Что, как и почему мы видим на самом деле / М. Чангизи. - М.: Издательство АСТ, 2015. - 302 с.

Статистика

Просмотры

Аннотация - 157

PDF (Russian) - 79

Ссылки

Ссылки не определены.

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Прикладная математика и вопросы управления