Scientific journal
Scientific Review. Technical science
ISSN 2500-0799
ПИ №ФС77-57440

THE EDGE BLOCK MODEL TO RECOGNIZE OBJECTS

Titova A.A. 1 Kozina A.V. 1 Belov Yu.S. 1
1 Bauman Moscow state technical University
Using the boundary block model for object recognition is an effective new approach to increasing the computational efficiency of object detection. This article describes a method for fitting the bounding box of an object and calculating the bounding box edges in order to find and select an object. Edges provide a sparse but informative representation of the image, not highlighting the object itself, but enclosing it in a rectangular area. The main observation is that the number of paths that are entirely contained in the bounding box indicates the likelihood that the box contains an object. Using efficient data structures, millions of candidate blocks can be evaluated in fractions of a second, returning a ranked set of several thousand highest-scored proposals. The purpose of this article is to describe the capabilities of the boundary block model and give a more in-depth knowledge of the process of recognizing and searching for objects in the image, the features of the algorithm of this model. This paper describes the differences between the classical models of searching for an object in the image, as well as shows the features of the boundary block method, its strengths and weaknesses.
object recognition
computer vision
deep learning
convolutional neural networks

Цель обнаружения объекта – определить, существует ли объект на изображении, и если да, то в каком месте изображения он встречается. Доминирующим подходом к этой проблеме в последнее десятилетие была парадигма скользящих окон, в которой классификация объектов выполняется в каждом месте и в любом масштабе изображения [1]. Недавно была предложена альтернативная структура для обнаружения объектов. Вместо поиска объекта в каждом местоположении и масштабе изображения сначала генерируется набор предложений ограничивающей рамки объекта с целью сокращения набора позиций, которые необходимо дополнительно проанализировать [2]. Замечательное открытие, сделанное вышеперечисленными подходами, состоит в том, что предложения объектов могут быть точно созданы способом, который не зависит от типа обнаруживаемого объекта [3].

Высокая отзывчивость и эффективность – важнейшие свойства генератора предложений объекта [4]. Если предложение не генерируется в непосредственной близости от объекта, этот объект не может быть обнаружен. Эффективный генератор способен обеспечить высокую степень отзыва с использованием относительно небольшого количества ограничивающих рамок кандидатов, обычно от сотен до нескольких тысяч на изображение.

Цель исследования: описать модель пограничных блоков, используемый алгоритм для процесса поиска объекта на изображении. Описать различия между классическими моделями поиска объекта на изображении, а также показать особенности метода пограничных блоков, его сильные и слабые стороны.

Разбор модели пограничных блоков. Предложения по объектам ранжируются на основе единой оценки, рассчитанной на основе контуров, полностью заключенных в ограничивающую рамку кандидата [5]. Все начинается с описания структуры данных, основанной на группах ребер, которая позволяет эффективно отделить контуры, полностью заключенные в рамку, от контуров, которые выходят за ее пределы. Затем определяется функция оценки на основе ребер. Наконец, детализируется подход к поиску предложений по объектам с самым высоким рейтингом, в котором используется структура скользящего окна, оцениваемая по положению, масштабу и соотношению сторон, с последующим уточнением с использованием простого грубого поиска [6].

Учитывая изображение, сначала вычисляется краевой отклик для каждого пикселя. Отклики краев обнаруживаются с помощью детектора структурированных краев, который показал хорошую производительность при прогнозировании границ объекта и в то же время очень эффективен [7]. Используется одномасштабный вариант с улучшением резкости, чтобы сократить время выполнения. Учитывая плотные отклики краев, выполняется не максимальное подавление (NMS), ортогональное отклику края на пики края, рис. 1. Результатом является карта разреженных краев, где каждый пиксель p имеет величину края mp и ориентацию θp. Края определяются как пиксели с mp > 0.1. Контур определяется как набор ребер, образующих когерентную границу, кривую или линию.

titov1.tif

Рис. 1. Примеры, показывающие (сверху вниз) первоначальное изображение, структурированные части, сгруппированные части, правильные окно ограничения и маркировка краев и неправильные

Пограничные группы и индекс соответствия. Как показано на рис. 1, цель – идентифицировать контуры, которые перекрывают границу ограничивающего прямоугольника и поэтому вряд ли принадлежат объекту, содержащемуся в ограничивающем прямоугольнике. Для данного блока b мы идентифицируем эти ребра, вычисляя для каждого TIT01.wmf с mp > 0.1 его максимальное число с ребром на границе блока. Интуитивно понятно, что ребра, соединенные прямыми контурами, должны иметь большее значение, тогда как те, которые не соединены или не соединены контуром с высокой кривизной, должны иметь меньшее значение. Для вычислительной эффективности было обнаружено, что выгодно группировать ребра, которые имеют большее значение, и вычислять только единицы между группами ребер. Далее формируются группы ребер, используя простой жадный алгоритм, который объединяет 8-соединенные ребра до суммы их ориентации, где разница превышает пороговое значение (π/2). Небольшие группы объединяются с соседними группами. Иллюстрация групп кромок показана на рис. 1 в строке 3.

Учитывая набор групп ребер TIT02.wmf, вычисляется число между каждой парой соседних групп. Для пары групп si и sj индекс соответствия вычисляется на основе их средних положений xi и xj и средних ориентаций i и j. Интуитивно понятно, что группы ребер имеют большее число, если угол между средними значениями групп аналогичен ориентации групп. В частности, вычисляется индекс соответствия TIT03.wmf, используя

TIT04.wmf, (1)

где θij – угол между xi и xj. Значение γ может использоваться для настройки чувствительности индекса соответствия к изменению ориентации, на практике γ = 2. Если две группы краев разделены более чем на 2 пикселя, их значение равно нулю. Для повышения вычислительной эффективности сохраняются только значения выше небольшого порога (0,05), а остальные принимаются равными нулю [8].

Оценка ограничивающей рамки. Учитывая набор групп ребер S и их индекс соответствия, можно вычислить оценку предложения объекта для любого ограничивающего прямоугольника b-кандидата. Чтобы определить оценку, сначала вычисляется сумма величин mp для всех ребер p в группе si. Также выбирается произвольная позиция xi некоторого пикселя p в каждой группе si. Далее станет ясно, что точный выбор TIT05.wmf не имеет значения.

Для каждой группы si мы вычисляем непрерывное значение TIT06.wmf, которое указывает, содержится ли si полностью в b, TIT07.wmf или нет, TIT08.wmf. Пусть Sb будет набором групп ребер, которые перекрывают границу бокса b. Необходимо найти Sb, используя эффективную структуру данных, представленную на рис. 2. Для всех TIT09.wmf, TIT10.wmf устанавливается значение в 0. Аналогично TIT11.wmf для всех si, для которых TIT12.wmf, так как все его пиксели должны либо находиться вне b, либо TIT13.wmf. Для остальных групп ребер, для которых TIT14.wmf и TIT15.wmf, вычисляется TIT16.wmf следующим образом:

titov2.tif

Рис. 2. Примеры случайных ограничивающих прямоугольников

TIT17.wmf, (2)

где T – упорядоченный путь групп ребер длиной TIT18.wmf, который начинается с некоторого TIT19.wmf и заканчивается на TIT20.wmf. Если такого пути не существует, определяется TIT21.wmf. Таким образом, уравнение (2) находит путь с наибольшим индексом соответствия между группой ребер si и группой ребер, которая перекрывает границу окна. Используя вычисленные значения ωb, определяется нужная оценка следующим образом:

TIT22.wmf, (3)

где bω и bh – ширина и высота бокса. Также следует обратить внимание, что деление происходит по периметру окна, а не по его площади, так как края имеют ширину в один пиксель независимо от масштаба. Тем не менее значение k = 1.5 используется для компенсации смещения больших окон, имеющих в среднем больше краев.

На практике используется интегральное изображение, чтобы ускорить вычисление числителя в уравнении (3). Интегральное изображение используется для вычисления суммы всех mi, для которых TIT23.wmf. Затем для всех si с TIT24.wmf и TIT25.wmf из этой суммы вычитается TIT26.wmf.

Поиск пересекающихся групп ребер. В предыдущем разделе предполагалось, что известен набор групп ребер sb, которые перекрывают границу блока b. Поскольку оценивается огромное количество ограничивающих прямоугольников, эффективный метод поиска sb имеет решающее значение. Простые подходы, такие как исчерпывающий поиск всех пикселей на границе поля, были бы непомерно дорогими, особенно для больших блоков [9, 10].

Существует эффективный метод поиска пересекающихся групп ребер для каждой стороны ограничивающего прямоугольника, основанный на двух дополнительных структурах данных [11]. Ниже описывается процесс поиска пересечений вдоль горизонтальной границы от пикселя (c0, r) до (c1, r). С вертикальными границами можно работать аналогичным образом. Для горизонтальных границ создаются две структуры данных для каждой строки изображения. В первой структуре данных хранится упорядоченный список Lr индексов группы ребер для строки r. Список создается путем сохранения порядка, в котором группы ребер располагаются вдоль строки r. Индекс добавляется к Lr только в том случае, если индекс группы краев изменяется от одного пикселя к другому. В результате размер Lr намного меньше ширины изображения. Если между группами краев есть пиксели, которые не являются краями, в список добавляется ноль. Создается вторая структура данных Kr с таким же размером, как ширина изображения, которая сохраняет соответствующий индекс в Lr для каждого столбца c в строке r. Таким образом, если пиксель p в местоположении (c, r) является членом группы краев si, TIT27.wmf. Поскольку большинство пикселей не принадлежат группе краев, используя эти две структуры данных, можно эффективно найти список перекрывающихся групп краев, выполняя поиск Lr от индекса Kr(c0) до Kr(c1).

Поиск стратегии. При поиске предложений по объектам следует учитывать алгоритм обнаружения объекта. Некоторые алгоритмы обнаружения могут требовать предложения объектов с высокой точностью, в то время как другие более терпимы к ошибкам при размещении ограничивающей рамки. Точность ограничивающего прямоугольника обычно измеряется с помощью метрики «Пересечение по объединению» (IoU). IoU вычисляет пересечение прямоугольника-кандидата и основного прямоугольника истинности, деленное на площадь их объединения. При оценке алгоритмов обнаружения объектов порог IoU, равный 0,5, обычно используется для определения правильности обнаружения. Однако, как показано на рис. 2, оценка IoU 0,5 является довольно слабой. Даже если предложение объекта сгенерировано с IoU 0,5 с достоверностью, алгоритм обнаружения может дать низкую оценку. В результате обычно желательны оценки IoU более 0,5.

titov3.tif

Рис. 3. Пример (оригинальный рисунок слева) оценки с использованием (в центре) и удалением (справа) контуров, перекрывающих границу ограничивающего окна

Необходимо описать стратегию поиска предложения объекта на основе желаемого IoU, ∂, для детектора. Для больших значений ∂ создается более концентрированный набор ограничивающих рамок с более высокой плотностью. Для мелких значений ∂ окна могут иметь большее разнообразие, поскольку предполагается, что детектор объектов может учитывать умеренные ошибки в расположении окон. Важно, что предыдущие методы имеют неявные предубеждения, для которых ∂ предназначены, например Objectness и Randomized Prim настроены на низкий и высокий показатель ∂ соответственно, тогда как в данном случае обеспечивается явный контроль над разнообразием по сравнению с точностью.

Начинается поиск возможных ограничивающих рамок с помощью скользящего окна поиска по положению, масштабу и соотношению сторон. Размер шага для каждого определяется с использованием одного параметра α указывающего IoU для соседних блоков. То есть размеры шага при перемещении, масштабе и соотношении сторон определяются таким образом, что один шаг приводит к тому, что соседние блоки имеют IoU, равное α. Значения масштаба варьируются от минимальной области блока ∂ = 1000 пикселей до полного изображения. Соотношение сторон от 1/τ до τ, где τ = 3 используется на практике. Значение α = 0.65 идеально подходит для большинства значений ∂. Однако, если требуется высокая точность ∂ > 0.9,можно увеличить до 0,85.

После выполнения поиска в скользящем окне все местоположения ограничивающего прямоугольника с оценкой TIT28.wmf выше небольшого порога уточняются. Уточнение выполняется с помощью жадного итеративного поиска, чтобы максимизировать TIT29.wmf по положению, масштабу и соотношению сторон. После каждой итерации шаг поиска сокращается вдвое. Поиск останавливается, когда размер шага перевода меньше 2 пикселей.

После того как ограничивающие прямоугольники-кандидаты улучшены, их максимальные оценки записываются и сортируются. Заключительный этап выполняет не максимальное подавление (NMS) отсортированных окон. Окно удаляется, если его IoU больше, чем у окна с большим количеством значений. Было обнаружено, что на практике установка β = ∂ + 0.05 обеспечивает высокую точность по всем значениям ∂.

Заключение

В данной статье была рассмотрена классическая модель работы поиска объектов с помощью скользящих окон, описана модель пограничных блоков для распознавания объектов на изображении и используемый для этого алгоритм поиска. Также были описаны различия между классическими моделями поиска объектов на изображении и показаны плюсы и минусы описываемого в статье метода.