Особенности Mask R-CNN

Обычно в сетях, подобных Mask R-CNN, сначала происходит сегментация изображения, после которого следует классификация найденных участков. Есть системы, в которых классификация предшествует сегментации. Особенностью Mask R-CNN является параллельная работа участков сети, отвечающих за классификацию и сегментацию.

На первом этапе работы Faster R-CNN (который лежит в основе Mask R-CNN) получается множество ограничительных рамок, где предположительно расположены объекты. После этого на каждый регион проецируются соответствующие ему признаки, найденные на всем изображении. По этим признакам происходит классификация.

На вход подсети, отвечающей за сегментацию, подается множество ограничительных рамок и множество признаков. Но проецирование признаков на регион происходит несколько иначе. Обычно двумерная сетка признаков проецируется на регион поиском ближайшего признака; в результате часто происходит смещение этих признаков в регионе. Это смещение почти не влияет на качество классификации, но вносит существенную ошибку в сегментацию. Поэтому для сегментационной ветки проецирование должно быть точнее. В регионе задаются контрольные точки, для которых признаки находятся при помощи операции билинейной интерполяции исходных признаков. Этот подход  увеличивает точность на 10-50%.

Функция потерь в Mask R-CNN сети складывается из функции потерь классификации,  определения границ объекта и сегментации. Функция потерь сегментации и пороговая функция выхода сегментационного участка выбраны таким образом, чтобы классы не конкурировали между собой при сегментировании.

Авторы данной архитектуры предоставляют 4 сети, предварительно обученных на COCO-данных:

1.jpg
2.png
3.png

Мы в SMedX создаем и обучаем нейросети под специализированные задачи. Сообщите нам предметную область, в которой вы работаете, и мы поможем вам подобрать нужный тип нейронной сети и построить обучение, чтобы добиться результатов по распознаванию объектов по изображениям.

 

Обратная связь

Хочу получать рассылку