Начало применения Mask R-CNN

Недавно TensorFlow добавил в свой репозиторий Mask R-CNN. Статья про данную архитектуру нейронных сетей вышла еще раньше и заинтересовала нас еще тогда. Поэтому мы решили ее протестировать. Благодаря тому, что авторы выставили в открытый доступ 4 предварительно обученные модели, это оказалось сделать совсем просто.

Мы взяли текущую реальную задачу, где необходимо детектировать ноги людей. И получили очень хорошие результаты:

4.png

Благодаря тому, что модели были обучены на наборе данных COCO, состоящем из 123.287 изображений и 886.284 объектов (66808 людей), предварительно обученные модели отлично справились с детектированием людей и их ног, в частности.

Mask R-CNN позволяет не только находить границы объектов и классифицировать их, но и проводить их сегментацию. Архитектура сети основана на Faster R-CNN, сегментация оформлена в виде дополнительной сетки в сети. При этом сегментация определяется параллельно с классификацией (по Bounding Box). Также авторы отмечают новый, более точный механизм проецирования признаков, что дополнительно увеличило точность. По заявлениям, дополнительная ветка для сегментации работает довольно быстро, а вся сеть обрабатывает 5 кадров в секунду.

Заключение

В основе Mask R-CNN лежит успешная архитектура Fast R-CNN сети. Дополнительная подсеть в архитектуре проста для понимания и не требует больших вычислений. Практически всю работу над изображением проделывает Fast R-CNN, Mask R-CNN лишь исправляет небольшие недочеты (RoIAlign) и получает сегментацию. Использованные решения просты, эффективны и обеспечивают высокую скорость работы.

Получается так, что детектирование в виде Bounding Box уже не актуально. Ведь сегментация почти не добавляет дополнительных вычислений, а выглядит, конечно, намного информативнее

А еще - это теперь TensorFlow 1.6 “из коробки”! Наверное, говорить о том, что можно сразу в production использовать эти возможности TF - это слишком спешить, но времени на эксперименты он вам точно сэкономит и позволит работать более продуктивно. Это очень важно для таких задач как, например, видеонаблюдение.

Репозиторий же Tensorflow/models/research предоставляет удобный способ для демонстрации своих разработок. Выложено множество обученных нейронных сетей, которые можно запустить в jupyter и сравнить. Датасет, на котором обучались модели, очень большой, включает в себя фотографии и сегментации людей, что очень удобно для создания рабочих прототипов.

Узнайте больше про искусственный интеллект вместе с SMedX

 

Обратная связь

Хочу получать рассылку