Новый детектор пешеходов от Google поможет сделать самоуправляемые автомобили дешевыми

Беспилотные автомобили Google публично разъезжают по солнечным улицам Маунтин Вью в Калифорнии, но большая часть технологий, являющаяся их мощью, никогда не видела света. Присутствующие вчера на Международной конференции IEEE по робототехнике и автоматизации ICRA в Сиэтле получили редкую возможность узнать об особенности работы систем безопасности, используемых технологическим гигантом.

Анелия Ангелова, научный сотрудник Google, работающая над компьютерным зрением и машинным обучением, представила новую систему обнаружения пешеходов, которая использует только видеоизображения. Распознавание, отслеживание и уклонение от пешеходов являются критически важными для любого беспилотного автомобиля. Транспортные средства компании Google должным образом оснащены LIDAR'ом, радаром и камерами, чтобы гарантировать, что они определяют людей c расстояния в сотню метров.

Но эта связка сенсоров является дорогостоящей. В частности, вращающийся блок LIDAR на крыше может стоить около 10000$ или больше. Если автономные транспортные средства cмогут надежно находить людей, используя лишь дешевые камеры, то это могло бы снизить их стоимость и, возможно, мы бы вступили в безаварийную эпоху роботов. Но у видеокамер есть свои проблемы. «Визуальная информация дает более широкий обзор чем радары, но медленнее обрабатывается», — говорит Ангелова.

По крайней мере, так было. Лучшие системы видеоанализа используют нейронные сети с глубоким обучением — алгоритмы машинного обучения, которые могут быть обучены для классификации изображений, а также других типов данных. Глубокие нейронные сети полагаются на несколько слоев обработки, находящимися между слоями ввода и вывода. Для распознавания изображений, входной слой изучает комбинации свойств пикселей изображения. Следующий слой изучает уже комбинации этих свойств, и так далее, через промежуточные слои, с постепенно появляющимися более сложными корреляциями. Выходной слой делает предположение о том, что видит система.

Современные сети с глубоким обучением могут превзойти людей в таких задач, как распознавание лиц, имея уровень точности более 99.5 процентов. Но традиционные нейросети с глубоким обучением, применяемые для обнаружения пешеходов очень медленны, разделяя каждое изображение улицы на 100 000 или больше крошечных образцов, объясняет Ангелова, а затем анализирует каждый образец поочередно. Это может занять для каждого кадра несколько секунд или даже минут, делая их бесполезными для навигации городских улиц. Задолго до того, как автомобиль с помощью такой сети выявляет пешехода, он возможно уже окажется рядом.

Новый, высокоскоростной детектор пешеходов Ангеловой проходит три отдельных этапа. Первый — является нейронной сетью с глубоким обучением, которая разрезает изображение только на несколько десятков, а не на десятки тысяч маленьких областей. Эта сеть обучается производить несколько обнаружений одновременно в нескольких местах, выбирая те, в которых она думает, что есть пешеходы. Второй этап представляет собой другую сеть, уточняющую результат, и третий — традиционную нейронную сеть с глубоким обучением, чтобы окончательно решить что это: автомобиль, человек или, скажем, почтовый ящик.

Пример работы системы с глубоким обучением — Примеры обнаружения пешеходов в различных ситуациях при помощи системы глубокого обучения Google. Система работает в 60 раз быстрее, чем предшествующие методы.

Тем не менее, из-за медлительности, точная нейронная сеть анализирует лишь небольшую часть изображения, где, вероятно, есть пешеходы. Весь процесс проходит гораздо быстрее, от 60 до 100 раз быстрее, чем лучшие предыдущие нейронные сети, говорит Ангелова. Работая на графических процессорах, аналогичных используемым в беспилотных автомобилях Google, и используя уличные изображения, система обучалась примерно день. После этого на может точно определять пешеходов примерно за четверть секунды. (Исследователи использовали хорошо известную базу данных изображений с пешеходами, а не видео, полученное с автомобилей Google, так как это позволило им сравнивать свои результаты с результатами предыдущих нейронных сетей).

«Это все еще не 0.07 секунды, необходимые для использования в реальном времени», — признает Ангелова. Беспилотному автомобилю нужно знать практически мгновенно, пешеход перед ним или нет, для того, чтобы безопасно уклониться. «Но это означает, что новая система может взаимодополнять другие датчики».

По мере того, как становятся доступными более мощные процессоры, возможности нейронной сети возрастают, и производительность будет увеличиваться. «Для нейронных сетей с более крупными областями обзора, можно считать, даже быстрее», - говорит Ангелова. К тому времени, как самоуправляемые автомобили станут доступны для покупки на широком рынке, их вращающиеся LIDAR'ы могут полностью исчезнуть.

Источник: IEEE Spectrum

[add_ratings]