Mitsubishi Electric заявила о технологическом прорыве в области разработки технологии шумоподавления, предназначенной для системы hands-free в автомобиле и других приложениях. Технология улучшает качество связи, отфильтровывая практически весь нежелательный окружающий шум, который поступает в микрофон во время разговора.
Удаляются шумы, включая и быстро изменяющиеся звуки от проезжающих автомобилей, работающих дворников стеклоочистителей и щелкающих реле поворотников, с которыми сложно работать, чего до сих пор не было.
«Ранее действительно была решена проблема только со стационарными шумами, такими как шум дороги или звук работающего кондиционера, потому что такие шумы, смешанные с речью можно легко предсказать, исходя из прошлых наблюдений, когда водитель не говорил», говорит Джонатан Леру — главный научный сотрудник Mitsubishi Electric Research Labs в Кембридже, штат Массачусетс. «Гораздо сложнее снизить уровень шума, когда его характеристики в значительной степени непредсказуемы.»
Для того, чтобы лучше различить речь от других звуков, исследователи разработали систему улучшения речи, которая использует спектральные и динамические характеристики человеческой речи, такие как основной тон речевого сигнала и тембр.
Эти системы используют методы машинного обучения с глубокими архитектурами, основанными на искусственных нейронных сетях. Они обучены распознавать и подавлять шум и поддерживают речь чистой, используя огромное количество зашумленных речевых данных. Системы включают миллионы параметров, которые оптимизируются в процессе обучения, с целью уменьшить разницу между выходом системы и исходной чистой речью.
Для того, чтобы восстановить чистую речь, нейронные сети строят специальные изменющиеся во времени фильтры «на лету» и применяют их к зашумленной речи.
«Частотное содержание речи и шума может быть сложно смешанным, и резко меняться» — говорит Леру. «Переходные шумы могут длиться всего несколько десятков миллисекунд, в то время как речь изменяется от одной фонемы к другой каждые 100-200 миллисекунд. Таким образом, чтобы эффективно удалить шум, фильтр должен иметь высокое разрешение по частоте и обновляться очень быстро.»
В тестах, по словам Леру, им удавалось удалить до 96 процентов окружающего шума, по сравнению с 78 процентами, полученными с помощью обычных методов.
Эта технология основана на принципиально ином подходе и имеет иные цели, чем активные методы шумоподавления, применяющиеся в шумозащитных наушниках, которые пытаются физически устранить шум в окружающем пространстве. Примерами таких методов, применяемых в автомобиле, являются метод Бозе шумоподавления двигателя и метод Хармана подавления дорожного шума.
Целью Mitsubishi является устранение шума, захваченного микрофоном во время разговора пользователя по телефону. Хотя активные методы шумоподавления могут косвенно помочь в решении этой проблемы за счет снижения шума в кабине, Mitsubishi говорит, что они могут подавлять только низкочастотный шум.
«Мы хотим, чтобы речь водителя была более ясной и понятной для человека «на другом конце провода», удалив столько шума, сколько это возможно, а не только низкочастотный шум» — говорит Леру. «Наша технология также будет полезна для hands-free команд и управления, например, при использовании Siri от Apple или голосового поиска Google в смартфонах, а также в колл-центрах, которые используют распознавание речи для обработки общих запросов.»
Mitsubishi планирует начать использовать эту технологию в 2018 году в своей линейке автомобильных навигационных и коммуникационных устройств.
Источник: IEEE Spectrum
[add_ratings]
В моем проекте конченая цель это создать голосовое управление домом.Но ждать 18 года и сколько весить будет этот фильтр с миллионами параметрами...
Да и даже в наших машинах не так шумно что бы 20 % сделали какой либо погоды...А в тяжелых условиях применяются куда более эффективные аппаратные средства которые на все 100% подавляют любые шумы,например-ларингофо́н.
Все таки основной критерий сколько будет весить такой софт...
На конференции Сколково Роботикс, на мой взгляд, интересный доклад был.
www.youtube.com/watch?v=Eatmixt9rek
Там есть и про современные проблемы распознавания голоса и пути их решения.