Ученые из КНР научили голосовой помощник распознавать беззвучные команды

Возврат к списку

Ученые из КНР научили голосовой помощник распознавать беззвучные команды

06.11.2018     

Специалисты китайского университета Цинхуа представили программу «голосовой помощник», которая распознает беззвучный запрос, анализируя двадцать контрольных точек на губах пользователя.   

Не надо даже шептать

Техническими деталями разработчики поделились на международной конференции UIST-2018 (User Interface Software and Technology-2018). Для того, чтобы распознавать беззвучные команды, голосовой помощник использует фронтальную камеру устройства. Нейросеть отслеживает не только 20 контрольных точек, но и анализирует расстояние между губами для фиксации окончания и начала слов. В тестовых испытаниях использовали 44 команды, среди которых как конкретизированные, например, «включить Wi-Fi», так и общие – «ответ на сообщение».  

 

 

Для тестирования, которое проводилось в пекинской подземке, программу «обучили» голосу и речи 21 добровольца. В итоге точность распознавания команд, которые отдавались даже не шепотом, а просто шевелением губ, составила 95,5%. При этом практически все участники тестирования признали такой способ управления голосовым помощником удобным.

Однако не стоит ждать выхода нового приложения в ближайшей перспективе. Для расшифровки данных требуется мощный ПК, что делает проблематичным использование программы вне дома или работы.

Я слушаю ваше дыхание

В том же направлении, но другим путем движутся специалисты компании Microsoft Research, которые неделей ранее представили технологию распознавания речи SilentVoice.

Метод разработчиков Microsoft основан на фиксации и анализе воздушных колебаний в непосредственной близости от ротовой полости. Колебания воздуха улавливаются специальным датчиком, затем полученные данные расшифровываются и трансформируются в текстовый формат, либо в сообщение с хорошо слышимым и различимым голосом. В процессе работы приложения осуществляется фильтрация эфира – удаляются посторонние шумы.  

 

 

По утверждениям специалистов Microsoft Research, программа может распознавать звук ниже 39 дБ. Насколько ниже, не уточняется, но если принять во внимание содержание СНиП 23-03-2003 «Защита от шума», в котором регламентирован максимально допустимый шум с 23-00 до 7-00 не выше 30 дБ (громкое тиканье маятника, настенных часов), то результаты тестов, во время которых точность распознавания составила 98,9%, не впечатляют.

На этом фоне программа пекинского университета выглядит предпочтительней, однако на этом ее преимущества заканчиваются. Продукт Microsoft Research – обычное приложение, которое не требует дополнительных мощностей для обработки информации. Но главное, используя эту программу, пользователь сможет не только отдавать команды, но и шепотом общаться с другими абонентами. Впрочем, и этот проект пока находится в разработке и на рынок выйдет нескоро.

Аргументы против

Сложно сказать, насколько популярными будут приложения распознавания голоса по шевелению губ или улавливанию шепота, но некоторые специалисты уже бьют тревогу.

Такие программы смогут использовать мошенники. Если управление домом или машиной будет осуществляться голосовыми командами, преступники, отсканировав движение губ, получат доступ к имуществу пользователя.

Разработчики на эти вопросы прямого ответа не дают, но регулярно заявляют, что безопасность пользователей – главный приоритет при создании программ.



Источник: https://infostart.ru/journal/news/tekhnologii/uchenye-iz-knr-nauchili-golosovoy-pomoshchnik-raspoznavat-bezzvuchnye-komandy_937280/
Автор:
Яков Колосов Обозреватель


Пользуетесь ли вы голосовыми помощниками?


Да, это удобнее «ручного управления» (0%, 0 голосов)
0%
Да, но только за рулем (0%, 0 голосов)
0%
Мне проще пользоваться клавиатурой (100%, 11 голосов)
100%
Нет, эта технология еще плохо работает (0%, 0 голосов)
0%
Свой вариант (в комментарии) (0%, 0 голосов)
0%

Комментарии
Избранное Подписка Сортировка: Древо
1. Timur.V 29 06.11.18 11:51 Сейчас в теме
Метод разработчиков Microsoft основан на фиксации и анализе воздушных колебаний в непосредственной близости от ротовой полости. Колебания воздуха улавливаются специальным датчиком, затем полученные данные расшифровываются и трансформируются в текстовый формат, либо в сообщение с хорошо слышимым и различимым голосом.

Так микрофоны (гарнитура) так и работают.

В процессе работы приложения осуществляется фильтрация эфира – удаляются посторонние шумы.

Кажется первые придумали Apple, когда у iPhone сделали два микрофона.
Один микрофон записывает речь человека и шумы, а второй микрофон расположен
в другом месте (противоположном) устройства - и записывает шумы.
Потом, это оцифровывается, звук из одного микрофона вычитают второй - и получается чистый голос без шумов.
Которой можно уже распознавать.
SKravchenko; +1 Ответить
Оставьте свое сообщение