• Технологии. Инновации. Бизнес.
    Знание существует для того, чтобы его распространять
   Вернуться назад

Технологии и сервисы распознавания речи

2018-17-09  |   Технологии и сервисы распознавания речи

Людям всегда будет проще общаться голосом, чем писать или набирать текст на клавиатуре – именно поэтому компания, которая первая выведет на рынок идеальный сервис распознавания речи, получит миллиарды клиентов. Но насколько технологические гиганты близки к созданию такого сервиса и в чём вообще проблема? Давайте разбираться.

Сложности с распознаванием речи

Первые попытки создать машину, понимающую человека, были сделаны ещё в середине прошлого века: в 1952-м компания Bell Laboratories показала миру «Одри» – устройство, способное с точностью 90% распознать цифры от 0 до 9. Тогда же были сформулированы основные проблемы с распознаванием речи:

1. Все люди говорят по-разному: диалект, акцент, скорость речи – на произношение влияют даже пол и социальный класс. «Одри», кстати, показывала свои 90% только при общении с изобретателем, других людей она понимала с точностью 70-80%;

2. В речи есть похожие слова и фразы, которые сложно отличить друг от друга: вместо «покалечилась» машина может услышать «пока лечилась», вместо «несуразные вещи» – «несу разные вещи» и так далее;

3. Распознаванию голоса очень мешают фоновые шумы.

С первыми «распознавателями речи» приходилось говорить, постоянно делая паузы и очень медленно. Но, к счастью, ситуация изменилась с приходом…. iPhone?

Google Voice Search, резкий скачок технологий и современное положение дел

В 2008-м году Google выпустил свой голосовой поиск для iOS – Siri. Сервис достаточно точно понимал вопросы пользователя и в буквальном смысле произвёл революцию на рынке. Сразу же отреагировали Microsoft со своей Cortana, Amazon с Alexa – каждый из технологических гигантов выпустил своё решение и работает над его развитием.

Сегодня поддержка голосовых команд есть не только на смартфонах и компьютерах, но и в системах «Умный дом», автонавигаторах, бытовой технике – практически в любых приборах. Естественно, есть голосовой ввод и в самых популярных переводчиках – вроде Google Translate – но нужно учитывать, что точность распознания текста в «свободной форме» ниже, чем в случае с закреплёнными командами вроде «Siri, погода». Тем не менее, темпы развития таких технологий поражают: главный барьер – барьер смущения – пройден, люди активно общаются с машинами, а уровень взаимопонимания растёт с каждым годом.