Распознавание речи заставляет прислушиваться к себе

Технология, позволяющая компьютерам интерпретировать человеческую речь, пока далека от совершенства, но покупатели уже начинают проявлять к ней интерес.

Десятилетия исследований и разработок в области технологии распознавания речи, начинают, наконец, подавать обнадеживающие коммерческие сигналы, утверждает аналитическая фирма Gartner.

После спада, последовавшего за пиком 2000 года, мировой рынок продуктов распознавания речи в 2003 году приближается к отметке 130 млн долл. (в 2002 году его объем составил 128 млн долл.). Эти цифры показывают, что покупатели вновь начинают проявлять интерес к технологии, которая, как уверены многие, со временем изменит характер общения человека и компьютера.

Размер этой отрасли, поднявшись в 2000 году до 140 млн долл., в 2001 и 2002 годах сокращался, но теперь такие лидеры рынка, как Nuance и ScanSoft, говорят о хорошей бизнес-практике в сфере распознавания речи. «Многие конкретные реализации доказывают, что решения, используемые для распознавания речи, могут быть экономически эффективными, снижая затраты или повышая качество обслуживания заказчиков», — говорится в заявлении аналитика Стива Крамойсяна. По его словам, дополнительный толчок отрасли придали усилия Microsoft и IBM.

Технология дошла до того уровня, когда производители уже не могут конкурировать исключительно по качеству преобразования речи, утверждает Gartner, а интернет-приложения и такие стандарты, как VoiceXML, помогают расширить спектр решений. Большинство продуктов находит применение в call-центрах и на бизнес-порталах.

Северная Америка — крупнейший рынок распознавания речи, на долю которого в 2003 году придется 61% доходов, но эта доля будет сокращаться по мере развития рынка EMEA (Европа, Ближний Восток и Африка), прогнозирует Gartner. Сегодня ЕМЕА создает 26% рынка.

Гиганты хайтек-индустрии, такие как IBM, Microsoft и Intel, продолжают активно инвестировать в совершенствование возможностей ПК и серверов по интерпретации устной речи.

В июле Microsoft выпустила первую общедоступную бета-версию своего ПО Speech Server, которое позволяет серверам выполнять голосовые команды. Speech Server (прежнее название .Net Speech Platform) нацелен на понижение стоимости создания автоматических систем ответа на телефонные звонки.

Тем временем IBM создает в своих лабораториях демонстрационные приложения для крупных корпораций. Финансовая компания T Rowe Price установила бухгалтерскую систему Big Blue, которая позволяет заказчикам осуществлять финансовые операции, произнося запросы на обычном разговорном языке.

Intel выпустила в апреле ПО, позволяющее компьютерам читать по губам. Это шаг вперед, который может привести к дальнейшему совершенствованию приложений распознавания речи. Система Audio Visual Speech Recognition (AVSR) наблюдает за лицом говорящего и движениями губ. Сопоставляя эти движения и звук, она снабжает компьютер достаточным количеством данных для распознавания голосовых команд даже в зашумленном помещении.

Большинство экспертов сходится во мнении, что для развития распознавания речи потребуется какое-то время — скорее, 50 лет, чем 10, считает соучредитель и почетный председатель правления Intel Гордон Мур. В рамках своего проекта Super human speech recognition IBM надеется к 2010 году разработать коммерческие системы, преобразующие речь в печатный текст точнее, чем человек. Сегодня уровень ошибок машины, по разным оценкам, в 5-10 раз выше, чем у людей. Системы автоматического перевода тоже существенно улучшатся.

Специалисты Microsoft и других компаний работают над компьютерами, способными понимать речь, не делая синтаксического разбора, а оценивая ее как вероятностную функцию. Например, Yoda, механизм преобразования речи в текст, разрабатываемый Microsoft, изучает привычки пользователя, чтобы превращать произнесенные им слова в связные сообщения электронной почты.

Предыдущие публикации:

2003-07-11

Говорящие машины становятся ближе к реальности

В продолжение темы:

2004-02-04		Речевой веб-интерфейс близок к стандартизации
2004-03-24		Opera пробует голос

← сентябрь 2003

14 15 16 17 20 21 22 23 24

ноябрь 2003 →