W3C работает над речевой технологией следующего поколения

Организация по стандартизации Web готовит новые стандарты по распознаванию голоса и преобразованию текста в речь.

Во вторник W3C сообщила, что в следующее поколение VoiceXML войдут спецификации для удостоверения личности по голосу. W3C готовит проект спецификации VoiceXML 3.0, куда войдет технология, позволяющая распознавать голос говорящего при совершении сделок по телефону или для использования голоса в компьютерах.

До сих пор технология VoiceXML применялась главным образом для подачи голосовых команд, а не для ввода текста. Ряд предприятий опирается на нее для автоматизации процессов и сокращения штатов. Однако под влиянием случаев нарушения безопасности при таких операциях пользователей и предприятия все больше беспокоит их защита. «Удостоверение личности по голосу — не только лучшая биометрическая защита при сделках и контактах по телефону; эта технология может гладко сочетаться с распознаванием и синтезом речи в системах VoiceXML», — говорится в заявлении вновь избранного председателя организации VoiceXML Forum Кена Реора (Ken Rehor).

W3C завершила подготовку предварительного проекта требований по VoiceXML 3.0 и планирует выпустить рабочий проект спецификаций к концу первого квартала будущего года, сообщил Джеймс Ларсон, сопредседатель рабочей группы W3C Voice Browser.

Кроме требований по идентификации говорящего, W3C решает в VoiceXML 3.0 проблему расширения функциональности языка Speech Synthesis Markup Language (SSML) с добавлением некоторых новых языков, включая китайский, японский и корейский.

SSML позволяет разработчикам управлять разными аспектами речи, от высоты тона до громкости и произношения. «Китайские теги будут указывать нужный тон, чтобы правильно передавать значение слов, и задавать ограничения, чтобы пользователи знали, где слово начинается и где оно заканчивается», — пояснил Ларсон. Например, в китайском языке слово mai в зависимости от тона голоса может означать либо «кошка», либо «красивый». Теги в SSML уже помогают правильно выговаривать слова при синтезе речи. Например, в США слово aluminium произносится не так, как в Канаде и в Англии.

Несмотря на то, что SSML уже стандартизован, в марте соответствующая рабочая группа W3C планирует провести свое первое официальное совещание для выработки требований по расширению языка, сообщил Ларсон.

Предыдущие публикации:

2004-03-24

Opera пробует голос

В продолжение темы:

2006-05-23

Сделать Web удобным для мобильных устройств

Обсуждение и комментарии

	M&M's 8 Dec 2005 3:03 PM
> Например, в мандаринском языке слово mai в зависимости от тона голоса может означать либо «кошка», либо «красивый». А врусском языке слово blja в зависимости от тона голоса может означать от "опять компьютер завис" до "мне повысили зарплату"

	Имя 8 Dec 2005 3:11 PM
2M&M's и не одним blja жив Великий и Могучий :)))

	INFOVIEW 8 Dec 2005 4:05 PM
В руском языке Бля это непределеный артикль который ставится после определяемого слова.

	dr-Wicked 9 Dec 2005 10:15 AM
Не всегда, вспомните песню из "Джей и молчаливый Боб наносят ответный удар": Бля, бля, бля, сука, твою мать, сука, твою мать Бля сука, бля сука, бля, бля, бля Раз, два, раз, два, три, бля-бля, сука, бля. Извините, ноты выложить немогу. Но легко видеть, что в данном контексте одно и тоже слово используется в качестве местоимения, в начале первой строки, дополнения, в виде сужествительного в конце первой строки и деепричастия вконце третьей строки(если мне не изменяет память, уж пятнадцать лет как школу закончил) Но главное, то интонация не влияет на смысловую нагрузку данного слова в данном контексте. Вцелом, если бы этот стандарт ещё и петь смог, вообще прикольно бы получилось. Поп-див можно было-бы по инету пущать в XML. Модель-X3D, поёт-SSML,объединяется в танец при помощи SMILE, защищено DSig. PS И девкам не прийдётся страдать, рёбра вырезать, зубы вырывать и по 20кг силикона с собой носить. О как.

	M&M's 9 Dec 2005 10:00 PM
Да, верно, нада бы ввести стандарт FuckML на передачу матерных словосочетаний через сеть... Можно обойтись двумя-тремя тэгами.

	dr-Wicked 10 Dec 2005 4:23 PM
По Вашим словам нельзя. Дело в том что база XML-возможности расширения (расширяемый язык разметки). А Вы хотите тремя тагами. Лучше бинарными форматами пользоваться, например Adobe-Macromedia Fucksh.

	M&M's 10 Dec 2005 9:58 PM
Щас напридумываем форматов... Нет, лучше пусть W3C этим занимается :-)

	F@U$T 25 Jul 2006 10:02 AM
А в каких еще фильмах, кроме Догмы, ДЖ&Б, Лоботрясов, снимались джей и молчаливый боб?

← ноябрь 2005

2 5 6 7 8 9 11 12 13

январь 2006 →