На главную страницу AlgoNet В сотрудничестве с ZDNet
АРХИВ СТАТЕЙ 2003-4-29 на главную / новости от 2003-4-29
AlgoNet.ru
поиск

 

Место для Вашей рекламы!

 

Все новости от 29 апреля 2003 г.

ПО Intel читает по губам

Intel выпустила ПО, которое позволяет компьютеру читать по губам. Это достижение должно привести к повышению качества распознавания речи.

Программа Audio Visual Speech Recognition (AVSR) следит за лицом говорящего и движениями губ. Сопоставляя эти движения с голосом, программа может собрать достаточно данных, чтобы распознавать голосовые команды даже при наличии шумовых помех. AVSR входит в состав библиотеки компьютерного зрения OpenCV — набора приложений и инструментов с открытым исходным кодом, который помогает компьютеру интерпретировать визуальные данные.

Компьютерные компании долгие годы пытаются популяризовать приложения распознавания речи, но этому препятствовали недостаточная вычислительная мощность среднего компьютера и ограниченные возможности ПО. Однако то и другое быстро меняется. Быстродействие среднего процессора перевалило за 1,5 ГГц, а программисты научились лучше справляться с задачей распознавания голосовых команд.

Один из способов дальнейшего совершенствования подобных приложений — добавление в схему распознавания голоса визуального сигнала, как это делает Intel. Например, Microsoft Research разработала прототип программы GWindows, при помощи которой можно прокручивать документы или перемещать окна сочетанием голосовых команд и жестов.

Видеокамера, смонтированная на мониторе, наблюдает за перемещением таких объектов, как рука или указка, в радиусе 50 см от экрана. Программа интерпретирует все перемещения руки (или жесты указкой) как компьютерные команды: например, указание пальцем на окно и перемещение его влево означает команду передвижения окна влево. Если подаются голосовые команды, такие как scroll, компьютер сопоставляет движение пальца и эти команды и прокручивают текст. Никаких специальных перчаток не требуется.

Прототип приложения Microsoft работает лучше, чем простая система распознавания голоса, так как жесты повышают точность, рассказывает руководитель проекта Энди Уилсон. Он продемонстрировал, как компьютер выполняет голосовые команды в многолюдной, зашумленной комнате.

Такое ПО обработки визуальных сигналов частично опирается на байесову математическую статистику, которая используется и в других проектах Microsoft, связанных с интерфейсом и искусственным интеллектом. Например, если компьютер «видит» повторяющийся жест руки, указывающий влево, то он с уверенностью интерпретирует его как команду на перемещение окна влево.

Intel работает и над другими визуальными приложениями для AVSR. Одно из них использует камеры для наблюдения за пациентами больницы, определяя опасные движения, а другое выявляет потенциальных преступников на автостоянке. Принцип действия всех этих программ один и тот же: компьютер генерирует сигнал, когда обнаруживает в видеопотоке что-то необычное — замедление походки больного или человека, переходящего от машины к машине. Работа над этими приложениями и разработка AVSR ведется в китайском научном центре Intel в Пекине.

Компания выпустила также опытную версию технической библиотеки Probability Network Library для создания байесовых сетей. Окончательная версия этой библиотеки выйдет в конце года. 

 Предыдущие публикации:
2003-01-21   IBM осмысливает искусственный интеллект
2003-01-31   AMD — российской науке
2003-02-21   Intel очерчивает будущее десктопов
 В продолжение темы:
2003-07-11   Говорящие машины становятся ближе к реальности
2003-12-02   Консоль мимики и жестов
2003-12-09   Intel открывает библиотеку для машин

 

← март 2003 21  22  23  24  25  26  28  29  30 май 2003 →
Реклама!
 

 

Место для Вашей рекламы!