Все новости от 22 июня 2007 г. Xerox взялась улучшить результаты поиска
Группа синтаксического и семантического анализа при Европейском научно-исследовательском центре Xerox во Франции разработала инструмент поиска FactSpotter, который не просто ищет ключевые слова, а анализирует смысл текста.
FactSpotter выполняет грамматический разбор текста, пытаясь получить дополнительную информацию — например, определить, применяются ли неоднозначные слова в качестве существительных или глаголов и на кого указывает местоимение.
Такой анализ позволяет выяснить, что выражения «Билл Гейтс», «он» и «глава Microsoft» в одном и том же документе, вероятно, относятся к одному и тому же лицу. При этом программа должна также установить, что фразы «Билл Гейтс сказал...» и «Друг Билла Гейтса сказал...» предшествуют высказываниям разных людей — в таких случаях поисковые машины, основанные только на ключевых словах, скорее всего, выдадут неадекватные результаты.
Одной из первых служб, использующих FactSpotter, станет Xerox Litigation Services, которая в будущем году встроит его в предназначенный для юристов комплекс программного обеспечения e-discovery. На стадии следствия, когда приходится просеивать миллионы сообщений e-mail и других документов, новый инструмент поможет определять отправителя и получателей сообщений и выбирать информацию о событиях и датах. Эти результаты можно будет использовать для восстановления картины событий, из которой станет исходить следствие.
Для описания грамматической системы разработчики создали специальный метаязык. Пока они используют его для голландского, английского, французского, немецкого, итальянского, португальского и испанского языков. Совместная команда исследователей Fujitsu-Xerox применила этот метаязык и для описания японской грамматики, чтобы продемонстрировать возможность его использования для языков с другой системой письма.
Сам FactSpotter написан на языке программирования С, а дополнительные модули на Java и Python позволяют ему взаимодействовать с другими приложениями.
Хотя программа анализирует только тексты, ее можно связать с инструментами распознавания речи, чтобы искать в радио- и ТВ-архивах. Компания уже участвует в нацеленных на это совместных проектах.
Предыдущие публикации:
В продолжение темы:
| Ермаков Александр 22 Jun 2007 3:01 PM |
Туфта полная! В мире уже с десяток лет известные коллективы умеют проводить грамматический и прочий анализ текста. В частности, мы (http://www.rco.ru) А эти ребята -очевидные лохи, как, впрочем, и журналисты, которые, как и всегда, фуфло читателям толкают! |
|
|