Все новости от 26 марта 2004 г. Вгрызаясь в горы словесной руды
Катарский телеканал «Аль-Джазира» выпускает веб-видеоклип с новостями дня на арабском языке. Спустя считанные мгновения появляется его перевод на английский.
Эта демонстрация на конференции PC Forum, которая прошла на этой неделе в Скотсдейле (штат Аризона), напомнила о том, как близки границы возможного в отношении онлайновой информации. Коммерческие поисковые службы типа Yahoo и Google революционизировали нашу способность находить за короткое время множество фактов на самые разные темы. Теперь молодые компании и почтенные фирмы предлагают продукты, которые, как они утверждают, расширяют возможности по работе с информацией, найденной в вебе или в базах данных.
Например, отпрыск Университета штата Южная Каролина Language Weaver выступил с технологией, которая «на лету» выполняет функциональный перевод интернет-статей или видеоклипов. Как это было продемонстрировано на примере клипа «Аль-Джазира», можно опубликовать в вебе страницу на французском, арабском, китайском, хинди или неизменно популярном языке сомали, и уже через минуту появится его функциональная английская версия.
«Через пару лет мы достигнем того уровня, когда не будет заметно разницы между неотредактированным машинным переводом и черновым вариантом перевода, выполненного человеком», — сказал в своем выступлении на PC Forum директор Language Weaver Брюс Бенджамин.
Тем временем компания MetaCarta предложила ПО, позволяющее разведывательным службам, геологическим партиям или руководителям маркетинговых служб разыскивать документы в своих собственных архивах, а затем отражать содержащиеся в них данные на географических картах.
Скажем, автопроизводителю нужно решить, где лучше организовать премьеру своего нового внедорожника. MetaCarta выберет документы, относящиеся к покупателям предыдущей модели, и наложит эти данные на карту Соединенных Штатов, так что производитель легко определит, выпускать ему новую машину в Миннесоте или в Техасе. MetaCarta утверждает, что поиск в файлах американской разведки документов, связанных с Мохаммедом Атта, позволил выявить места пребывания террориста-самоубийцы, который значится под номером 19, в Германии перед событиями 11 сентября.
Это не простой поиск, говорит президент MetaCarta Джон Фрэнк. Существует 44 крупных и мелких города с названием Париж и 69 городов с названием Аль-Хамра. Еще больше усложняет поиск тот факт, что у большинства мест на земном шаре не одно название. Отфильтровать неподходящие результаты — чрезвычайно трудная задача.
Еще хуже то, что во многих документах местность описывается не слишком определенно. В тексте может быть сказано: «карьеры в 22 милях от Юма» или «Индийская плита». Чтобы добиться правильных результатов, ПО MetaCarta по существу переводит эти выражения в географические координаты.
«Многих из этих мест вообще нет на карте», — говорит Фрэнк. Эти трудности объясняют и то, почему ПО компании продается за шестизначные суммы.
По сути MetaCarta и Language Weaver пытаются разрешить главный парадокс поиска: чем больше вы узнаете, тем меньше знаете. Объем накопленной информации и способы ее возможного применения меняются в столь широких пределах, что вариантов технологии может быть масса.
«Их гораздо больше, чем я мог вообразить, — говорит CEO Google Эрик Шмидт. — Здесь не может быть стратегии единственной платформы, которая была бы лучше всех остальных».
Google планирует объединить свою социальную сеть Orkut с основной поисковой службой, чтобы ответы на те вопросы, которые трудно получить от стандартного механизма поиска, давали эксперты. Тем временем Intel и другие поощряют исследовательские проекты, которые позволят искать не по ключевым словам, а по изображениям или аудиоклипам.
Как испытанные технологии, так и технологии Language Weaver и MetaCarta при формировании результатов поиска опираются на вероятность. При переводе с испанского на английский Language Weaver, сравнивая варианты порядка слов в испанских и английских документах из своей базы данных, сначала подбирает для испанских выражений (Que hambre tengo!) вероятный эквивалент на ломаном английском (Have I that hunger!). Затем производится другой вероятностный анализ для перевода этой фразы на стандартный язык (I am so hungry!).
База данных документов Language Weaver для вероятностного перевода с европейских или китайского языка очень обширна. Для сомалийского источников значительно меньше — компании приходится ограничиваться Библией.
Точно так же отбрасывает нерелевантные результаты ПО географического поиска MetaCarta. Например, если поиск относится к течению реки Темза, то система исключает результаты, где слово «Лондон» следует за словом «Бройл» или предшествует слову «Джулия».
Пока подобную технологию использует главным образом правительство США. На самом деле и Language Weaver, и MetaCarta получили венчурное финансирование из учрежденного ЦРУ фонда In-Q-Tel.
Но потенциал коммерческого применения их ПО тоже огромен, и обе компании уже начали поставлять свои продукты негосударственным заказчикам. Бенджамин из Language Weaver утверждает, что, хотя главным образом по-английски говорит всего 8% населения Земли, доля англоязычных веб-сайтов близка к 80%. Сейчас технология компании дороговата — франко-английский переводчик стоит около 25 тыс. долл. — но по мере расширения базы данных цена будет снижаться.
«Мы не собираемся и не пытаемся достичь уровня людей — носителей языка и культуры», — говорит Бенджамин.
Предыдущие публикации:
В продолжение темы:
|