Microsoft: в поисках лучшего поиска

Софтверный гигант проводит исследования, которые помогут ему сделать поиск информации более важной частью операционной системы.

Microsoft экспериментирует с разными технологиями, которые в числе прочего осуществляют Google-подобный поиск информации на жестком диске или категоризируют результаты запросов, упрощая систематизацию данных. Во многих случаях эти исследования направлены на создание пользовательского интерфейса для средств хранения информации и управления базами данных, встроенных в Longhorn — следующую версию Windows, которая должна выйти в 2006 году.

Например, экспериментальное приложение Implicit Query само обнаруживает ссылки, музыкальные файлы, электронные сообщения и другие материалы. «Оно анализирует, с каким текстом вы работаете, подбирает ключевые слова и автоматически генерирует запрос, — рассказывает старший специалист Microsoft Research по адаптивным и интерактивным системам Сьюзен Дюмайс. — Идея в том, чтобы находить нужные вещи, не обращаясь к поиску явно».

Microsoft пытается интегрировать эти инструменты непосредственно в операционную систему и приложения. «Результаты поиска должны сами ложиться на стол. Я не хочу прерывать работу, — говорит Дюмайс. — Люди тратят массу времени, по существу выполняя функции секретаря».

Создание поисковой системы, связывающей множество несовместимых файлов, — давняя заветная мечта Microsoft и излюбленный проект Билла Гейтса. В Longhorn Microsoft намерена ввести ПО, способное связывать документы, email-сообщения и веб-страницы, хранящиеся в закромах отдельных, главным образом несовместимых между собой программ. Там будет технология WinFS, частично взятая из Microsoft SQL Server, которая позволит приложениям извлекать информацию из унифицированной базы данных.

Сейчас способ хранения информации определяется типом приложения. Базы данных обычно используются для приложений, больше ориентированных на расчеты, таких как обработка банковских счетов, а файловые системы обычно применяются для работы с документами, содержащими неструктурированные данные. Проблема в том, что извлечение информации из хранилищ разного типа — задача в лучшем случае не простая.

Предложив общие механизмы хранения и поиска, WinFS должна стать мостом между неструктурированными документами и данными, хранящимися в реляционных БД. Если это удастся, результатом станут лучшее взаимодействие между данными разного типа и значительно усовершенствованные методы обзора и поиска.

Подобные инструменты позволят Microsoft конкурировать и с коммерческими поисковыми машинами, такими как Google, делая ее ПО естественной отправной точкой поиска. Ведь и проверкой орфографии когда-то занимались независимые программы. «Они не хотят опираться на чью-то чужую технологию, — говорит аналитик Directions on Microsoft Мэтт Розофф. — Позиция Microsoft такова, что в Windows надо включать максимум возможностей, и одной из таких возможностей, которые дает людям компьютер, она считает поиск».

Дюмайс не ответила на вопрос, будут ли разработанные Microsoft Research инструменты поиска введены в коммерческие продукты, и если да, то когда — подчеркнув, что многие из этих идей появились совсем недавно. И все же кое-что уже тестируется, и довольно активно. В Microsoft свыше 1000 пользователей интернета применяют Stuff I've Seen, экспериментальное ПО, осуществляющее поиск на жестком диске, а группа Дюмайс опрашивает этих бета-тестеров, стараясь выяснить, как люди ищут информацию.

Совершенствуя поиск
С точки зрения Microsoft, средства поиска применяются широко, но не слишком эффективно. Простой запрос может привести к выводу 20 или более экранов с результатами. К тому же эти результаты, как правило, плохо согласуются со вкусом пользователя или контекстом того, что он ищет. «Во многих случаях поиск — это грубая сила, — говорит Дюмайс. — Если мы вдвоем наберем запрос, то получим одно и то же, а это неправильно. Мыслящий человек никогда не ответит нам с вами одинаково на один и тот же вопрос».

Персонализация была одним из модных явлений ранних лет эры dot-com, но большинство попыток индивидуализации контента не удались. Тем не менее разработчики ПО для придания интеллекта своим продуктам все больше склоняются к байесовским моделям и другим вероятностным методам. Несмотря на сложность внутренних вычислений, их концепция довольно проста. Программа наблюдает за поведением человека в вебе, его интересами, знакомствами, работой и путешествиями, проектами и другими сведениями. На основе этих наблюдений она строит модель, пытаясь определить, что для пользователя важно, а что нет.

«Каждую неделю я встречаюсь с одними и теми же людьми. Но это может быть и не очень важно, — говорит Дюмайс. — Но вот я встретилась с Биллом Г. (Гейтсом) — человеком очень высокого ранга. Эта встреча может оказаться исключительно важной».

Эксперименты Microsoft отличаются от коммерческих поисковых машин тем, что пространством искомых данных служит локальный жесткий диск. По объему это пространство меньше, зато исхожено вдоль и поперек. Исследования показывают, что до 81% посещений веб-страниц — это повторные визиты. Следовательно, ссылки на те места, которые человек ищет, скорее всего, уже имеются в его компьютере.

Теоретически нет никаких препятствий для расширения сферы такого поиска — что позволило бы Longhorn или другим приложениям конкурировать с коммерческими поисковыми машинами. Дюмайс отмечает, что запросы могут принимать во внимание и географическое положение ПК.

Google и другие поисковые машины тоже опираются на вероятность, но их результаты, как правило, отражают предпочтения усредненного веб-серфера. Microsoft по существу занимается тем, что старается сделать их более индивидуальными.

Чтобы продемонстрировать Implicit Query, Дюмайс набрала электронное обращение к коллеге с просьбой прислать слайды для предстоящей конференции. Она не успела закончить, а программа — окно у края экрана — уже выудила все электронные письма, наборы слайдов и документы Word с названием конференции и именем адресата. Каждая позиция сопровождалась кратким описанием внутреннего содержания, датой, типом приложения, в котором создан файл, предполагаемым уровнем значимости и другими сведениями.

Добавляя подобные функции в существующие приложения, пользователи смогут упростить процесс вставки вложений в email. Дюмайс вспомнила, как однажды она составляла коллеге записку о том, что ссылка на один из сайтов ее подразделения не работает. Тогда Implicit Query откопал в ее почтовом ящике неоткрытое письмо с решением этой проблемы.

Похожий поиск выполняет и Stuff I've Seen, но не автоматически. Некоторые коммерческие системы, такие как Sherlock от Apple Computer или Microsoft Finder, в какой-то мере тоже имеют аналогичные средства индексации, но Stuff I've Seen, как указано в опубликованной документации Microsoft, охватывает более широкий спектр файлов, включая посещавшиеся веб-страницы и электронные письма.

Недавно Microsoft Research разработала мнемонический механизм Memory Landmarks. Он изучает хронологический список результатов поиска и снабжает его указателями, которые помогают пользователю быстрее получить именно то, что он ищет. Например, если в ноябре состоялись важные выборы или в декабре на диск было загружено необычно большое число изображений, собранных в файл Vacation, то рядом с результатами поиска появляются окошки, информирующие об этих значимых событиях. Сами результаты обводятся линиями — это напоминает датирование событий по древесным годичным кольцам в музее естествознания.

Работа продолжается
Из трех приложений гораздо дальше других продвинулось Stuff I've Seen, но работа еще далека от завершения. Для функционирования этой программы необходимо проиндексировать все данные на жестком диске, а это может сказаться на производительности. Интерфейс тоже требует окончательной отделки. Где лучше разместить инструментальную панель: сбоку или внизу экрана? И с каких кнопок она должна начинаться? Вот лишь некоторые из задач, которые Microsoft решает сегодня.

Например, недавно группа Дюмайс на основе опроса пользователей установила, что люди чаще всего хотят видеть документы отсортированными по дате, а не по степени важности. С сортировкой по именам определенности нет. Но и «дата» — понятие неоднозначное. Для электронного сообщения рабочая дата — это день его отправки, а для встречи — день проведения. Ранняя версия программы, где встречи обрабатывались по дате, на которую они были изначально запланированы, вызвала жалобы в первые же часы после рассылки.

Один из проектов сосредоточен на изучении группы людей, освоивших Stuff I've Seen до такой степени, что они уже не хранят документы в отдельных файлах. «Мы называем это Flatland, — говори Дюмайс. — Сейчас мы работаем с этими людьми, пытаясь понять, каково им (там)».

Предыдущие публикации:

2003-10-07		Googl’ение в будущее
2003-11-10		Интервью: Гейтс ставит на Longhorn

В продолжение темы:

2003-12-18		Плагин придает форму результатам поиска
2004-02-12		Столкновение Microsoft-Google
2004-03-05		Скажи Microsoft, кто твой друг…
2004-06-07		IBM углубляется в корпоративный поиск

Обсуждение и комментарии

	Skull - sibskullmail.ru 26 Nov 2003 9:41 AM
"Ведь и проверкой орфографии когда-то занимались независимые программы." Ага. Зато теперь правописание проверяется тупо без буквы ё, со стриптизем ежей и только в MSOffice. Я просто в экстазе от таких решений! :) "Дюмайс вспомнила, как однажды она составляла коллеге записку о том, что ссылка на один из сайтов ее подразделения не работает. Тогда Implicit Query откопал в ее почтовом ящике неоткрытое письмо с решением этой проблемы." - они там почту читают или со Скрепышом играются? Ей решение проблемы уже дали, а она только (месяцев через 5?!) его нашла. И чего все удивляются, что у MS все продукты такие глюкавые? :)))

	vIv 26 Nov 2003 10:05 AM
года через два им расскажут про проверку ссылок. это будет революция в сайтостроении.

	vIv 26 Nov 2003 10:20 AM
кхмм... а что, - МСы пока не открыли для себя сам Гугль? Им про него Мойша по телефону напевал? http://directory.google.com/Top/Computers/Software/Database s/Data_Mining/

	добрый 26 Nov 2003 10:31 AM
"Проблема в том, что извлечение информации из хранилищ разного типа — задача, в лучшем случае не простая." И ее решают федеративные запросы. Just now.

	ggv 26 Nov 2003 11:33 AM
Integrator от IBM. Только он стоит нехило.

	Black Bat 26 Nov 2003 1:36 PM
to Skull: а вы играйтесь со своим KDE и в серьёзные дела не лезьте, раз всё равно ничего в этом не понимаете

	Skull - sibskullmail.ru 26 Nov 2003 1:52 PM
2Black Bat: а вы в корпоративном управлении что-нибудь понимаете? :)

	Ёжи 26 Nov 2003 2:41 PM
"недавно группа Дюмайс на основе опроса пользователей установила, что люди чаще всего хотят видеть документы отсортированными по дате, а не по степени важности." Вот перл!!! Просто откровения!!! Глядишь запатентуют и заставят меня платить за это. Хотя нет, вряд ли: ключ к моей любимой команде 'ls -lt' появился раньше чем родилась M$ -)))).

	dem 26 Nov 2003 2:46 PM
Интерестно. Вроде Яндекс уже достаточно много сделал для распознавания смысла (что-бы небыло тупого перебора). Опять-же я скажем сисадмин. А меня переводят на должность скажем менеджера. Я хочу найдти информацию по деловому партнеру. А эта хрень запомнив меня кроме драйверов и how-to ничего не покажет?

	Black Bat 26 Nov 2003 4:37 PM
to Skull: _а вы в корпоративном управлении что-нибудь понимаете?_ ну спрашивайте что вам не понятно - пострараюсь объяснить на доходчивом уровне

	AT - 220220pager.icq.com 27 Nov 2003 7:35 AM
2dem : Неа ... Вы не правы. Если Ваша фирма опубликует пресс-релиз о переводе вас на новое место работы - то система поймет что теперь вас How-To и Drivers не интересует и будет настройчиво предлагать купить что-то :o))

	Skull - sibskullmail.ru 27 Nov 2003 9:31 AM
2Black Bat: я то как раз понимаю. Зачем мне вас спрашивать? Вы у нас немерянный спец по корпоративному управлению? :)))

	Турок 27 Nov 2003 7:13 PM
Не думаю, что вероятностные методы сильно помогут. Копать нужно в направлении ИИ для учета семантики поискового запроса.

	dum-dum 28 Nov 2003 7:29 AM
уссцца! раньше безумная скрепка с выпадающими глазами доставала, и как только большинство пользователей научились ее отключать на сцену выходит новое уродство

	Staven 28 Nov 2003 10:02 PM
2Black Bat:А вот я не спец. по корпоративному управлению, бизнес логике и т.п. и т.д. Плиз, пожайлуста объясни. P.S.Не забудте, пожайлуста, указать свою должность, буду очень признателен!!!

	Staven 1 Dec 2003 12:32 AM
Ждем-с!!

	Staven 1 Dec 2003 12:45 AM
У меня очень много вопросов про всё это- и правда, Я хотел бы получить авторитетный ответ... (ну хотя бы на часть вопросов)! Ответь плиз- готов ответить на мои вопросы или нет!?

← октябрь 2003

21 22 23 24 25 26 27 28 29

декабрь 2003 →