В развитии СУБД намечается крутой поворот

В этом году IBM готовится представить первые плоды своего долгосрочного исследовательского проекта, начав тем самым новый раунд борьбы с конкурентами на многомиллиардодолларовом рынке СУБД.

В конце этого месяца Big Blue объявит о том, что к июню выйдет первый продукт в рамках инициативы Xperanto, цель которой — помочь компаниям извлекать информацию одновременно из множества источников данных, от торговой статистики до документов, хранящихся на серверах электронной почты.

Тем временем Microsoft и BEA Systems приближаются к решению той же проблемы посредством аналогичной технологии, тогда как лидер рынка СУБД Oracle предпочитает принципиально иной подход. На кон поставлено влияние на мировом рынке ПО и услуг управления базами данных, объем которого в 2001 году составлял 9 млрд $. Каждая компания надеется, что именно ее технология проложит путь к новой категории серверов баз данных или дополнительных серверов, специально предназначенных для интеграции.

Производители СУБД давно муссируют идею «федеративной», или виртуальной, базы данных, однако многочисленные попытки реализовать ее закончились неудачей из-за низкой скорости обработки распределенных запросов, рассказывает аналитик Giga Information Group Филип Рассом (Philip Russom). Немалую роль сыграла и сложность системы, а также отсутствие универсального языка представления данных, такого как Extensible Markup Language (XML).

Однако достижения последних двух лет в области технологии обработки запросов наряду с появлением более быстродействующей аппаратуры и сетей повысили шансы на успех проектов федеративных систем интеграции данных и корпоративной информации (enterprise information integration, EII). «Если поставщикам EII удастся решить проблемы производительности, то call-центры станут самым модным приложением, — говорит Рассом. — Пока же это лишь теоретический сценарий. Очень сложно найти пример предприятия, освоившего решение EII».

Система EII удобна для составления отчетов с целью анализа деятельности компании, когда быстрая реакция на изменение содержимого баз данных не требуется. У подхода федеративных данных есть преимущества по отношению к проектам хранилищ данных (data warehousing), где данные собираются через определенные интервалы времени и накапливаются в центральном хранилище. Если такой проект обычно обходится в миллиард долларов в год, то системы EII стоят десятки или тысячи долларов и обеспечивают максимально оперативную информацию.

Проект IBM Xperanto, основанный на XML, опирается на концепцию федеративного управления данными. Вместо единой большой базы данных — именно такую модель использует Oracle — в федеративной схеме создается виртуальная база, связывающая все необходимые данные. Источники данных опрашиваются там, где они находятся, а серверы СУБД консолидируют результаты и предоставляют их в распоряжение пользователей.

Сторонники федеративного подхода подчеркивают, что он позволяет сохранять данные в том формате и в том месте, где это удобнее всего, избегая новых разработок и дорогостоящих и ненадежных операций по преобразованию данных. Например, вместо того чтобы строить абсолютно новую СУБД для системы поддержки заказчиков, Xperanto-серверы позволят агентам по работе с клиентами отвечать на их запросы, поступающие через разные, несовместимые друг с другом системы. Обычными методами добиться этого нелегко, хотя и возможно.

Конкуренты IBM тоже интенсивно работают над технологией одновременного опроса разных источников данных. В прошлом году BEA Systems выпустила продукт Liquid Data for WebLogic, использующий для извлечения данных из множества источников XML-запросы.

Microsoft в первом полугодии этого года планирует выпустить бета-версию своей СУБД SQL Server с кодовым названием Yukon, которая облегчит манипулирование XML-данными из разных источников. Microsoft готовит и более крупный проект по интеграции технологии запросов в стиле Yukon в операционную систему Windows — разработки по этому проекту ведутся компанией уже десять лет.

В движение включаются и более мелкие компании, такие как Nimble Technology и MetaMatrix. «Мы уверены, что это очень важный сдвиг в индустрии управления данными, — говорит директор IBM по интеграции информации Нельсон Мэттос (Nelson Mattos). — Он ведет к переходу от управления только теми данными, которые физически находятся в системе, к федеративному подходу».

Давний спор
IBM Xperanto подливает масла в огонь давнего спора о том, как лучше управлять корпоративными данными. IBM, BEA и Microsoft защищают федеративный подход. Oracle — главный проповедник более централизованного подхода — утверждает, что обслуживать меньшее число крупных баз данных дешевле, чем большое число более мелких. Но СУБД Oracle тоже могут обращаться к разным источникам данных и работать с данными формата XML, отметил вице-президент Oracle по технологии распределенных баз данных Бенни Саудер (Benny Souder). «Мы считаем, что меньшее число крупных узлов создает экономию масштаба», — говорит он.

IBM возражает на это тем, что компании нуждаются в интеграции на разных уровнях — между источниками информации, приложениями и бизнес-процессами, — и инвестирует во все три направления. Пользуясь инструментами программирования IBM WebSphere Studio, разработчик может создать приложение, использующее возможности Xperanto, промежуточного ПО интеграции приложений WebSphereMQ и системы WebSphere Business Integrator. «Заказчики видят, что Xperanto повышает производительность труда программистов. Если они пишут приложение J2EE (Java 2 Enterprise Edition) и им нужно извлечь информацию из трех баз данных, они должны подсоединиться к каждой из этих БД, выдать запрос, извлечь данные и объединить их на уровне сервера приложений, — объясняет Мэттос из IBM. — В Xperanto же они подсоединяются и выполняют единственный запрос, получая данные, уже объединенные нужным образом».

IBM указывает на ряд внедрений в фармацевтической индустрии, где заказчики используют продукт IBM Data Joiner, специально предназначенный для обращения к реляционным базам данным и неструктурированным файлам на мейнфреймах. Кроме того, IBM старается привлечь разработчиков ПО к применению Xperanto в их собственных продуктах. Партнером IBM по Xperanto стала компания Crystal Decisions, которая продает ПО для создания бизнес-отчетов.

IBM намерена обрабатывать информацию как в реляционных СУБД, которые служат краеугольным камнем большинства бизнес-приложений, так и в системах управления электронной почтой и контентом, в которых хранятся документы. Работая со структурированными данными РСУБД и неструктурированными документами, IBM опирается на технологию XML. Будет поддерживаться и SQL (structured query language), способ обращения к реляционным базам данных, используемый всеми производителями СУБД. «Мы не верим в эффективность революционного подхода. Наши заказчики стараются использовать данные в уже существующих средах и добиться быстрой окупаемости инвестиций. А SQL — это гигантские инвестиции», — говорит Мэттос.

Первым продуктом IBM с использованием Xperanto станет специализированный сервер интеграции данных на базе флагманской СУБД IBM DB2. В него войдет инструмент разработки IBM WebSphere Studio для создания приложений, опирающихся на распределенные данные. В версию Xperanto, выпуск которой запланирован на 2004 год, IBM добавит возможность составлять запросы на XML-языке XQuery. Другие будущие версии расширят возможности поиска и анализа текстовых документов.

Предыдущие публикации:

2002-11-22		IBM DB2 заговорила на языке веб-сервисов
2002-12-15		СУБД готовятся к 64-битной баталии

В продолжение темы:

2003-01-23		Oracle: обновляйте ПО, иначе лишитесь поддержки
2003-01-27		IBM идет в наступление на документальном фронте
2003-02-03		Протокол обещает ускорить веб-сервисы
2003-02-05		IBM представляет Xperanto
2003-05-19		IBM представит интегратор информации
2003-05-22		Microsoft демонстрирует чудеса на арене СУБД
2005-03-15		IBM покупает Ascential за $1,1 млрд

Обсуждение и комментарии

	tstone - saldomail.ru 15 Jan 2003 7:15 AM
Кто-нибудь чего-нибудь понял? :)) Еще одно дополнение к "Десять самых шумных кампаний 2002 года".

	Линурас 15 Jan 2003 8:25 AM
Опять которому место у параши. Надо язать MySQL или Postgress.

	Игорь 15 Jan 2003 8:39 AM
Важен и интересен факт комплексной продажи баз, серверов среднего уровня и средств разработки. Так делает Oracle, так делает MS. Продавать по отдельности, наверное, уже невозможно.

	DemonZla 15 Jan 2003 9:23 AM
Фигня, и что им сейчас мешает в базу данных документов понапихать.... странные люди...

	Yuri Abele 15 Jan 2003 9:33 AM
Да, уж ... Похоже, что действительно никто ничего не понял Что, никто никогда не работал с METAпоисковыми серверами в Internet? - вот вам яркий пример описанной системы

	ejb 15 Jan 2003 9:39 AM
Информация из разных баз-источников (внутренние ERP, CRM и прочее, плюс внешние источники) обладает разным уровнем достоверности и детальности. Одна дает точную информацию по финансовым показателям, а в другой находятся измышления маркетолога, в третьей плановые показатели, в интернете отчет госкомстата и данные по конкурентам. А запросы нужно строить учитывая все это многообразие. Mysql здесь точно не причем :)

	zz70 15 Jan 2003 9:47 AM
Заголовок - супер. В лучших традициях желтой прессы. "Мы не верим в эффективность революционного подхода" - лейтмотив статьи. При чем же здесь крутой поворот?

	Илья - ilya1975hotbox.ru 15 Jan 2003 9:58 AM
Все это (куча разноуровневых баз данных, объединенных некоей чудо-системой) красиво только на рекламных буклетах. На самом деле разработчики повесятся, пока напишут свои приложения, а потом будут всю жизнь стрелятся из рогатки, сопровождая (дописывая и переписывая) их.

	Mikhail Elashkin - melashkibeep.ru 15 Jan 2003 11:09 AM
Какой-то бред. Проработав 7 лет в Oracle, я не понял о чем эта статья. Какая-то каша :(

	Noname 15 Jan 2003 12:04 PM
Централизованный подход Оракл обеспечивает все-же лучшую целостность и непротиворечивость данных. Смысл федеративной технологии в том, чтобы в реляционной базе хранить не данные, а описание и адреса данных. Когда вы делаете запрос, система по описанию ищет данные, соответствующие критериям запроса и выбирает их по соответствующим адресам. Затем представляет их в привычном табличном виде. Сами данные хранятся преимущественно в XML-формате. Система расчитана преимущественно на получение данных (т.е. SELECT, никаких INSERT или UPDATE). Назначение системы - ускорить доступ к данным, над которыми производятся преимущественно операции выборки. В отличие от подхода Оракл их не надо заносить в базу. Достаточно лишь занести описания и адреса - это быстрее.

	Arcady - arcady_myahoo.com 15 Jan 2003 12:05 PM
Очевидный маркетинговый ход, чтобы чем-то привлечь заказчика. IMHO, речь об очередном application-server, с которым можно общаться на XML, и который выступает в роли универсального шлюза к куче накопленного добра. К чему тогда кричать о новых технологиях в СУБД, когда речь идет об универсализации доступа к ним. Java и XML итак уже прекрасно живут в СУБД.

	Игорь 15 Jan 2003 12:33 PM
"Java и XML итак уже прекрасно живут в СУБД." - не тут - то было! Это стратегия Oracle держать большую часть бизнес- логики в том числе и Web - сервисы в базе. Обратим свой взгляд на MS. Всё наоборот! Упор делается на специализированные сервера среднего уровня. Раньше это был DCOM. Сейчас .Net, полностью поддерживающий XML и Web сервисы. Общая тенденция продавать сервисы, и база данных(в её древнем понимании) - это только малая часть системы (сервис хранения данных). В идеологии MS обьектом хранения информации может выступать всё что угодно. А чтоб все объекты выглядели одинаково - интерфейс OLE DB для всего что существует. А чтобы совсем забыть о проблемах- Web сервисы. Там даже дырочка есть с авторскими правами и куда деньги складывать...

	DemonZla 15 Jan 2003 1:20 PM
Короче я понял... это хрень которая содержит адреса других хреней и по запросу третьей хрени эту хрень высылает тому кто запросил всю эту хрень... мдаа.... весело однако :))

	Arekus - arekusngs.ru 15 Jan 2003 2:04 PM
.. По моему скромному мению данная статья воочую демонстрирует поверхностный подход крупных западных компаний (в частности я знаком еще с подобным подходом компаний фармацевтической области) к решению комплексных задач. Насколько я понял, Хперанто это просто прилабуда программера, улучшающая (leverage) поиск во всеразличных доках. Повидимому за счет создания представлений (View, реляционные базы данных) из ХМЛ и др. текстов и, скорее всего, наоборот. Думаю, что это попытка пихнуть на рынок продукт, который мог бы (теоретически) вступить в конкуренцию с дот Нетом. Потому и такая "шумиха". Кстати, одним из последствий развития данной области будет повышенные требования к грамотности управляющего (вероятно - и не только) персонала. Ведь обычно же письма на XMЛ никто не пишет ;) Ready 2 Work

	al 15 Jan 2003 4:02 PM
Кажется, в статье речь идет о том, что будет после того, как реляционная база IBM DB/2 научится выполнять XQuery-запросы. Если DB/2 сможет хранить документы, эл.таблицы, и-мэйлы и прочь. не сплошняком, а в XML-осмысленном формате и если MS Office сможет хранить свои документы в XML-формате, то можно будет и не складывать все в одну слабенькую DB/2 базу, а устроить федерацию - "DB/2 + Office" и силектить из этой "федерации" через единый IBM Xperanto. IBM и MS лучше бы научились реальные кластеры для обычной централизованной SQL-базы делать (вслед за Oracle), вместо своих псевдо-кластеров для "федеративных баз". А так как они толком не умеют централизовать все в единую базу (на мощном "реальном" кластере из могучих писюков;), как это умеет делать Oracle, то и начинается поиск аргументов о пользе федерации для дивелоперов :)

	Игорь 15 Jan 2003 4:21 PM
al - 10 баллов! ...и пока есть отсутствие единых универсальных стандартов - есть место и для скромных программеров, клеящих несклеиваемое и совмещая несовместимое.

	C3Man 15 Jan 2003 9:27 PM
кто-то уже сказал тут, это в большей мере маркетинг....проблема то какая в американской корпорации в ети дни? интеграция разрозненных (какждая в отдельности неплохая) систем. Создаётся ажиотаж, попадает ето дело в прессу - подготавливая средний и высший менеджмент к будущим растратам....и незабывайте первый месяц-полтора в начале года - это период в который подготавливается бюджет на етот год....делате выводы....

	Mikhail Elashkin - melashkibeep.ru 16 Jan 2003 1:54 PM
С удовольствием почитал. Все таки надо писать статьи в которых намешать разной информации и сдобрить кричащим заголовком. Народ потом сам разберется и перепишет все как надо :)

	Сергей Кузнецов - kuzlocispras.ru 17 Jan 2003 2:02 PM
Ребята, у меня такое впечатление, что вы ничего, кроме zdnet не читаете. Какие-то странные и абсолютно не технические отклики. Да, статейка сама по себе дурацкая. Ее могут понять только люди, занимающиеся аналогичными вещами. Но почитайте хотя бы http://www.almaden.ibm.com/software/dm/Xperanto/Xperanto.200 1.pdf, чтобы понять, о чем на самом деле идет речь. А можете почитать нашу white paper http://www.ispras.ru/groups/modis/downloads/UML-XML%20White% 20Paper-revised.doc.

	ggv 19 Jan 2003 7:54 PM
Работая уже давно с DB2, и как мне кажеться, понимая "менталитет" базы и направление ее развития, я понял статью немного по другому. Речь идет не о хранении описания информации в базе, и адреса информации, а о полном распаралеливании. В том числе и запросов. Кстати, работает эта фигна в DB2 классно, хотя тут были нападки ораклистов :) Если коротко, то поступивший запрос распаралеливаеться и отправляеться к разным базам, которые зарегистрированны, там запрос выполняеться средствами конкретной базы в традиции этой базы и ответ возвращаеться центру, получившему первоначальный запрос от клиента, который уже и производит окончательную доводку данных для представления клиенту. Учитывая то, куда IBM прикладывает услилия в DB2, мне кажеться я понял статью верно. Кстати, с базами db2 такой вот кластер (полное распаралеливание запроса) работает просто на ура. То есть если у вас 5.000.000 строк, вы их разбиваете на 5 баз по 1.000.000 строке, меняете два конфигурационных параметра (имя нода и номер базы) и клиент может логиниться к любой из этих 5 баз и слать запрос, который выполниться на всех 5 базах, результаты сольються на одну к которой присоединен клиент, join и отправка клиенту. Теперб представим что вместо однородных баз db2 у нас 5 разных - иерархическая IMS, Adabas, LDAP, текстовые файлы, и несколько реляционных. Опять же схема работы прежняя - клиент коннектиться к "специальной базе" где описаны все хранилища и которая распаралеливает запрос, отправляя его клнкретным исполнителяь. Так что это не просто так XML примочка, XML здесь выступает просто в роли универсального описателя, данных, для транспонтировки между такими разными системами. ПОчитайте на сайте IBM. Иногда интересные вещи есть. Ну хотя бы по поводу multidimensional clustering indexes. Да и по воводу управления памятью. С тез пор как IBM стала принимать во внимание unix-market возможности DB2, которые уже "стары" на mainframe'ах , начались портироваться на unix версию - конкуренты отдыхают. Но это мое личное мнение. Я вот еще жду когда скажуться результаты приобретения IBM'ом Informix'а, я лично жду имплементации DataBlade в DB2. тогда это уже будет просто монстр. Хотя в целом статься абсолютно невнятная и допускает двоякие толкования. Кстати - internal stuff of IBM (Toronto lab) иногда отвечает на вопросы в db2 mail-list.

← декабрь 2002

9 10 11 13 14 15 16 17 20

февраль 2003 →