О проблеме веб-энтропии

КОММЕНТАРИЙ — Пока Microsoft и другие компании делают ставку на широкополосный доступ, веб-сервисы и другие замечательные технологии, многие из нас замечают странное явление веб-энтропии — постепенную деградацию веба. Она охватывает все аспекты Всемирной паутины, включая подключение к самим страницам.

Явление энтропии — не такая уж новость, поэтому большинство наблюдателей игнорирует связанные с ним проблемы. Например, с самого момента появления веба в нем копятся адреса, возвращающие ошибку page not found, так как соответствующие страницы просто перестали существовать. По этой причине Google и другим подобным сайтам приходится кэшировать эти страницы, чтобы их можно было найти даже в случае исчезновения оригиналов. Ошибку 404 прибрала к рукам Microsoft, уводя наткнувшихся на нее пользователей на специальный поисковый сайт.

Годами наталкиваясь на страницы 404, веб-серферы уже не удивляются невозможности попасть в то или иное место Сети; мало кто рассматривает такие проблемы как часть более общей деградации. На самом деле мелкий разработчик веб-страниц, который не в состоянии поддерживать их дольше нескольких лет, являет собой отражение более глубокой проблемы. Просто первым ее проявлением стали мелкие пользователи, не имеющие средств или ресурсов для продолжения работы. Можно предположить, что существует миллион или больше не обновляемых много лет страниц. Несколько месяцев назад я наткнулся на веб-сайт, созданный моим любимым художником, и решил приобрести у него картину. Оказалась, что эта картина продана три года назад. Возможно, сама по себе ошибка 404 и не такое большое зло, однако веб становится слоновьим кладбищем старых, бесполезных страниц. Они продолжают скапливаться там миллионами.

Казалось бы, это не очень страшно, так как страницы эти безобидно лежат себе на серверах, в которых еще полно места. Но на самом деле такие никому не нужные страницы, не представляющие ни информационного, ни исторического интереса, похожи на бревна, засоряющие русло реки. Поисковым машинам приходится сгребать их своим механизмом индексирования, продираясь сквозь эти завалы. Все веб-краулеры регулярно сталкиваются с подобными вещами.

Эффект энтропии начинает ухудшать работу системы поиска. Мне больше других нравится Google, но недавно я заметил некоторые проблемы и у него. Кое-что Google не выводит в начало списка, так что приходится перефразировать запрос. Но ведь идея Google заключается как раз в том, чтобы этого не делать: вы просто записываете свое пожелание, а остальную работу выполняет поисковая машина. Но с ростом энтропии добиться этого сложнее и сложнее.

Ситуация становится все серьезнее. Толпы мелких разработчиков, сходя на обочину, перестают поддерживать свои страницы, лишая надежды на будущее и более уважаемые сайты. Она покинула уже очень многих. Я, как вам известно, поддерживаю сайт www.dvorak.org/home.htm в качестве первичного инструмента поиска, указывающего на наиболее полезные каталоги и важнейшие сайты на разные темы. Ведение этой страницы сопряжено с бесконечными пустыми хлопотами, так как сайты то и дело либо выходят из строя, либо радикально меняют ориентацию. Несколько лет назад существовал сайт с простой в применении базой данных всех театральных справочников страны. Затем он был продан и превратился в обычную киноафишу, то есть стал бесполезным. Я нашел другой, почти столь же удобный сайт, но и он со временем исчез.

Большинство справочников, таких как разнообразные телефонные книги, консолидировалось. Теперь мы имеем множество фронт-эндов, которые используют один и тот же бэк-энд, купленный у того или иного информационного реселлера. Когда этот реселлер уходит из бизнеса или закрывает его по каким-то причинам, все эти фронт-энды враз перестают работать. Единственным постоянным игроком все эти годы остается Yahoo!. Но даже Yahoo! чрезмерно разросся и взял на себя слишком много, чтобы оставаться на плаву. К тому же и сам Yahoo! издавна проявляет признаки энтропии в своем каталоге, личных объявлениях и других разделах сайта.

Не следует упускать из виду и спам, который вносит эффект энтропии в интернет в целом. Эпидемия спама поражает все: от электронной почты до новостных групп. Чтобы избавиться от него, нужно только этим и заниматься. И зло это, как вы, наверное, заметили, не проходит, а только усугубляется.

Ухудшение ситуации со спамом затуманивает всю картину интернета. Заваленные спамом, мы не замечаем изменений; а отсутствие инструментов, подающих надежду на решение проблемы, делает пейзаж и вовсе беспросветным. Широкополосные каналы еще надо прорыть. А если существующие темпы нарастания веб-энтропии сохранятся, то за десяток лет вся система рухнет под собственной тяжестью и станет абсолютно бесполезной. И с чем мы останемся? Выживут только закрытые системы вроде AOL. И сделать ничего нельзя, хоть стреляйся.

Предыдущие публикации:

2001-07-05		Хакеры учатся консервировать спам
2001-11-26		Поисковые машины ищут что надо и что не надо

Обсуждение и комментарии

	Мичурин 27 Dec 2001 3:04 AM
Дурацкий ваш Интернет, потому что. Технология каменного века. Даже веб-сервисы и XML вряд ли толком чего-то изменят. Единственное решение - переписать Интернет с нуля, построив его на совершенно иных принципах.

	Павел 27 Dec 2001 4:59 AM
Слушай, Мичурин, сделай одолжение - отключись от НАШЕГО интернета, и сделай свой типа как надо, глядишь, мы тебе за него может еще и деньги платить станем. Слабо? А если серьезно, то проблема замусоривания поисковиков только в том, что все они ищут исключительно слова и сочетания. Нет даже примитивного интеллекта, который бы "понимал" о чем спрашивают и сопоставлял со смысловым содержанием документов. Никакого искуственного интеллекта пока и в помине нет, нигде, есть только примитивно-ассоциативные "матрицы". Более или менее сложные, но по сути примитивные - хэши и индексация.

	Мичурин 27 Dec 2001 6:49 AM
"Никакого искуственного интеллекта пока и в помине нет, нигде, есть только примитивно-ассоциативные "матрицы". Более или менее сложные, но по сути примитивные - хэши и индексация." Ну ничего себе. Уже пол-века всякие там доценты работают над AI, а оказывается, кроме хешей и индексации ничего так и не выдумали! Интересно, тебе слово NLP говорит хоть о чём-нибудь?

	Александр - inset_groupmtu-net.ru 27 Dec 2001 9:42 AM
Доцент - всего лишь преподаватель и, к тому же, невысокого ранга. А если серьезно, то все поисковые машины действительно ищут без признаков соображалки, а ученые, занимающиеся IP, считают неинтересным любые прикладные задачи. Сами же владельцы поисковиков (и даже Сережа Брин из Googl) не заинтересованы в получении хорошего поискового средства. Знаю это по личному опыту, т.к. сделав отличную "умную" машину, предлагал её и получил везде или отлуп или молчание. Молчат два года и наши и американы.

	Leo - leonidsurf-com.com 27 Dec 2001 10:17 AM
Мнение о том, что Интернет рухнет под собственной тяжестью я впервые услышал где-то в 90 году, когда и не знал толком, что такое Интернет. И что самое интересное - в тех же самых выражениях!Это примерно то-же самое, что и загнивающий капиталистический Запад, как нас учили в школе (если кто еще помнит...). Запад все так-же красиво загнивает, а Интернет уже 10 лет рушится. На самом деле это саморегулирующаяся система - а любая такая система стремится к равновесию - не трогай ее и равновесие будет, как в природе - выживает сильнейший и т.д. Как программисту мне смешно слышать о каких-то старых страницах и т.п. - это все элементарно чистится и выбрасывается - было-бы желание, софтвер можно слепить любой. А поисковики - они деньги зарабатывают и пока старое работает - хрен они за новое будут платить - невыгодно. Вот, когда петух клюнет... P.S. А быстрачя связь - это революция в сети.

	геолог 28 Dec 2001 1:03 AM
Я одни раз уже не поверил Джону Двораку, когда он написал, что скоро из всех архитектур останется только РС, было это году в 1993 примерно, когда и SGI, MAC, SUN, IBM, HP, ощущали себя прекрасно, а альфа ставила рекорды не оставля вроде никому никаких шансов, да еще стояли удивительные NEXT. Теперь по скорости счета РС грохнули всех, практически все расчеты можно на них выполнить, при необходимости объединяя в кластер. SGI осталось жить несколько месяцев, Джобс получил свой 1 доллар зарплаты за год. Солнышко вдребезги проиграло гонку процессоров и реально у них ничего не осталось, кроме солярки и массы установленного оборудования, альфу со всеми потрохами купил Intel. Маки доживают свои дни в специфических нишах, где им все меньше и меньше остается места. HP практически ушла с рынка рабочих станций. Хорошо себя ощущать продолжает IBM, у которой получается играть на всех рынках. К чему все я это? К ому что прогнозы у Дворака не такие уж и смешные. Подождем 5 лет. Internet конечно не рухнет, но поисковики сильно модернизируются, и при первом же улучшении инвестиционного климата новые команды тут же получат деньги на новые поисковые машины. Скорее всего они будут сначала специальными. Порталов останется штук пять, больше и не надо, универсальных поисковиков тоже не больше трех-пяти. Про АОL вывод скорее всего правильный.

	Гоблин 28 Dec 2001 7:29 AM
По воду интеллекта :) поисковых систем наберите www.ya.ru или www.yandex.ru и попробуй поискать слово геморрой... см. п.9 или уже может п.8 или п.10 вот вам ваш интеллект :)))) А энтропия растет причем гораздо быстрее чем описывается в данной статье так что автор прав на 100%

	Мичурин 28 Dec 2001 8:30 AM
Гоблин :))) Leo "...равновесие будет, как в природе - выживает сильнейший и т.д." В том-то и дело, что сильнейший, а не полезнейший или там совершеннейший.

	Qrot 28 Dec 2001 10:36 AM
2геолог: вряд ли универсальные порталы вообще останутся, скорее всего будет до бениной мамы малюсеньких портальчиков а-ля справочные IRL.

	Мичурин 28 Dec 2001 12:53 PM
Кстати. Интересно, какое отношение эта самая "энтропия" может иметь к "проблеме веб". Я ещё понимаю, когда энтропия в термодинамике. Или в теории информации. Ну а тут она каким боком, спрашивается?

	Qrot 28 Dec 2001 1:05 PM
2Мичурин: дык веб самое натуральное хранилище информации и есть. и информация в этом хранилище типа рассеивается :)

	Мичурин 28 Dec 2001 8:33 PM
...и скорость рассеивания информации обратно пропорциональна температуре сети :) Эту самую "энтропию" куда хошь запихнуть можно, было бы желание. К примеру, видел, как обосновывали тезис об упадке нравов среди молодёжи таким вот способом :)

	CHOP 29 Dec 2001 9:21 AM
2геолог: смешно читать. загляните в любой банк в любой евромейской стране (даже в Испании). вы не найдёте там ни одного писюка -- все на маках. загляните у нас в любое издательство, вам там скажут, что "хорошую вещ писюком не назовут" -- маки и альфы. и чего это Россия закупила первую Инферну? толи от того, что SGI загибается, толи от того, что нормальную видео продукцию можно делать только на SGI, но O2 уже прошлый век -- не тянет столько рекламы? а вы как из каменного века вещаете: писюки всех сделали...

	Павел 29 Dec 2001 8:07 PM
Вообще-то не факт, что рассеивание (распределение) информации по вебу - это плохо. Возможно, это как раз способствует его выживанию - если все на одном серваке и он рухнул (или конкуренты съели) - это кранты, а если у него было 20 зеркал и еще 3000 машин содержали какие-то куски информации с него - то какие проблемы? Только найти. Но, чем больше копий конкретной инфы, тем легче такую копию найти. Проблема существует в том, чтобы найти именно то, что надо, и чтобы поисковая база была обновляема с достаточной скоростью. Т. е. грубо говоря, насколько интернет способствует переводу информации в состояние "вездесущего эфира" настолько же поисковики должны обладать способностью эту инфу из "эфира" добывать и "сжижать" для употребления. Без интеллекта им это делать все сложнее и сложнее. Кстати, о наличии/отсутствии искусственного инта имхо можно прекрасно судить по состоянию автоматических переводчиков текста с языка на язык - как только появится такой, который сможет "пересказать" текст на другом языке, а не просто подставить "фразы из базы", вот тогда реальный компьютерный разум будет где-то очень и очень близко. А нынешние "AI" это, по выражению Лема, скорее "искусственный инстинкт", причем уровня осы или мухи.

	Мичурин 31 Dec 2001 4:58 AM
"поисковики должны обладать способностью эту инфу из "эфира" добывать и "сжижать" для употребления. Без интеллекта им это делать все сложнее и сложнее." Угу. Особенно, если учесть, что Интернет для этого не предназначен! Весь Интернет, по сути, является гигантским массивом, структурой типа Dictionary (как это по русски?) содержащей бинарные файлы/потоки, проиндексированных по ключу - названию урл. Это - всё!! Ну какой тут эффективности поиска может идти речь??? Так что всё дело тут в том, что у Интернета нет сколько-нибудь сложной и пригодной для практического использования структуры. Единственное, что может несколько изменить ситуацию - повсеместное использование XML и веб-сервисов на базе более-менее стандартных, типизированных типов данных. Только тогда можно будет представить его как глобальную базу знаний, а не помойку из html и jpeg. "А нынешние "AI" это, по выражению Лема, скорее "искусственный инстинкт", причем уровня осы или мухи." Сколько эволюции потребовалось, чтобы достичь уровня осы или мухи? Так что всё путём. Да и не видал я мух, способных _учиться_ тому или иному поведению, распознаванию речи, образов, классификации текстов по тематике и обыгрывающих гроссмейстеров.

	Ilya 6 Jan 2002 12:08 AM
Интернет будет таким, каким есго сделаем мы. Да, это действительно самоорганизующаяся система, что не означает, что она сорганизуется сама собой в нечто очень полезное. Экосисоема Земли тоже сомоорганизуется, но мы не можем исклюисть возможножность того, что наши действия заставят ее сорганизоваться в нечто для нас совсем неуютное. Что касается предсказаний Дворака, то не нужно забывать чем он зарабатывает на хлеб, и принимать в рассчет его тягу к пышным, резким, дерзким, но по сути неглубоким заявлениям. С энтропией в Интернете сталкивался любой из нас, поэтому сама суть проблемы, судя по вашим высказываниям, понятна всем. Кому из нас не хотелось бы, чтобы Интернет был своеобразной глобальной энциклопедией, включающей не только пыльные знания прошлых поколений, но все то, чем живет мир сегодня, причем с возможностью быстро и эффективно находить интересующую нас информацию, все связанное с ней и возбудившее наше любопытство по мере поиска, и быть уверенными, что все это самое свежее, самое достоверное, самое-самое. И при том с возможностью оградить от посторонних то, что им не преднозначено. Утопия - скажете вы, и будуте правы, поскольку вы по мере чтения этих пожеланий отмечали про себя проблемы, стоящии не пути их воплощения. Но при этом вы понимаете, что каждая из этих проблем может быть решена хотя бы частично, что означало бы коллосальный шаг из той информационной свалки, в которой мы находимся. Я думаю, что этот шаг можно будет сделать только тогда, когда потребность в таком Интернете станет насущной, а это произойдет с неизбежностью, просто потому, что уже сейчас есть много сил, заинтересованных в увеличении нашей зависимости и потребности в Интернете. Но это может случится слишеом поздно, и сформируется другая менталтность в отношении Интернета. Уже сейчас есть к тому симптомы - правительственный Интернет в Америке, Итнернет2 для некомерческих (научных) учереждений, АОЛ и т.д. И если такой подход победит, мы многое утратим. Что касается Искусственного Интелекта, то в полной мере для целей поиска его в ближайшем будущем реалищовать не удастся, я знаю состояние дел на сегодня, но в отдельных задачах поиска и классификации те или иные решенея возможны уже в рамках существующих технологий.

	Павел 6 Jan 2002 5:32 AM
2 Мичурин: Ты не путай байты с транзисторами, "Интернет не предназначен", видите ли ;-))) Для чего предназначен 1 (один) нейрон в голове? А набор нейронов? А собственно голова? Дело ведь в чем? Интернет - это распределенное хранилище данных. А "головы" для осмысленного употребления этиз данных пока нет. Но будет. XML - не панацея, а если по-моему, то вообще полное г##но. Возмем обычного homo sapiense окончившего восемь классов. Почему он понимает что такое "кошка" даже если она не записана как <зверь><млекопитающее><четвероногое> <хвостатое> кошка <имя> Муська </имя> </хвостатое> </четвероногое> </млекопитающее> </зверь> ??? Да потому что у этого восьмикласника есть какой-никакой разум, и он способен определить по смыслу, о кошке ли идет речь или о тройном крюке типа "кошка". Подстройка языка под умственные способности дебила никогда не сделает дебила разумным. Наоборот, чем разумней существо, тем больше оно способно понимать без растолковывания каждого термина. Не интернет должен быть в XML а база знаний поисковика. Да и то - не в XML где все заранее иерархически должно быть задано, а в чем-то более гибком и ассоциативном. К вопросу о мухах. Где ты видел программы, способные классифицировать тексты по СМЫСЛУ, а не по частоте встречающихся слов, способные учиться распознавать НЕЗНАКОМЫЕ языки, способные вырабатывать НОВЫЕ aлгоритмы поведения и обыгрывающих людей в РЕАЛЬНЫЕ игры ( а не примитивные матзадачи на комбинаторику АКА шахматы и т. п.) - со случайными помехами и неучтенными величинами? Вирус гриппа тоже, пАнимаЭшь, мутирует - "учится" обходить вакцины и антитела - но кто сказал, что эта дрянь обладает интеллектом?

	Мичурин 6 Jan 2002 10:38 AM
"Интернет - это распределенное хранилище данных." Интернет - это распределенное хранилище БЕССМЫСЛЕННЫХ для машины данных. А мы ещё удивляемся, почему же машины не могут в нём разобраться. "Подстройка языка под умственные способности дебила никогда не сделает дебила разумным." Ну, по крайней мере, хоть _что-то_ этот дебил делать научится :) "Где ты видел программы, способные классифицировать тексты по СМЫСЛУ, а не по частоте встречающихся слов, способные учиться распознавать НЕЗНАКОМЫЕ языки" А что такое смысл вообще, как ни ассоциации с жизненным опытом? Так что до тех пор, пока машинам не привинтят ноги, руки и голову, ну или не вколотят базу знаний вроде CYC (что нереально) - смысл выражений естественного языка они понимать, конечно же, не будут. "способные вырабатывать НОВЫЕ aлгоритмы поведения и обыгрывающих людей в РЕАЛЬНЫЕ игры ( а не примитивные матзадачи на комбинаторику АКА шахматы и т. п.) - со случайными помехами и неучтенными величинами?" А вот это - пожалуйста. Вообще-то говоря, в области Machine Learning появились очень хорошие наработки, многое из того, о чём ты говоришь они уже делают. Это кой-какие программеры тут сидят, и кроме ООП и XML ни о чём и не слышали.

	vaso - vasorambler.ru 10 Jan 2002 6:44 AM
все довольно проще на самом деле. интернет и правда для поисковых машин всего лишь хранилище данных, и ни о каком искусственном интелекте в поиске информации по интернету говорить конечно же не приходится. но можно поставить более простые задачи, которые решаемы и на сегоднейшний день. по-моему самым разумным решением является создание _очень_ хороших порталов и катологов, вести которые будут эксперты. сейчас в интернете громадное количество различнейших порталов, некоторые из них содержат очень полезные ссылки, некоторые создаются один раз в рамках какого-то проекта, и потом про них забывают, некоторые содержат громадное количество ссылок на все подряд. оснавная задача - уменьшить количество таких порталов, создать портал, которые содержал бы ссылки информацию по практически всем возможным отраслям, а главное, эта информация должны быть "проверена", ей присвоена какая-та оценка, и категория, ключевые слова и пр. должно быть точно определено, эту работу должны будут выполнять люди - эксперты. важнейшим аспектом такого проекта должна являеться хорошо налаженная обратная связь с пользователями - они смогут высказывать замечания, обсуждать ресурс, добавлять ресурсы на рассмотрения экспертов, выставлять свою, пользовательскую оценку ресурсу и пр. еще, конечно-же, одним из решений может быть создание опять таки очень хорошей интернет-энциклопедий. главное, что бы такие ресурсы имели хорошую поддержку, то есть данные постоянно обновлялись, ссылки на ресурсы отражали текущие состояние дел. у всех этих идей один минус - дорого это все ;) проще по старинке - загнать все в поисковую базу, нисколько не смотря на то, что туда заносится, опубликовать на портале все возможные ресурсы, при этом большая часть из них будет содержать абсолютно одинаковую информацию.

	Ktyz - Ktyzmail.ru 18 Jan 2002 11:29 AM
Я смотрю тут многие впрягись интернет спасать :))) Да хрен с ним! Сохраните ваши комментарии и прочитайте через пару лет, будет немного смешно и грустно...

← ноябрь 2001

20 21 23 24 25 26 27 28 29

январь 2002 →


© 1997-2008	info@media.algo.ru \| реклама у нас Техническая поддержка - ADT Web Solutions