Что общего у веба и айcберга?

Недавнее исследование развеяло распространенный миф о киберпорнографии — и подтвердило высказываемые многими подозрения в отношении поисковых машин.

Сначала о порномифе.

Согласно исследованию, проведенному д-ром Стивом Лоуренсом (Steve Lawrence) и д-ром С. Ли Джилсом (C. Lee Giles) из NEC Research Institute, веб содержит около 800 млн страниц, содержащих примерно 15 Тбайт данных и около 180 млн изображений. Вопреки распространенному мнению о том, что веб — притон порнографии, подобный контент содержится всего на 1,5% веб-сайтов. «Секс-сайтов оказалось намного меньше, чем можно было предположить», — заключил Лоуренс. Напротив, исследование, которое будет опубликовано в номере журнала Nature за 8 июля, обнаружило, что львиная доля сайтов в Интернете — это коммерческие сайты (их 83%). Научная и образовательная информация содержится на 6% сайтов.

Объем веб-контента измерялся методом произвольной выборки — исследователи вручную изучили и систематизировали содержимое 2500 сайтов, IP-адреса которых выбирались случайным образом.

Проблема поисковых машин
Другая важная находка не станет неожиданностью для тех, кто регулярно пользуется поисковыми машинами и порталами. Согласно исследованию, с декабря 1997 года полнота охвата поисковых машин значительно снизилась: ни одна из них не покрывает более 16% индексируемых веб-сайтов. Это означает, что те, кто доверяет навигацию в вебе поисковым машинам, имеют дело лишь с надводной частью 15-Тбайт айсберга, основная масса которого от них скрыта. А для сайтов электронной коммерции не попасть в каталоги поисковых машин — все равно, что пойти ко дну.

«Из-за создавшихся неравных условий в индексы попадают наиболее известные сайты», — отмечает Лоуренс. Причина сокращения степени охвата веба, по его мнению, проста: поисковые машины не справляются с экспоненциальным ростом числа подлежащих индексации страниц. Но в этой тенденции, по его словам, должен наступить перелом: «В настоящее время много информации еще отсутствует в вебе. Но когда вся она будет уже там, лавина подлежащих индексации данных замедлится и поисковым машинам легче будет справляться со своей задачей».

Сколько же времени потребуется на укрощение информационной лавины? У Лоуренса нет точных данных, но, по грубым оценкам, — от 10 до 20 лет. Со временем поисковые машины смогут расширить свой охват, но вопрос заключается в том, нужно ли им это?

В числе других находок ученых:

Поисковые машины с большей вероятностью индексируют те сайты, на которые указывает больше ссылок (наиболее «популярные» сайты)

Американские сайты индексируются с большей вероятностью, чем неамериканские.

Коммерческие сайты индексируются с большей вероятностью, чем образовательные.

На индексацию новых или модифицированных страниц лишь одной из крупных поисковых машин могут уйти месяцы.

← июнь 1999

2 5 6 7 8 9 12 13 14

август 1999 →