Интернет-разведка. Руководство к действию

Страница: 1 ... 4445464748495051525354 ... 193

К таким сайтам относится биржевая информация или, скажем, сведения о прибытии авиарейсов (рис. 2). Эти ресурсы обычно причисляют к невидимому Интернету, но не потому, что их технически нельзя проиндексировать, а потому, что их индексация не имеет практического смысла.

Рис. 2. Пример мониторинга движения рейсов на сайте www.airagency.ru

Вариант 4. Паук попадает на страницу, которая содержит текст в формате, не поддерживаемом данной поисковой машиной.

Например, Рамблер, как мы уже говорили, не поддерживает документы Power Point (.ppt). Ряд поисковых машин не индексируют документы в Postscript-файлах (это формат, в котором могут сохраняться для передачи в типографию файлы, созданные в программе Microsoft Publisher). До недавнего времени к таким форматам относился и PDF, однако сначала Гугл, а за ним и остальные поисковые машины стали индексировать подобные документы. Первоначально ограничение в работе с PDF-файлами было обусловлено тем, что на каждый новый формат приходилось расходовать дополнительные средства, распространенность же PDF-файлов вначале была невелика. Однако, по мере того, как правительственные организации многих стран стали выкладывать в Интернет документы именно в этом формате, поисковые машины начали с ним работать.

Вариант 5. Паук находит базу данных, запрос в которую выполняется через веб-интерфейс.

Причины, по которым такая база не может быть проиндексирована спайдером, следующие:

– страницы генерируются динамически, в ответ на запрос;

– протокол базы данных может не стыковаться с протоколом поисковой машины;

– доступ к базе требует введения логина и пароля (особенно, если дело касается платных ресурсов).

Четыре типа невидимости в Интернете

Традиционно выделяют четыре типа невидимости содержимого Всемирной Паутины, сформулирванные Крисом Шерманом и Гэри Прайсом.

1. Невидимость, обусловленная настройками пауков и их естественными особенностями (так называемый, «серый Интернет» ). «Серый Интернет» имеет несколько возможных вариантов.

Ограничение глубины проникновения паука на сайт, настроенное владельцами поисковой машины.

Изменения страниц, происходящие уже после посещения страницы пауком.

Ограничение максимального количества показанных в выдаче страниц.

Если, например, Яндекс в выдаче представил пять тысяч страниц, то посмотреть более одной тысячи не удастся – он их просто не покажет. Во всяком случае, так обстояло дело на момент написания книги. Исправить ситуацию можно за счет использования операторов запросов. В результате, количество страниц в выдаче уменьшится, с одновременным увеличением релевантности.

— 49 —
Страница: 1 ... 4445464748495051525354 ... 193