Интернет-разведка. Руководство к действию

Страница: 1 ... 4546474849505152535455 ... 193

1.4.Страницы, не прописанные в форме «Добавить страницу» и не имеющие ссылок с других адресов.

В мае 2000 г. IBM провела исследования, показавшие, что количество таких страниц, неизвестных поисковым системам, достигает 20 % от общего числа адресов, которые могли бы быть проиндексированы с технической точки зрения.[5]

2. Страницы, намеренно исключенные вебмастером из индексации.

К ним как раз и относятся ресурсы, защищенные паролем или включенные в файл robots.txt либо убранные под тег <noindex>.

3. Страницы, которые требуют регистрации.

В Интернете есть ресурсы, доступные бесплатно любому человеку, который для входа на страницу должен нажать кнопку «Я согласен»: это свидетельствует о его согласии с условиями посещения сайта. Иногда вместо такого выражения согласия требуется заполнить какие-то регистрационные формы. Паук не умеет выполнять подобные действия, и потому не попадает на сайт.

4. Действительно невидимый Интернет.

Страница содержит данные в формате, недоступном поисковым машинам.

Страницы намеренно не обслуживаются поисковыми машинами по тем или иным причинам.

Информация хранится в базе данных и доступ к ней возможен лишь при условии заполнения определенной формы.

Особенности построения адресов некоторых страниц Интернета

Советуем разобраться в данном вопросе, поскольку это позволит лучше ориентироваться в Интернете, а также эффективно обходить проблемы, которые нередко возникают при попытке поставить некоторые страницы на мониторинг, с целью автоматического обнаружения изменений их содержания.

Нередко ресурс может включать одновременно и элементы видимого, и невидимого Интернета.

Иногда веб-мастера принимают меры к тому, чтобы заведомо исключить попадание своего сайта в разряд невидимых, с точки зрения некоторых поисковых машин, сохранив при этом ресурс удобным в использовании и внешне привлекательным для пользователей. Для этого в ряде случаев сайты, написанные, например, на Flash, имеют HTML-копии. Такие копии называют «зеркалами» страницы, они позволяют увидеть ее содержимое с помощью тех информационных систем, которые имеют какие-то затруднения в работе с форматом основного варианта сайта.

Прямой и непрямой URL. Динамические страницы. Еще недавно в специальной литературе, изданной за рубежом, говорилось о том, что страницы, имеющие непрямой URL, как правило, относятся к невидимому Интернету.

Сегодня ресурсы с непрямым адресом могут нормально индексироваться поисковыми машинами. Однако попытки специалистов конкурентной разведки поставить их на мониторинг могут натолкнуться на неожиданную проблему, которая, тем не менее, может быть преодолена.

— 50 —
Страница: 1 ... 4546474849505152535455 ... 193