Интернет-разведка. Руководство к действию

Страница: 1 ... 4243444546474849505152 ... 193

Паук никоим образом не может узнать о существовании подобной страницы, а потому никогда ее не посетит.

Эти страницы, кстати, могут представлять большой интерес для конкурентной разведки, поскольку на практике известны случаи, когда на них содержались эксклюзивные предложения для некоторых клиентов. Информация такого рода ориентирована на целевые группы и выкладывается на сайте, клиентам же присылаются ссылки на нужные страницы. Последние представляют бесценную находку для компаний, работающих на рынках с высокой конкуренцией, поскольку содержат ответ на вопрос о том, по каким ценам соперник реально продает свою продукцию.

Мы сталкивались с ситуацией, когда компания смогла вычислить алгоритм составления адресов таких страниц конкурентом, после чего была долгое время в курсе всех его специальных предложений – до момента смены системного администратора конкурента.

Примеры поведения поисковой машины при посещении страницы в Интернете

Придя на страницу, паук первым делом определяет, есть ли на сайте что-либо, что его владелец запрещает индексировать.

Подобный запрет может быть реализован двумя способами. Первый заключается в том, что на сайте создается специальный файл robots.txt либо используется особый тег – так называемый, метатег <noindex>. В этот файл или под метатег «прячут» содержимое страницы, которое, по мнению владельца контента, не должно индексироваться поисковыми машинами.

Единственное отличие между ними состоит в том, что <noindex> работает на той странице, на которой он расположен, тогда как robots.txt может быть использован с целью предотвращения индексации любых отдельных страниц, групп файлов или даже всего веб-сайта.

По своей сути, никаких технических препятствий для индексирования содержимого ресурса этот способ не создает. Однако большинство поисковых машин с уважением относится к подобному способу защиты контента, который, как правило, не попадает в информационные системы. Наиболее близким аналогом столь действенного ограничения доступа в реальном мире можно считать таблички «м» и «ж» на дверях общественных уборных.

На наш взгляд, метод ограничения индексирования с помощью файла robots. txt или метатега <noindex> потому получил столь большое распространение, что он препятствует работе пауков, но не мешает людям просматривать содержимое страниц без каких-либо ограничений.

Второй способ охраны контента значительно надежнее первого и заключается в том, что страница защищается паролем. Паук технически неспособен вводить пароль. Однако и человек, прежде всего, должен этот пароль знать, а кроме того, ему необходимо потратить время и приложить усилия для того, чтобы его ввести. При такой защите ресурса работает уже не этический, а технический способ ограничения индексирования.

— 47 —
Страница: 1 ... 4243444546474849505152 ... 193