Методы создания клоакинга

На сегодняшний день в интернете существуют несколько разных методов для проведения клоакинга. И заключаются они как раз в том, как распознать робота или посетителя.

После того как создаётся сайт, он отправляется на хостинг, где его посещаю поисковые системы (их пауки), роботы (граберы, парсеры) и посетители.

Пауки поисковых систем заходят на сайт с разной периодичностью, от одного раза в день до сотен раз в день. Зайдя на сайт, они обходят несколько страниц, и собирают с них нужную им информацию для проведения анализа.

Роботы, так называемые граберы и парсеры, это программы для сбора информации с сайтов. Они заходят на ваш сайт, и забирают с него нужную им информацию для разных целей. На пример, роботы проверки ссылок (ALink, Link Valet Online), системы проверки правильности разметки (W3C_Validator, WDG_Validator), исследовательские программы (citenikbot, CLIPS-index, GentleSpider) и другие.

Посетители, они же пользователи интернета, которые также как и роботы приходят на сайт для получения информации.

Разница между роботами и посетителями в том, что они используют разные инструменты для получения информации. Роботы заходят на сайты используя протокол HTTP, а посетители используют программное обеспечение (Internet Explorer, Chrome, Mozilla и др.) для визуализации контента на сайте. Важно отметить, что данные программы также используют протокол HTTP, для получения данных сайта.

На сегодняшний день в интернете существуют несколько разных методов для проведения клоакинга. И заключаются они как раз в том, как распознать робота или посетителя. Для распознавания, используют 4 технологии, которые анализируют полученные данные:

  1. 1

    Проверяют поле User-Agent. Данное поле содержится в заголовке каждого запроса. Оно содержит информацию о посетителе, кто именно посетил ваш ресурс. Если пользователь зашёл используя программу Mozilla, тогда мы увидим заголовок следующего вида: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:19.0) Gecko/20100101 Firefox/19.0 А если вас посетил робот поисковика Google, тогда в поле User-Agent мы увидим: DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

    Всё вроде как хорошо, но существует одна проблема. Заголовок User-Agent легко подделать, таким образом выдав себя посетителем или наоборот поисковой системой, можно легко разоблачить клоакинг.

  2. 2

    Второй метод проверяет поле Referer, передаваемое программой посетителя. Данное поле содержит данные, от куда перешел посетитель на сайт. Если посетитель перешёл на ваш сайт с поиска Yandex, то данное поле будет содержать: http://yandex.ru/yandsearch?lr=130&msid=22863.28954.1361526462.2743&text=text

    Этот метод ненадёжен, по тем же причинам как и предыдущий. Поле Referer, легко можно подделать, вписав в него всё что угодно.

  3. 3

    Метод, блокировка по IP. Этот метод более надёжней двух предыдущих, так как подделать IP адрес намного сложнее. Для того чтобы определить IP адрес поисковой системы, требуются данные всех IP адресов поисковых систем, а их у Yandex и Google сотни тысяч.

    Главная проблема данного метода это поддержка актуальности IP адресов для каждой поисковой системы.

  4. 4

    Четвёртый метод он совокупный метод, состоящий из проверки поля User-Agent и проверки IP адреса.

    Недостатки данного метода, совокупность недостатков обоих предыдущих методов. Поддержка актуальности IP адресов, и подделка поля User-Agent.

Существует ещё один метод который не описан в интернете. Это глубокий интеллектуальный анализ данных (Data mining). Алгоритм на основе проделанного анализа, позволяет определить поисковик это или нет с точностью 99.9%. Данный метод самообучающийся, таким образом он может сам пополнять базу данных, обновляя и дополняя базу IP адресами поисковых систем.