Googlebot Unexplained 32-символьная шестнадцатеричная добавленная строка, вызывающая более 20 000 404 ошибок в день

У меня очень интересная проблема, которую я не могу объяснить.

Каждые 2-6 секунд googlebot (я искал IP-адрес googlebots, его реальная вещь [с использованием хост- IP ]) запрашивает страницу на нашем сайте (работает: php, apache, mongodb), которой не существует (404s). Ни один другой робот или человек никогда не запрашивал такую ​​страницу! Просто googlebot.

Запросы кажутся примерно такими:

/ 2de4f853c2853807b2e72387aa8928a4

/ ea5700c343d1a9798bc554af7c1a330e

    / e5aafa102d54ba7517703336846cc019

    Наш код не использует 32 строковых символа, и нет ссылок, похожих на внутренние или внешние данные нашего сайта. Мы используем codeigniter, поэтому сначала я думал, что это был session_id по умолчанию, я проверил, это не так.

    Кто-нибудь когда-нибудь видел что-то подобное? На нашем сайте используется history.push на некоторых страницах, может ли это быть причиной этого? Просто идея.

    Необработанные данные примерного запроса:

    array ( 'date' => '2012-12-01', 'time' => '10:01:33 PM', 'additional_data' => array ( 'server_vars' => array ( 'REDIRECT_STATUS' => '200', 'HTTP_HOST' => 'www.xxxxxxx.com', 'HTTP_ACCEPT' => '*/*', 'HTTP_ACCEPT_ENCODING' => 'gzip,deflate', 'HTTP_FROM' => 'googlebot(at)googlebot.com', 'HTTP_USER_AGENT' => 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)', 'HTTP_X_FORWARDED_FOR' => 'xxxxxxx', 'HTTP_X_FORWARDED_PORT' => '80', 'HTTP_X_FORWARDED_PROTO' => 'http', 'HTTP_CONNECTION' => 'keep-alive', 'PATH' => '/sbin:/usr/sbin:/bin:/usr/bin:/home/ec2-user/ec2/bin', 'SERVER_SIGNATURE' => '<address>Apache/2.2.22 (Amazon) Server at www.xxxxxxx.com Port 80</address> ', 'SERVER_SOFTWARE' => 'Apache/2.2.22 (Amazon)', 'SERVER_NAME' => 'www.xxxxxxx.com', 'SERVER_ADDR' => 'xxxxxxxxxx', 'SERVER_PORT' => '80', 'REMOTE_ADDR' => '10.171.147.114', 'REMOTE_PORT' => '40759', 'REDIRECT_URL' => '/e5aafa102d54ba7517703336846cc019', 'GATEWAY_INTERFACE' => 'CGI/1.1', 'SERVER_PROTOCOL' => 'HTTP/1.1', 'REQUEST_METHOD' => 'GET', 'QUERY_STRING' => '', 'REQUEST_URI' => '/e5aafa102d54ba7517703336846cc019', 'SCRIPT_NAME' => '/index.php', 'PATH_INFO' => '/e5aafa102d54ba7517703336846cc019', 'PATH_TRANSLATED' => 'redirect:/index.php/e5aafa102d54ba7517703336846cc019', 'PHP_SELF' => '/index.php/e5aafa102d54ba7517703336846cc019', 'REQUEST_TIME' => 1354428093, ), 'codeigiter_session' => array ( 'session_id' => 'c795e40a279f58d9fbbf7f5501a26787', 'ip_address' => '10.171.147.114', 'user_agent' => 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)', 'last_activity' => 1354428093, 'user_data' => '', ), ), ) 

    Что еще я могу собрать, чтобы понять это. Это очень странно.


    Обновление: трафик поступает из 2 первичных IP-адресов. 10.171.147.114 & 10.161.46.102

    Я посмотрел их, и они не GoogleBot.

    Я получил эту информацию с одного IP-сайта.

    Помните, что диапазоны IP-адресов 10.0.0.0 – 10.255.255.255, 172.16.0.0 – 172.31.255.255, 192.168.0.0 – 192.168.255.255 и 224.0.0.0 – 239.255.255.255 зарезервированы. IP-адреса для частного использования в Интернете и IP-поиска для них будут не возвращать никаких результатов.

    Что я должен делать с этими запросами? В чем смысл этих запросов? Если это тип атаки DOS, они делают очень плохую работу.

    Related of "Googlebot Unexplained 32-символьная шестнадцатеричная добавленная строка, вызывающая более 20 000 404 ошибок в день"

    Чтобы ответить на этот вопрос, проблема создавалась проверками работоспособности aws load blancer. По какой-то причине aws использует googlebot user_agent для их выполнения на наших серверах.

    Первое, что нужно сделать, это собрать как можно больше IP-адресов и найти ответ на два вопроса: 1. Можете ли вы их группировать по сетям, например 66.249.66.XXX или 66.249.XXX.XXX? Если вы не можете – это не Gbot 2. Каковы страны этих IP-адресов? Если у вас есть десятки – это не Gbot.

    Я думаю, что это не похоже на Google Bot, потому что они не имеют тенденций следить за сайтом, даже без карты с этой частотой (за исключением некоторых особых случаев, таких как новостные сайты).

    Ссылаться на

    http://support.google.com/webmasters/bin/answer.py?hl=en&answer=80553

    чтобы узнать, как распознать Gbot. Попробуйте некоторые онлайн-списки google bot ip. Они могут быть устаревшими, но все же дают вам информацию об адресных кластерах. Более того, google bot ips легко группируются по сетям.

    Вы не можете доверять HTTP_USER_AGENT, потому что третья сторона может легко подделать ее.

    Я бы сказал, что ваш сайт находится под раздельной атакой из какой-либо сети.

    Я сомневаюсь, что они пытаются угадать PHP_SESSID, отправив этот хеш. Единственная причина появления PHP_SESSID в URL-адресе заключается в том, что вы настроили PHP не хранить его в файлах cookie (я думаю, что вы этого не сделали). Гораздо проще и естественнее отправлять session_id в файлы cookie даже при атаке.

    Проверьте параметры POST и COOKIES, которые они отправляют. Это может дать вам больше информации.