Articles of robots.txt

PHP file_exists () для URL / robots.txt возвращает false

Я попытался использовать file_exists (URL / robots.txt), чтобы увидеть, существует ли файл на случайно выбранных веб-сайтах, и я получаю ложный ответ; Как проверить, существует ли файл robots.txt? Я не хочу запускать загрузку до проверки. Использование fopen () будет делать трюк? потому что: возвращает ресурс указателя файла при успехе, или FALSE при ошибке. и я предполагаю, […]

Google игнорирует мой robots.txt

Вот содержание моего файла robots.txt: User-agent: * Disallow: /images/ Disallow: /upload/ Disallow: /admin/ Как вы можете видеть, я явно запретил всем роботам индексировать images папок, upload и admin . Проблема в том, что один из моих клиентов отправил запрос на удаление содержимого из папки с изображениями, потому что .pdf-документ из папки с images появился в […]

Идеи BOT / Spider Trap

У меня есть клиент, чей домен, похоже, сильно ударит по тому, что кажется DDoS. В журналах это обычные пользовательские агенты со случайными IP-адресами, но они слишком быстро перелистывают страницы, чтобы быть людьми. Они также, похоже, не запрашивают никаких изображений. Кажется, я не вижу никакой картины, и мое подозрение – это парк Windows Zombies. У клиентов […]

Как заменить файл robots.txt на .htaccess

У меня небольшая ситуация, когда мне нужно удалить файл robots.txt, потому что я не хочу и роботы-роботы для получения ссылок. Также я хочу, чтобы они были доступны пользователю, и я не хочу, чтобы они были кэшированы поисковыми системами. Также я не могу добавить аутентификацию пользователя по различным причинам. Поэтому я думаю об использовании mod-rewrite, чтобы […]

Предоставление простого текста через PHP

По какой-то причине я хочу обслуживать свой robots.txt с помощью PHP-скрипта. У меня настроен apache, так что запрос файла robots.txt (infact all file requests) приходит к одному скрипту PHP. Код, который я использую для рендеринга robots.txt, это: echo "User-agent: wget\n"; echo "Disallow: /\n"; Однако он не обрабатывает новые строки. Как правильно загрузить файл robots.txt, чтобы […]

Как не индексировать URL-адреса?

Я искал, как не индексировать определенные URL-адреса, но я не нашел никакой конкретной информации о следующем. Добавив ниже <?php if(is_single(X)): ?> <meta name="robots" content="noindex,nofollow"> <?php endif; ?> Я бы не смог индексировать (X), где X может быть идентификатором сообщения, почтовым заголовком «Hello World», например, или почтовым сообщением «hello-world». Если бы можно было указать все URL-адреса, […]