Robots.txt определяет правильную индексацию сайтов, в том числе на WordPress CMS. Это делается один раз и помогает акцентировать внимание поисковых систем только на самых значимых страницах сайта, несущих пользу и осмысленное содержание.
Не секрет, что многие страницы сайтов вне зависимости от желания и намерения его владельца представляют собой технический «мусор». Например, страницы с результатами поиска внутри сайта https://moytop.com/?s=ctr
Поисковики могут неправильно принять эти страницы за важную информацию и начать выдавать их в поиске в ущерб более правильно оптимизированным разделам сайта, отбрасывая их ниже в рейтинге.
Чтобы избежать таких ситуаций, сразу же после создания блога на WordPress рекомендуется составить специальный текстовый файл robots.txt и поместить его в корневую директорию сайта. Каждая поисковая система ориентирована на работу с этим файлом. В нем содержатся конкретные инструкции, с помощью которых можно:
- запретить поисковику проиндексировать весь сайт, отдельные папки или файлы.
- указать на дубликат (зекрало) сайта.
- указать карту сайта.
- дать поисковику рекомендации по установке определенных промежутков времени для того, чтобы оптимально проиндексировать сайт и снизить нагрузку на сервер (актуально для больших многостраничных проектов) и так далее.
Содержание
Как правильно составить robots.txt для WordPress?
Это обычный текстовый файл, поэтому его можно открыть любым текстовым редактором (я вместо стандартного Notepad, который поставляется с каждой Windows, пользуюсь EditPlus). Повторюсь, находится он в корне сайта. А попасть в корень можно по FTP-доступу, который предоставляет любой хостер (читать «Как зайти на сайт через FTP«).
После того, как вы успешно зашли по FTP и открыли файл, смотрим на его содержимое. Для запрета индексации robots.txt должен содержать определенные команды для поисковиков, каждая из которых начинается с новой строки:
User-Agent
Эта команда задает поисковую систему, для которой предназначены последующие инструкции. Например, если вы укажете User-Agent: Yandex, то все последующие ниже команды будут относиться именно к этой поисковой системе.
Как правило, для блога выгодно, чтобы все страницы одинаково хорошо индексировались как под Яндекс, так и под Google и другие поисковики, поэтому имеет смысл не разделять инструкции для поисковых систем, а использовать общие правила. Для этого достаточно написать эту команду в таком виде: User-Agent: *
Она означает, что все поисковые системы могут проиндексировать сайт.
Disallow
Указывает конкретные страницы и каталоги сайта, которые нужно закрыть от индексации при помощи.
Если все файлы и страницы сайта можно индексировать, то после название оставляете пробел, вот так Disallow: , а если нужно тотально запретить индексацию всех без исключения страниц, то ставите в конце слеш (наклонную черту), вот так: Disallow: /
Но это крайние ситуации. Обычно под «запрет» попадают определенные папки или файлы. Поэтому после слеша указываете полное их наименование.
Примеры использования команд файла Robots.txt
Ниже вы найдете примеры robots.txt в котором использованы наиболее частые команды User-Agent и Disallow в разных вариациях. Если нужно оставить комментарий в файле, то начните предложение с этого знака #
Примеры использования Disallow
Эта команда запрещает индексирование и чаще всего используется в таких вариантах.
1. Разрешаете проиндексировать всем поисковикам все страницы без исключения:
User-Agent: *
Disallow:
2. Запрещаете проиндексировать только Яндексу все на сайте:
User-Agent: Yandex
Disallow: /
3. Разрешаете проиндексировать все страницы на сайте только поисковой системе Google:
User-Agent: Google
Disallow:
# продолжение: после первой инструкции оставляем пустую строчку, это важно для безошибочного прочтения
User-Agent: *
Disallow: /
4. Разрешаете проиндексировать всем поисковикам каждую папку, кроме /png/:
User-Agent: *
Disallow: /png
5. Разрешаете проиндексировать поисковым системам весь сайт, кроме динамических ссылок (например, поисковых запросов внутри сайта на WordPress)
User-Agent: *
Disallow: /*?s=*
6. Запретить индекацию конкретного файла master.php, который находится в папке includes
User-Agent: *
Disallow: /includes/master.php
7. Запретить индекацию любых каталогов и файлов, которые начинаются с download, например, файл download.gif
User-Agent: *
Disallow: download
Команда Allow
Имеет обратно Disallow значение — разрешает индексацию для указанных файлов и папок.
# Вот так можно разрешить индексацию лишь для файла myfoto.jpg, которая находится в запрещенной для индексации папке Album.
User-Agent: *
Disallow: album
Allow: /album/myfoto.jpg
Host
Эта директива позволяет указать зеркало сайта, то есть как предпочтительнее отображать имя сайта в поиске — с www или без?. Я предпочитаю без www, для этого нужно написать следующую инструкцию:
Host: moytop.com
где вместо moytop.com нужно вписать свое имя сайта.
Sitemap
Позволяет добавить ссылку на карту сайта, если она, конечно, у вас уже создана.
Вот, например, моя карта сайта, которая прописана в robots.txt
Sitemap: https://moytop.com/sitemap.xml
Crawl-delay
Позволяет выставить задержку в секундах перед индексацией отдельных страниц. Если на вашем сайте очень много страниц, которые периодически обновляются, а хостинг — дешевый, то имеет смысл указать значение в 10-15 секунд.
Это позволит снизить нагрузку на хостинг со стороны поисковых систем. Делается это следующей командой:
Crawl-delay: 10
Скачать 100% рабочий файл Robots.txt для WordPress CMS
Эти основные команды вы можете применять для своего сайта на Вордпресс в том или ином виде. У многих сайтов и блогов они будут применяться по-разному, так как могут использоваться разные плагины, разные пути к файлам и разные динамические адреса.
Но я могу порекомендовать вам готовый и проверенный файл Robots.txt, который можно безболезненно использовать на большинстве сайтов под WordPress CMS и который уже отлично себя зарекомендовал. Вы можете посмотреть его в бонусе.
Почему это действительно хороший Robots.txt?
Прежде всего потому, что многие найденные в интернете решения блокируют больше чем нужно, например, запрещают индексацию служебных папок вроде /WP-CONTENT/
Раньше это еще было допустимо, но сейчас поисковики (особенно Google) обязательно должны прочитать все нужные служебные папки, чтобы правильно воспроизвести то, как сайт выглядит в глазах рядовых пользователей. А для этого нужен доступ к служебным папкам, содержащим файлы CSS, JS и другие.
Важно! С помощью версии сайта для мобильных устройств можно получать более высокие места в поиске Google (подробнее о том, как создать мобильную версию для WordPress за 10 минут).
Поэтому нужно не запрещать в файле Robots.txt все подряд, а выкинуть только реальные дубли страниц, остальное же разрешить для сканирования — в этом случае сайт будет показываться правильно и вы не увидите ошибок в Google.Webmasters вроде таких: «Googlebot не может получить доступ к файлам CSS и JS на сайте».
Так что можете смело качать мой файл Robots.txt — он проверен на дубли и отлично работает с Googlebot.
Посмотреть и скачать уже готовый пример robots.txt для WordPress можно прямо сейчас. Контент доступен для подписчиков блога. Достаточно ввести свой правильный емейл, и после подтверждения вам откроется полное содержимое этой страницы.
Бонус
Если на ваш емейл после подписки не приходит письмо для подтверждения уведомления (такое бывает иногда в зависимости от типа вашего ящика), то есть такие варианты:
- Подождите минут 5-10.
- Попробуйте другую почтовую сеть, лучше всего работают mail.yandex.ru или gmail.com.
- Проверьте папку СПАМ — может нужное письмо именно там. После чего обязательно отметьте его и кликните — НЕ спам.
- Если ничего не получилось, напишите мне в Контакты и укажите ссылку на страницу, версию браузера и примерный порядок действий.
С помощью этих инструкци или готового примера вы можете составить robots.txt для WordPress CMS правильно, с учетом структуры именно вашего сайта. Но обратите внимание, достаточно будет набрать http://адрес-сайта/robots.txt — и любой желающий увидит перечень ваших служебных и системных папок, которые есть на вашем компьютере.
Получение списка каталогов на сервере — это потенциальная угроза для безопасности сайта. Поэтому рекомендую обязательно сделать невозможным получение доступа к таким каталогам. Это очень просто, а позволяет получить дополнительную защиту от взлома.
Как это сделать? Читайте в статье: «Повышаем безопасность WordPress в 2 клика«