Robots.txt – играет очень важную роль в индексации. Правильный robots.txt – вообще очень важен. А насколько он правильный? А кто так сказал? А точно ли это поможет в продвижении ресурса в поисковых системах? Масса подобных вопросов возникала и у меня, когда я оптимизировал этот блог и искал информацию в интернете об этом. В принципе, роботсом я заинтересовался еще когда у меня был сайт на Ucoz (возможно, кстати, вам понравится статья про выбор подходящей CMS: WordPress vs Ucoz), благо там его можно было настроить, и я постиг основы.
Стоит отметить, что после правильной настройки robots.txt дела у моих проектов пошли лучше. Что в том, что в этом случае. Обусловлено это, конечно же, избирательным подбором страниц и материалов, которые нужно индексировать. Также я грамотно настроил остальные SEO-аспекты сайта с помощью плагина Yoast SEO. Рекомендую прочитать статью о правильной настройке плагина Yoast SEO для WordPress.
Для чего нужен Robots.txt
Если говорить совсем уж просто: для правильного представления вашего ресурса. Например, поисковые роботы, при посещении и индексации вашего сайта, могут взять, да и проиндексировать ненужные системные элементы. Как правило, такие страницы не слишком пригодны для восприятия роботами, и потому они будут считаться плохо оптимизированными. Если этих самых страниц будет слишком много, поисковик может понизить ваш проект в выдаче.
В абсолютно противоположном случае, что не менее прискорбно, может оказаться так, что ваш сайт и вовсе будет закрыт для индексации. Такое случается не так уж часто, но вам все равно следует учитывать это.
Правильная настройка robots.txt для WordPress
Чтобы не лить воду, сразу скажу, что здесь есть два способа. Вы можете: либо настроить robots.txt через редактор плагина Yoast SEO (который ОЧЕНЬ рекомендован к установке), либо создать такой файл вручную (в блокноте, например), и разместить в корне сайта. Во втором случае, кстати говоря, стоит помнить, что размещать файл нужно так, чтобы он был доступен по адресу: site.ru/robots.txt.
Хотя, я думаю, что с этими мелочами вы итак разберетесь. Сосредоточимся на содержимом этого файла.
User-agent: * Disallow: /cgi-bin Disallow: /? Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: */embed Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Disallow: /tag/ # Закрываем для того, чтобы не индексировалось слишком много дублей. # Если вы хотите, чтобы метки индексировались, удалите это правило. Allow: */uploads User-agent: GoogleBot Disallow: /cgi-bin Disallow: /? Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php User-agent: Yandex Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: /xmlrpc.php Allow: /wp-*.jpg Allow: /wp-admin/admin-ajax.php Allow: */uploads Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat Sitemap: https://site.ru/sitemap.xml Sitemap: https://site.ru/sitemap.xml.gz # Указываем, если для создания карты использовали Google XML Sitemap Host: https://site.ru # Указываем с протоколом
Несколько очень важных моментов:
- Если вы используете/собираетесь использовать турбо-страницы Яндекса, то вам необходимо будет разрешить для Яндекса доступ к xml-файлу
- Когда вы будете копировать содержимое в файл – лучше убрать комментарии (пояснения с #)
- Как я уже говорил, правило Disallow: /tag/ можно убрать. Лично я убрал метки из индексации из-за огромного количества дублей (страниц с одинаковым содержимым), т.к они пагубно влияют на продвижение.
- Если вы НЕ используете SSL сертификат (и https протокол), указывать http протокол в
Host:
НЕ нужно. Директива будет выглядеть какHost: www.site.ru
илиHost: site.ru
.
Почему надо указывать правила для каждого робота?
Благодаря такому подходу, по мнению некоторых оптимизаторов и вебмастеров, можно добиться куда больших результатов в продвижении сайта. И ведь это логично: если в правилах есть прямые указания для каждого робота, то и индексировать они будут активнее и чаще.
Кто-то, кстати говоря, и вовсе расписывает огромное полотно для роботов всех мастей. Там и роботы, которые индексируют картинки (от гугла и яндекса), и роботы других поисковых систем, коих очень и очень много.
Выводы
Собственно, вот так должен выглядеть правильно составленный robots.txt для WordPress в 2018 году. Безусловно, есть еще масса всевозможных вариантов, однако я рекомендую остановиться именно на этом. Я и сам его использую, в чем вы можете убедиться лично (добавьте /robots.txt к адресу моего сайта).