Всем привет! Эту статью о древовидных комментариях, параметре replytocom и генерируемых ним дублях страниц я рекомендую изучить всем, как тем, кто только начинает вести свой блог, так и опытным блоггерам. Новички смогут избежать этой «фатальной» ошибки, которая не дает развиваться WordPress блогу в Гугле. А те блоггеры, у которых не получается привлечь трафик из Гугла, возможно найдут причину этого. Ведь дубли страниц replytocom могут стать причиной того, что не растет трафик из этой поисковой системы.
Древовидные комментарии в WordPress, что это?
Функция древовидных комментариев в WordPress создана в первую очередь для удобства комментаторов. Благодаря древовидным комментариям, ответ на комментарий другого человека появляется под ним и выделяется отступом. Наглядно это выглядит вот так:
Количество комментариев-ответов, выводимых друг под другом, задается в админке. Оптимальным количеством считается 5 штук. В плане юзабилити блога, такая структура комментариев более удобная. Да и выгладит привлекательнее, нежели все комментарии сплошняком.
Но такое удобство, таим в себе смертельную опасность, мешающую развиваться блогу. Пока блог молодой, комментариев на нем практически нет, никакого негативного влияния Вы не заметите. Посещаемость на сайте по-тихонько растет, страницы индексируются. Все классно.
После включения функции древовидных комментариев, под каждым комментарием появляется кнопка или ссылка «Ответить». Каждая такая кнопка содержит ссылку на дублированную страницу с тем же самым контентом, что и страница со статей.
Вот так выглядит такая ссылка:
https://inetsovety.ru/7-prichin-vybrat-platnyy-hosting-vmesto-besplatnogo/?replytocom=207960
Что такое Replytocom и как их найти?
У каждого комментария свой номер и соответственно свой хвост ?replytocom=
. Параметр replytocom автоматически добавляется к ссылкам в ответах на комментарии и тем самым создает дубли. Это глобальная проблема движка WordPress, которая никак не решается его разработчиками.
Если у Вас на блоге древовидная структура комментариев, кликните правой кнопкой мыши на кнопку/ссылку ответить, и нажмете Открыть в новом окне, то увидите копию своей же статьи, только по другому адресу. Каждая такая кнопка «Ответить» создает дублированную страницу.
Чтобы посмотреть попали ли эти страницы в индекс Гугла, введите в строку поиска вот такую комбинацию: site:вашдомен.ru replytocom
Не спешите радоваться, что нашелся 1 или несколько ответов, кликните на ссылку «Показать скрытые результаты«:
А вот теперь, если там всего пару страниц, радуйтесь Вам повезло.
У меня нашлось 28 700 таких страниц. Это и есть причина того, что с июля прошлого года на моем блоге посещаемость с Гугла не превышает 150 человек в сутки. А до этого было более 1000. В апреле 2013 года мне удалось преодолеть порог посещаемости в 3 000 человек в сутки. Но потом все пошло под откос Момент падения трафика на блоге совпал со сменой дизайна. Анализ данных Яндекс Метрики показал, что на следующий день после установки нового уникального шаблона, трафик с Гугла упал.
У меня появились мысли, что программисты что-то намудрили. Но нет, в коде ничего вредоносного не нашлось. Но, первое время, на новом шаблоне стояла разбивка комментариев на страницы по 50 штук на каждой из них. Такое изменение Гугл быстро переиндексировал, а заодно и дубли, создаваемые replytocom
. Я заметила резкий рост количества страниц в индексе. И это не взирая на то, что опубликовано статей более 400 штук, рубрик всего 10, метки, которые потом я удалила. Сейчас в индексе Гугла 4 800 страниц моего блога. Более 4 000 из которых, это дубли.
Для меня такой рост был загадкой. Ведь в файле robots.txt я закрыла от индексации и категории, и метки, и результаты поиска. Для Гугла в robots.txt у меня стояли такие вот «запреты» для индексирования страниц:
Disallow: /*?*
Disallow: /*? — закрывались ссылки со знаком вопроса
Disallow: /*?replytocom — ссылки комментариев с содержанием replytocom в адресе
Disallow: */comment-page-* — страницы комментариев
Disallow: /category/*/* — категории
Признаюсь, что какое-то время после создания блога, у меня не было файла robots.txt, вообще. И без него сайт нормально развивался. Поскольку я училась вести и настраивать свой блог по статьям других блоггеров, то старалась применить на практике советы других. Сначала мой роботс состоял из рекомендаций не индексировать папки темы, файлов движка. Было что-то типа этого:
Disallow: /wp-content/cache Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-admin/ Disallow: /wp-includes/
В том же 2013 году, я решила дополнить роботс по примеру других блоггеров. На каждом блоге просмотреть роботс можно без проблем. Собрала для себя такую себе солянку из запретов индексации рубрик, меток, результатов поиска, комментариев. В общем все, как у людей, только под свой блог.
На самом деле роботу Гугла плевать на все эти директивы, содержащиеся в robots.txt. Он зашел на блог, увидел новую страницу, сгнерированную replytocom, получит от роботс рекомендацию не индексировать данную страницу, но решил на свое усмотрение занести эту статью в свою дополнительную базу, которая называется сопли.
Как настроить роботс и закрыть от индексации не нужное читайте в обновленной статье https://inetsovety.ru/robots-txt-dlya-wordpress/
Как избавиться от Replytocom и сгенерированных им дублей
- редактируем файл robots.txt и удаляем лишнее
Если у Вас в в файле роботса есть такие директивы:
Disallow: /*?* Disallow: /*? Disallow: /*?replytocom
Удаляйте их без сожаления.
- настраиваем редирект с дублированных страниц на основную
Что я имею ввиду. Вот у меня есть статья https://inetsovety.ru/zarabotok-na-tizernoy-reklame/, а у нее благодаря древовидным комментариям, создалось 25 дублей, которые доступны по адресам с параметром replytocom. Пример, https://inetsovety.ru/zarabotok-na-tizernoy-reklame/?replytocom=216662
Сейчас, перейдя по той ссылке, Вы попали на страницу https://inetsovety.ru/zarabotok-na-tizernoy-reklame/ Это сделал 301 редирект. Теперь и робот Гугла зайдя на страницу с дублированным контентом будет переброшен на основную страницу. Как быстро, робот посетит эти страницы и поймет, что они уже не существуют, это отдельный разговор.
Сейчас мы будем редактировать файл .htaccess. Обязательно сохраните его резервную копию. В случае внесения неправильных правок, Ваш блог перестанет работать. Этот файл находится на хостинге, где и папка wp-admin.
Открывать его я рекомендую не обычным блокнотом, а программой Notepad++. Вот по этой ссылке я Вам даю свой файл
Перед тем, как заменять свой файл моим, проверьте не содержится ли в Вашем файле дополнительных установок. Например, ограничений на доступ к сайту по ip адесу.
Вот такой код, я добавила для 301 редиректа:
RewriteCond %{QUERY_STRING} replytocom= RewriteRule ^(.*)$ /$1? [R=301,L]
Гугл долго держит проиндексированные страницы и неохотно их переиндексирует, в частности на сайтах, которые попали под санкции за дублированный контент. Процесс вылета дублированных страниц не быстрый и займет много времени. У кого случилась подобная проблема, запасайтесь терпением. Схлопотать санкции быстро, а вот снять последствия от них долго.
Кроме параметра replytocom есть и другие, которые также создают дубли. Вот они:
category
tag
page
trackback
feed
comment-page
attachment
attachment_id
Аналогично, как мы искали дубли статей с replytocom, ищем другие дубли. В строчку поиска вставляете site:вашдомен.ru replytocom, заменяете replytocom на category, смотрите сколько дублей. Потом на tag и так далее.
Настроить редирект с этих дублей на основную страницу поможет нам файл .htaccess. В него добавляем такие строки:
RewriteRule (.+)/feed /$1 [R=301,L] RewriteRule (.+)/comment-page /$1 [R=301,L] RewriteRule (.+)/trackback /$1 [R=301,L] RewriteRule (.+)/comments /$1 [R=301,L] RewriteRule (.+)/attachment /$1 [R=301,L] RewriteCond %{QUERY_STRING} ^attachment_id= [NC] RewriteRule (.*) $1? [R=301,L]
А вот и сам файл с кодом всех редиректов:
Чтобы работали редиректы на все дубли, добавляйте этот файл на хостинг. В файле, ссылку на который я давала выше, настроен редирект только для страниц с replytocom.