Древовидные комментарии, вред replytocom и борьба с дублями страниц

Всем привет! Эту статью о древовидных комментариях, параметре replytocom и генерируемых ним дублях страниц я рекомендую изучить всем, как тем, кто только начинает вести свой блог, так и опытным блоггерам. Новички смогут избежать этой «фатальной» ошибки, которая не дает развиваться WordPress блогу в Гугле. А те блоггеры, у которых не получается привлечь трафик из Гугла, возможно найдут причину этого. Ведь дубли страниц replytocom могут стать причиной того, что не растет трафик из этой поисковой системы.

Древовидные комментарии в WordPress, что это?

Функция древовидных комментариев в WordPress создана в первую очередь для удобства комментаторов. Благодаря древовидным комментариям, ответ на комментарий другого человека появляется под ним и выделяется отступом. Наглядно это выглядит вот так:

Ответы на комментарии создают дубли страниц с replytocom

Количество комментариев-ответов, выводимых друг под другом, задается в админке. Оптимальным количеством считается 5 штук. В плане юзабилити блога, такая структура комментариев более удобная. Да и выгладит привлекательнее, нежели все комментарии сплошняком.

Древовидные комментарии, как запретить или активировать

Но такое удобство, таим в себе смертельную опасность, мешающую развиваться блогу. Пока блог молодой, комментариев на нем практически нет, никакого негативного влияния Вы не заметите. Посещаемость на сайте по-тихонько растет, страницы индексируются. Все классно.

После включения функции древовидных комментариев, под каждым комментарием появляется кнопка или ссылка «Ответить». Каждая такая кнопка содержит ссылку на дублированную страницу с тем же самым контентом, что и страница со статей.

Вот так выглядит такая ссылка:

https://inetsovety.ru/7-prichin-vybrat-platnyy-hosting-vmesto-besplatnogo/?replytocom=207960

Что такое Replytocom и как их найти?

У каждого комментария свой номер и соответственно свой хвост ?replytocom=.  Параметр replytocom автоматически добавляется к ссылкам в ответах на комментарии и тем самым создает дубли. Это глобальная проблема движка WordPress, которая никак не решается его разработчиками.

Если у Вас на блоге древовидная структура комментариев, кликните правой кнопкой мыши на кнопку/ссылку ответить, и нажмете Открыть в новом окне, то увидите копию своей же статьи, только по другому адресу. Каждая такая кнопка «Ответить» создает дублированную страницу.

Чтобы посмотреть попали ли эти страницы в индекс Гугла, введите в строку поиска вот такую комбинацию: site:вашдомен.ru replytocom

Не спешите радоваться, что нашелся 1 или несколько ответов, кликните на ссылку «Показать скрытые результаты«:

Как найти все дубли страниц replytocom в поиске Гугла

А вот теперь, если там всего пару страниц, радуйтесь :) Вам повезло.

У меня нашлось 28 700 таких страниц. Это и есть причина того, что с июля прошлого года на моем блоге посещаемость с Гугла не превышает 150 человек в сутки. А до этого было более 1000. В апреле 2013 года мне удалось преодолеть порог посещаемости в 3 000 человек в сутки. Но потом все пошло под откос :) Момент падения трафика на блоге совпал со сменой дизайна. Анализ данных Яндекс Метрики показал, что на следующий день после установки нового уникального шаблона, трафик с Гугла упал.

У меня появились мысли, что программисты что-то намудрили. Но нет, в коде ничего вредоносного не нашлось. Но, первое время, на новом шаблоне стояла разбивка комментариев на страницы по 50 штук на каждой из них. Такое изменение Гугл быстро переиндексировал, а заодно и дубли, создаваемые replytocom . Я заметила резкий рост количества страниц в индексе. И это не взирая на то, что опубликовано статей более 400 штук, рубрик всего 10, метки, которые потом я удалила. Сейчас в индексе Гугла 4 800 страниц моего блога. Более 4 000 из которых, это дубли.

Для меня такой рост был загадкой. Ведь в файле robots.txt я закрыла от индексации и категории, и метки, и результаты поиска. Для Гугла в robots.txt у меня стояли такие вот «запреты» для индексирования страниц:

Disallow: /*?*

Disallow: /*? — закрывались ссылки со знаком вопроса

Disallow: /*?replytocom — ссылки комментариев с содержанием replytocom в адресе

Disallow: */comment-page-* — страницы комментариев

Disallow: /category/*/* — категории

Признаюсь, что какое-то время после создания блога, у меня не было файла robots.txt, вообще. И без него сайт нормально развивался. Поскольку я училась вести и настраивать свой блог по статьям других блоггеров, то старалась применить на практике советы других. Сначала мой роботс состоял из рекомендаций не индексировать папки темы, файлов движка. Было что-то типа этого:

Disallow: /wp-content/cache

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /wp-admin/

Disallow: /wp-includes/

В том же 2013 году, я решила дополнить роботс по примеру других блоггеров. На каждом блоге просмотреть роботс можно без проблем. Собрала для себя такую себе солянку из запретов индексации рубрик, меток, результатов поиска, комментариев. В общем все, как у людей, только под свой блог.

На самом деле роботу Гугла плевать на все эти директивы, содержащиеся в robots.txt. Он зашел на блог, увидел новую страницу, сгнерированную replytocom, получит от роботс рекомендацию не индексировать данную страницу, но решил на свое усмотрение занести эту статью в свою дополнительную базу, которая называется сопли.

Как настроить роботс и закрыть от индексации не нужное читайте в обновленной статье https://inetsovety.ru/robots-txt-dlya-wordpress/

Как избавиться от Replytocom и сгенерированных им дублей

  •  редактируем файл robots.txt и удаляем лишнее

Если у Вас в в файле роботса есть такие директивы:

Disallow: /*?*

Disallow: /*?

Disallow: /*?replytocom

Удаляйте их без сожаления.

  • настраиваем редирект с дублированных страниц на основную

Что я имею ввиду. Вот у меня есть статья https://inetsovety.ru/zarabotok-na-tizernoy-reklame/, а у нее благодаря древовидным комментариям, создалось 25 дублей, которые доступны по адресам с параметром replytocom. Пример, https://inetsovety.ru/zarabotok-na-tizernoy-reklame/?replytocom=216662

Сейчас, перейдя по той ссылке, Вы попали на страницу https://inetsovety.ru/zarabotok-na-tizernoy-reklame/ Это сделал 301 редирект. Теперь и робот Гугла зайдя на страницу с дублированным контентом будет переброшен на основную страницу. Как быстро, робот посетит эти страницы и поймет, что они уже не существуют, это отдельный разговор.

Сейчас мы будем редактировать файл .htaccess. Обязательно сохраните его резервную копию. В случае внесения неправильных правок, Ваш блог перестанет работать. Этот файл находится на хостинге, где и папка wp-admin.

Открывать его я рекомендую не обычным блокнотом, а программой Notepad++. Вот по этой ссылке я Вам даю свой файл https://yadi.sk/i/a7bMqN58VojsE

Перед тем, как заменять свой файл моим, проверьте не содержится ли в Вашем файле дополнительных установок. Например, ограничений на доступ к сайту по ip адесу.

Вот такой код, я добавила для 301 редиректа:

RewriteCond %{QUERY_STRING} replytocom=

RewriteRule ^(.*)$ /$1? [R=301,L]

Гугл долго держит проиндексированные страницы и неохотно их переиндексирует, в частности на сайтах, которые попали под санкции за дублированный контент. Процесс вылета дублированных страниц не быстрый и займет много времени. У кого случилась подобная проблема, запасайтесь терпением. Схлопотать санкции быстро, а вот снять последствия от них долго.

Кроме параметра replytocom есть и другие, которые также создают дубли. Вот они:

category

tag

page

trackback

feed

comment-page

attachment

attachment_id

Аналогично, как мы искали дубли статей с replytocom, ищем другие дубли. В строчку поиска вставляете site:вашдомен.ru replytocom, заменяете replytocom на category, смотрите сколько дублей. Потом на tag и так далее.

Настроить редирект с этих дублей на основную страницу поможет нам файл .htaccess. В него добавляем такие строки:

RewriteRule (.+)/feed /$1 [R=301,L]

RewriteRule (.+)/comment-page /$1 [R=301,L]

RewriteRule (.+)/trackback /$1 [R=301,L]

RewriteRule (.+)/comments /$1 [R=301,L]

RewriteRule (.+)/attachment /$1 [R=301,L]

RewriteCond %{QUERY_STRING} ^attachment_id= [NC]

RewriteRule (.*) $1? [R=301,L]

А вот и сам файл с кодом всех редиректов: https://yadi.sk/d/Kfp7eKS5W2JsP

Чтобы работали редиректы на все дубли, добавляйте этот файл на хостинг. В файле, ссылку на который я давала выше, настроен редирект только для страниц с replytocom.



2014-07-03T10:53:13
Блог на WordPress