Поддержка → Проблемы и решения → Дублирование контента. Как избавиться
Дублирование контента. Как избавиться
-
Гугл информирует о наличии на сайте очень большого к-ва повторяющегося (дублированного) контента. Причина как я понял одна — дублирование записей в рубриках архивах, метках и т.д.
Но в SEO плагине их индексирование запрещено. В роботс тексте тоже запрещена индексация всего этого. В карту сайта ссылки на страницы рубрик, меток, авторов, архивов не выводятся.
Выходит Гуглу всё это по барабану?
Или я что то не так делаю?
-
Всё вроде так.
Попробовать закрыть в коде <meta name=’robots’ content=’noindex,nofollow’ />, вставить в шаблон рубрик, тегов…
Может и поможет.
Тут ещё вопрос, когда Вы начали всё это делать, если уже проиндексированы, то время должно пройти, иной раз две-три недели, а иногда два-три месяца.Всё это я начал делать буквально через месяц после запуска сайтов. То есть в в конце 2012 года. С тех пор появилось ОЧЕНЬ МНОГО новых записей.Но о наличии дубляжа узнал только сейчас. Сейчас у меня сайтах примерно по 1000 и 400 записей ….
<meta name=’robots’ content=’noindex,nofollow’ />
Блин! А вот это я до сих пор не сделал! И думаю теперь уже вряд ли поможет. Дубли то уже проиндексированы…. Если только на будущее.
Или я не прав?Поможет. Не мгновенно, конечно.
Главное — не путать прочитанное роботом и проиндексированное для выдачи 😉
Причина как я понял одна — дублирование записей в рубриках архивах, метках и т.д.
У каждой записи есть канонический URL. В общем случае поисковые системы учитывают только его, и дополнительные ссылки не приводят к появлению дублей:
WordPress использует атрибут
rel="canonical"
по назначению, присваивая его только одиночным страницам и записям.На вашем сайте этот атрибут зачем-то добавлен также для рубрик и меток:
<link rel="canonical" href="http://l-konstantin.ru/category/wordpress/" /> ... <link rel="canonical" href="http://l-konstantin.ru/tag/temy-dlya-wordpress/" />
Видимо, это и приводит к дублированию. Предполагаю, что это самодеятельность SEO-плагина или темы оформления.
дубли появляются из-за незакрытых от индексирования меток — только они могут в сотни раз повысить количество дублей.
самый простой способ — это закрыть их в robots.txt:
Disallow: /tag/
так же хорошей идеей будет избавится от архивов по дате, по автору и т.д.
и гугл позволяет избавится от дублей вручную, прямо из Гугл Вебмастера. выберите там свой сайт, зайдите в раздел «Индекс Google» и выберите там «Удалить URL-адреса». для удаления всех страниц меток используйте удаление каталога в виде урла http://вашсайт/tag/
самый простой способ — это закрыть их в robots.txt:
Закрыто вроде всё, я смотрел, и в ситемар их нет.
На вашем сайте этот атрибут зачем-то добавлен также для рубрик и меток:
А вот rel=»canonical» не глянул, вероятно он и говорит гуглу: индексируй страницу.
Сегодня, столкнувшись с фактом дублирования контента, почитав все ваши отклики на мой вопрос, и пошевелив своим рогом,:))) пришел к выводу. А нужны ли нам SEO плагины?
У меня установлен All in Seo Pack.
WordPress использует атрибут rel=»canonical» по назначению, присваивая его только одиночным страницам и записям.
Я установил галочку напротив пункта «Использовать канонические URL»
ПолучилосьНа вашем сайте этот атрибут зачем-то добавлен также для рубрик и меток Предполагаю что это самодеятельность SEO-плагина
Согласен с этим. Похоже All in Seo Pack везде и всюду расставил эти rel=»canonical
В настройках All in Seo Pack исключил из индексации ( и из создаваемой им карты сайта) страницы рубрик, меток, архивов, архивов и архивов авторов. А как сименно плагин выполняет эту функцию? Добавлением
<meta name='robots' content='noindex,nofollow' />
или что то типа того? Тогда почему этого, или похожего кода, не видно ни шаблоне страниц, ни в коде страниц при их просмотре в браузере?В All in Seo Pack есть настройки, связанные с robots.txt. А где созданный им файл robots.txt.? Нет такого…. Изучая подробности этого плагина выяснил, что речь идет о так называемом «виртуальном» robots.txt.» Это что?! Но чтобы это ни было — всё равно не работает — откуда же тогда дубли?
Решил создать реальный файл robots.txt.
User-agent: * Crawl-delay: 10# Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /cgi-bin/ Disallow: /wp-includes/ Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-content/uploads Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed Disallow: */feed Disallow: /*?* Disallow: /*.php Disallow: /archives/ Disallow: /tag Disallow: /category/ Disallow: /author/ Disallow: /page/* Disallow: */comment-page-* Disallow: /xmlrpc.php
(Всё тоже самое и для Яндекса)
Файл заработал. Проверил это через некоторое время и поленился просмотреть все прондексированные Яндесом страницы. Идеально! Нет ни одного дубля со страниц рубрик, меток или архивов!
В Гугле ситуация прямо противоположная. Одни дубли и предупреждения о них — 69% дублей. В чем же дело?!Короче говоря буду разьираться дальше, но в целесообразности применения SEO плагинов я теперь очень и очень сомневаюсь. Наверное снесу его нахрен и вручную прпишу где надо `<meta name=’robots’ content=’noindex,nofollow’ />
`В All in Seo Pack есть настройки, связанные с robots.txt. А где созданный им файл robots.txt.? Нет такого…. Изучая подробности этого плагина выяснил, что речь идет о так называемом «виртуальном» robots.txt.»
Я днём переходил по ссылке http://l-konstantin.ru/robots.txt — был на месте.
All in Seo Pack в целом плагин неплохой, если теги description, keywords можно прописать пользовательскими полями, то он и sitemap создаёт.
Но дело хозяйское.
http://l-konstantin.ru/robots.txt — был на месте.
Так я его и написал в Notepad++ и загрузил по FTP. А плагин тут ни при чём получается….
В тему: а есть хук для создания sitemap.xml, чтобы плагины не подключать?
а есть хук для создания sitemap.xml, чтобы плагины не подключать?
А вот с этого момента, пожалуйста, расскажите подробней!
В Гугле ситуация прямо противоположная. Одни дубли и предупреждения о них — 69% дублей. В чем же дело?!
потому что это гугл. если он уже «съел» страницы, то выпиливать их из индекса долгое и муторное дело. запреты мета-тегами и запреты в robots.txt он может и часто игнорирует. о robots.txt надо думать в самом начале создания сайта, а не после.
один мой сайт в 2007 году так попал — на нем контента 120 страниц, но метками гугл сожрал 2000 страниц. запрет в robots.txt ни к чему не привел. пришлось вручную несколько месяцев через гугл-вебмастер удалять дубли. я удаляю, гугл говорит удалил — проверяю — удалил. через неделю смотрю — опять появились. только через год этой бодяги гугл удосужился выкинуть из индекса все дублированные страницы.
в яндекс проблема загнать и удержать в нем страницы. в гугле проблема их наоборот выкинуть.
по поводу виртуального robots.txt — виртуальный значит, что он на сервере физически не лежит. но если обратиться по урлу вашсайт/robots.txt, то файл плагином будет создан на лету. поэтому на этот момент не грешите.
а rel=»canonical — зачем вы его в плагине то включали? но в любом случае это не robots.txt и не мета-теги — поисковики откровенно говорят, что могут на него наплевать.
и еще вопрос — где в гугле увидели предупреждение о дублях? а то может имеется ввиду повторяющиеся описание и мета-дескрипшины.
в яндекс проблема загнать и удержать в нем страницы. в гугле проблема их наоборот выкинуть.
Хорошо сказано.
Всем спасибо за ответы. Буду анализировать все вами сказанное, думать, сопоставлять со свом опытом, предпринимать конкретные действия. О результатах отпишусь. Нужен тайм-аут.
Еще раз спасибо!
- Тема «Дублирование контента. Как избавиться» закрыта для новых ответов.