Поддержка Проблемы и решения Дублирование контента. Как избавиться

  • Решено 1596754as98

    (@adminstrelok)


    Гугл информирует о наличии на сайте очень большого к-ва повторяющегося (дублированного) контента. Причина как я понял одна — дублирование записей в рубриках архивах, метках и т.д.

    Но в SEO плагине их индексирование запрещено. В роботс тексте тоже запрещена индексация всего этого. В карту сайта ссылки на страницы рубрик, меток, авторов, архивов не выводятся.

    Выходит Гуглу всё это по барабану?
    Или я что то не так делаю?

Просмотр 15 ответов — с 1 по 15 (всего 18)
  • Всё вроде так.
    Попробовать закрыть в коде <meta name=’robots’ content=’noindex,nofollow’ />, вставить в шаблон рубрик, тегов…
    Может и поможет.
    Тут ещё вопрос, когда Вы начали всё это делать, если уже проиндексированы, то время должно пройти, иной раз две-три недели, а иногда два-три месяца.

    Всё это я начал делать буквально через месяц после запуска сайтов. То есть в в конце 2012 года. С тех пор появилось ОЧЕНЬ МНОГО новых записей.Но о наличии дубляжа узнал только сейчас. Сейчас у меня сайтах примерно по 1000 и 400 записей ….

    <meta name=’robots’ content=’noindex,nofollow’ />

    Блин! А вот это я до сих пор не сделал! И думаю теперь уже вряд ли поможет. Дубли то уже проиндексированы…. Если только на будущее.
    Или я не прав?

    Модератор Yuri

    (@yube)

    Поможет. Не мгновенно, конечно.

    Главное — не путать прочитанное роботом и проиндексированное для выдачи 😉

    Модератор Sergey Biryukov

    (@sergeybiryukov)

    Live and Learn

    Причина как я понял одна — дублирование записей в рубриках архивах, метках и т.д.

    У каждой записи есть канонический URL. В общем случае поисковые системы учитывают только его, и дополнительные ссылки не приводят к появлению дублей:

    WordPress использует атрибут rel="canonical" по назначению, присваивая его только одиночным страницам и записям.

    На вашем сайте этот атрибут зачем-то добавлен также для рубрик и меток:

    <link rel="canonical" href="http://l-konstantin.ru/category/wordpress/" />
    ...
    <link rel="canonical" href="http://l-konstantin.ru/tag/temy-dlya-wordpress/" />

    Видимо, это и приводит к дублированию. Предполагаю, что это самодеятельность SEO-плагина или темы оформления.

    дубли появляются из-за незакрытых от индексирования меток — только они могут в сотни раз повысить количество дублей.

    самый простой способ — это закрыть их в robots.txt:

    Disallow: /tag/

    так же хорошей идеей будет избавится от архивов по дате, по автору и т.д.

    и гугл позволяет избавится от дублей вручную, прямо из Гугл Вебмастера. выберите там свой сайт, зайдите в раздел «Индекс Google» и выберите там «Удалить URL-адреса». для удаления всех страниц меток используйте удаление каталога в виде урла http://вашсайт/tag/

    самый простой способ — это закрыть их в robots.txt:

    Закрыто вроде всё, я смотрел, и в ситемар их нет.

    На вашем сайте этот атрибут зачем-то добавлен также для рубрик и меток:

    А вот rel=»canonical» не глянул, вероятно он и говорит гуглу: индексируй страницу.

    Сегодня, столкнувшись с фактом дублирования контента, почитав все ваши отклики на мой вопрос, и пошевелив своим рогом,:))) пришел к выводу. А нужны ли нам SEO плагины?

    У меня установлен All in Seo Pack.

    WordPress использует атрибут rel=»canonical» по назначению, присваивая его только одиночным страницам и записям.

    Я установил галочку напротив пункта «Использовать канонические URL»
    Получилось

    На вашем сайте этот атрибут зачем-то добавлен также для рубрик и меток Предполагаю что это самодеятельность SEO-плагина

    Согласен с этим. Похоже All in Seo Pack везде и всюду расставил эти rel=»canonical

    В настройках All in Seo Pack исключил из индексации ( и из создаваемой им карты сайта) страницы рубрик, меток, архивов, архивов и архивов авторов. А как сименно плагин выполняет эту функцию? Добавлением <meta name='robots' content='noindex,nofollow' /> или что то типа того? Тогда почему этого, или похожего кода, не видно ни шаблоне страниц, ни в коде страниц при их просмотре в браузере?

    В All in Seo Pack есть настройки, связанные с robots.txt. А где созданный им файл robots.txt.? Нет такого…. Изучая подробности этого плагина выяснил, что речь идет о так называемом «виртуальном» robots.txt.» Это что?! Но чтобы это ни было — всё равно не работает — откуда же тогда дубли?

    Решил создать реальный файл robots.txt.

    User-agent: *
    Crawl-delay: 10#
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /cgi-bin/
    Disallow: /wp-includes/
    Disallow: /wp-admin/
    Disallow: /wp-content/
    Disallow: /wp-content/uploads
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed
    Disallow: */feed
    Disallow: /*?*
    Disallow: /*.php
    Disallow: /archives/
    Disallow: /tag
    Disallow: /category/
    Disallow: /author/
    Disallow: /page/*
    Disallow: */comment-page-*
    Disallow: /xmlrpc.php

    (Всё тоже самое и для Яндекса)
    Файл заработал. Проверил это через некоторое время и поленился просмотреть все прондексированные Яндесом страницы. Идеально! Нет ни одного дубля со страниц рубрик, меток или архивов!
    В Гугле ситуация прямо противоположная. Одни дубли и предупреждения о них — 69% дублей. В чем же дело?!

    Короче говоря буду разьираться дальше, но в целесообразности применения SEO плагинов я теперь очень и очень сомневаюсь. Наверное снесу его нахрен и вручную прпишу где надо `<meta name=’robots’ content=’noindex,nofollow’ />
    `

    В All in Seo Pack есть настройки, связанные с robots.txt. А где созданный им файл robots.txt.? Нет такого…. Изучая подробности этого плагина выяснил, что речь идет о так называемом «виртуальном» robots.txt.»

    Я днём переходил по ссылке http://l-konstantin.ru/robots.txt — был на месте.

    All in Seo Pack в целом плагин неплохой, если теги description, keywords можно прописать пользовательскими полями, то он и sitemap создаёт.

    Но дело хозяйское.

    http://l-konstantin.ru/robots.txt — был на месте.

    Так я его и написал в Notepad++ и загрузил по FTP. А плагин тут ни при чём получается….

    В тему: а есть хук для создания sitemap.xml, чтобы плагины не подключать?

    а есть хук для создания sitemap.xml, чтобы плагины не подключать?

    А вот с этого момента, пожалуйста, расскажите подробней!

    В Гугле ситуация прямо противоположная. Одни дубли и предупреждения о них — 69% дублей. В чем же дело?!

    потому что это гугл. если он уже «съел» страницы, то выпиливать их из индекса долгое и муторное дело. запреты мета-тегами и запреты в robots.txt он может и часто игнорирует. о robots.txt надо думать в самом начале создания сайта, а не после.

    один мой сайт в 2007 году так попал — на нем контента 120 страниц, но метками гугл сожрал 2000 страниц. запрет в robots.txt ни к чему не привел. пришлось вручную несколько месяцев через гугл-вебмастер удалять дубли. я удаляю, гугл говорит удалил — проверяю — удалил. через неделю смотрю — опять появились. только через год этой бодяги гугл удосужился выкинуть из индекса все дублированные страницы.

    в яндекс проблема загнать и удержать в нем страницы. в гугле проблема их наоборот выкинуть.

    по поводу виртуального robots.txt — виртуальный значит, что он на сервере физически не лежит. но если обратиться по урлу вашсайт/robots.txt, то файл плагином будет создан на лету. поэтому на этот момент не грешите.

    а rel=»canonical — зачем вы его в плагине то включали? но в любом случае это не robots.txt и не мета-теги — поисковики откровенно говорят, что могут на него наплевать.

    и еще вопрос — где в гугле увидели предупреждение о дублях? а то может имеется ввиду повторяющиеся описание и мета-дескрипшины.

    в яндекс проблема загнать и удержать в нем страницы. в гугле проблема их наоборот выкинуть.

    Хорошо сказано.

    Всем спасибо за ответы. Буду анализировать все вами сказанное, думать, сопоставлять со свом опытом, предпринимать конкретные действия. О результатах отпишусь. Нужен тайм-аут.

    Еще раз спасибо!

Просмотр 15 ответов — с 1 по 15 (всего 18)
  • Тема «Дублирование контента. Как избавиться» закрыта для новых ответов.