• Блог существует больше месяца. Несколько десятков страниц. Google и Яндекс проиндексировали только главную страницу. Терзают смутные сомнения, что я неправильно составил robots.txt, отсюда проблемы. Блог находится в папке, т.е. его адресс такой «http://www.foto4ka.ru/blog ;
    У самого сайта для индексации по логике открыта только стартовая страница и ещё несколько — время проиндексировать статьи должно было остаться. Ниж сам текст.

    User-agent: *
    Disallow: /blog/cgi-bin
    Disallow: /blog/wp-admin
    Disallow: /blog/wp-includes
    Disallow: /blog/wp-content/plugins
    Disallow: /blog/wp-content/cache
    Disallow: /blog/wp-content/themes
    Disallow: /blog/trackback
    Disallow: /blog/feed
    Disallow: /blog/comments
    Disallow: /blog/category/*/*
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /blog/*?*
    Disallow: /blog/*?
    Disallow: /svadba
    Disallow: /reports
    Disallow: /rep
    Disallow: /folio
    Disallow: /js
    Disallow: /old
    Allow: /blog/wp-content/uploads

    # Google Image
    User-agent: Googlebot-Image
    Disallow:
    Allow: /*

    # Google AdSense
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*

    # digg mirror
    User-agent: duggmirror
    Disallow: /

    User-agent: Yandex
    Disallow: /blog/cgi-bin
    Disallow: /blog/wp-admin
    Disallow: /blog/wp-includes
    Disallow: /blog/wp-content/plugins
    Disallow: /blog/wp-content/cache
    Disallow: /blog/wp-content/themes
    Disallow: /blog/trackback
    Disallow: /blog/feed
    Disallow: /blog/comments
    Disallow: /blog/category/*/*
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?*
    Disallow: /*?
    Disallow: /svadba
    Disallow: /reports
    Disallow: /rep
    Disallow: /folio
    Disallow: /js
    Allow: /blog/wp-content/uploads
    Host: http://www.foto4ka.ru

    Sitemap: http://www.foto4ka.ru/blog/sitemap.xml

    Это перваая проблема… Вторая проблема. Стоит плагин All in One SEO. Google считывает вбитое описание блога, а Яндекс нет, и использует вместо описания тексты статей… в чем может быть проблема?

    Прошу совета.

Просмотр 14 ответов — с 1 по 14 (всего 14)
  • мне не нравятся у тебя строки

    Disallow: /blog/*?*
    Disallow: /blog/*?

    ———-
    Google и Яндекс работают по разным алгоритмам — это не твоя проблема, Яндекс показывает тот кусок текста который больше отвечает запросу.
    В общем эту часть вопроса можешь снять )

    И еще… в панели вебмастера у гугла и яндекса есть инструмент с помощью которого ты можешь посмотреть как робот видит твой сайт — дерзай

    2 sDg32
    Мне то же не нравятся именно эти строки, но веселуха в том, что он из кодекса… С панелью вебмастеров уже законтачил. Возникло предположеие, что проблема не в robots.txt была а в отстутствии человеко понятныю юрлов, сейчас понял названия страниц с ?p=Id на название постов, посмотрим что будет.

    Вот как поисковый робот Googlebot просканировал вашу страницу.

    URL: http://www.foto4ka.ru/blog/

    Дата: Wed Oct 27 08:01:50 PDT 2010

    Тип робота Googlebot: Веб

    HTTP/1.1 301 Moved Permanently
    Date: Wed, 27 Oct 2010 15:01:51 GMT
    Server: Apache
    X-Powered-By: PHP/5.2.0-8+etch16
    X-Pingback: http://foto4ka.ru/blog/xmlrpc.php
    Location: http://foto4ka.ru/blog/
    Content-Length: 0
    Keep-Alive: timeout=2, max=512
    Connection: Keep-Alive
    Content-Type: text/html; charset=UTF-8

    Но мне это ничего не даёт если честно.

    Сделай карту сайта онлайн сайтмеп генератор, залей на сайт, пропиши ее в роботсе и убери те строчки — жди индексации 🙂

    Так карта сделана плагином XML-sitemap и на гугл залита, и сам плагин гугл пигнует %( Смотрим последнею строчку приведенного выше роботс…

    А строчки

    Disallow: /*?*
    Disallow: /*?

    Скорее всего действительно надо убивать

    С другой стороны если сделать ЧПУ, то яша может начать ругаться на дублирующий контент страиц вида «?p=ID», видимо для этого нужны эти правила — они закрывают от инексации страницы вида «?p=ID», но индексируются страницы с ЧПУ типа «nazvanie-posta»

    если будешь ставить чпу то обязательно сделай 301 редирект со старых страниц на новые соответственно, тогда через неготорое время чша их склеит

    Я поставил плагин Cyr-to-Lat после того как сделал ЧПУ. Он сам привязал страницы с новыми названиями к старым типа «?p=ID» — на сколько я понимаю это якоря одних и тех же страниц. Там более страницы типа со знаком вопроса закрыты этим правилом как раз
    Disallow: /*?*
    Disallow: /*?
    Следовательно ругать за дублирующий контнент меня никто не будет, т.к. поискових будет видеть только страницы с юрлом «postname», а не с юрлом «?p=ID». А пока я не сделал ЧПУ юрлы были только типа «?p=ID» и получается я сам запретил их индексацию в robots.txt для поисковиков — это то на сколько я вижу ситуацию. -)

    Если где-то запутался поправьте пожалуйста

    Для поисковика новый урл — новая страница.
    Плагин организовал редиректы со страниц типа «?p=ID» на чпу => все нормально.
    Да и перемещение(не копирование) контента никто не отменял )
    Disallow: /*?

    эту строку можно убрать

    Так карта сделана плагином XML-sitemap

    уточни каким сайтмапом сделана карта, случайно не Google XML Sitemap?

    Им самым

    в нем уникальная галка есть — если ее не убрать тогда robots.txt ложить в корень сайта категорически запрещено)))) он делает сам виртуальный файл..

    <i># Add sitemap URL to the virtual robots.txt file.
    The virtual robots.txt generated by WordPress is used. A real robots.txt file must NOT exist in the blog directory! </i>
    Слона то я и не увидел…

    2 minimarket
    Огромное спасибо. сниму эту галку, т.к. карта ручками вписана.

Просмотр 14 ответов — с 1 по 14 (всего 14)
  • Тема «вопрос по SEO» закрыта для новых ответов.