Поддержка Разное Robots.txt

  • Здравствуйте! настраивают robots.txt для яндекс и гугл. для яндекса я прописала, а можно ли чтобы в этом файле был настроен гугл?

Просмотр 10 ответов — с 1 по 10 (всего 10)
  • Модератор Yui

    (@fierevere)

    永子

    http://toys-usa.ru/robots.txt

    у вас же есть правила

    User-agent: Googlebot

    там и меняйте если что нужно для гугла

    Спасибо!
    скажите а если я только это укажу то это будет неверно?

    User-agent: Googlebot
    Disallow: /cgi-bin
    Sitemap: http://toys-usa.ru/sitemap.xml

    Модератор Yui

    (@fierevere)

    永子

    Disallow: /cgi-bin

    если у вас есть такая папка, и в ней какое-то содержимое,
    то это правило нужное. Если папки нет — нет смысла и можно его убрать

    Disallow: /wp-admin

    в админке ПС делать нечего, все верно

    Disallow: /wp-content/cache

    в кеше тоже лазить нечего

    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback

    и тут ПС опять же делать нечего
    хотя там по хорошему должен ставится мета noindex на самой странице

    Disallow: */*/feed/*/
    Disallow: */feed
    аналогично с RSS, нечего ее индексировать, но там тоже есть noindex

    Disallow: /*?*
    отсекать доп параметры страницы — вполне логично
    байду например (китайцы)любят подолбить ?replytocom

    Вообще я смотрю у вас различие было в роботс между яндексом и гуглом только в каноникал хосте и соответственно локации sitemap, только работать это у вас будет криво
    поскольку sitemap явно задает Host: toys-usa.ru во всех ссылках
    и на страницах <link rel=»canonical» href=»http://toys-usa.ru&#187; />

    поэтому нет смысла для других поисковых ботов рисовать что-то другое, они попытаются это воспринять, но могут и ошибку выдать

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-content/cache
    Disallow: /*?*
    Host: toys-usa.ru
    Sitemap: http://toys-usa.ru/sitemap_index.xml

    я бы вот так оставила

    /*?* может яндексом не восприниматься, но он его проигнорирует, фатальной ошибки не возникнет

    в админке ПС делать нечего, все верно

    Они и так там ничего не проиндексируют 😉

    например (китайцы)любят подолбить ?replytocom

    Это ж вообще не связано с индексированием.
    replytocom (и пр мусорные параметры) могут появится в индексе при использовании СЕО плагинов. Без них ВП каноникал корректно проставляет.

    Disallow: /wp-content/cache
    в кеше тоже лазить нечего

    Спорно.
    Если есть кеш — зачем же ботам лишний раз нагружать сайт? А они очень даже могут.

    MarinaPautova, рекомендую ознакомится со ссылками, данными в стартпосте: http://searchengines.guru/showthread.php?t=828288

    Модератор Yui

    (@fierevere)

    永子

    Это ж вообще не связано с индексированием.
    replytocom (и пр мусорные параметры) могут появится в индексе при использовании СЕО плагинов

    Baidu и без плагинов обожает долбить эти replytocomы

    Спорно.
    Если есть кеш — зачем же ботам лишний раз нагружать сайт? А они очень даже могут.

    спорно что?) то что ботам и вообще кому либо нечего лазить по прямому url в папку кеша?
    Там вообще по хорошему должно стоять Deny from all

    Модератор Yui

    (@fierevere)

    永子

    ну вот уже акисмет сообщения без единой ссылки в карантин отправляет… ппц

    Baidu и без плагинов обожает долбить эти replytocomы

    И я ж о том 🙂 Об индексе — это след мысль.

    то что ботам и вообще кому либо нечего лазить по прямому url в папку кеша?

    А разе не оттуда достаются, например реалтайм-генерируемые картинки?
    Мне почему-то кажется, что я такое не раз видел.

    спорно что?) то что ботам и вообще кому либо нечего лазить по прямому url в папку кеша?
    Там вообще по хорошему должно стоять Deny from all

    Вообще, да, соглашусь 😉
    Но только в том, что это нужно закрывать на уровне сервера, а не роботса.
    Роботс — это всего лишь рекомендация для ПС. И последние, ксати, индексируют вне зависимости от него. А вот что в выдачу выдают — это отдельный разговор.

    Спасибо)))
    скажите может я неправильно понимаю. мне Google пишет что у меня проиндексировано 0 страниц, хотя robots.txt настроен. с чем это может быть связано?

    рекомендую ознакомится со ссылками, данными в стартпосте: http://searchengines.guru/showthread.php?t=828288

    спасибо читаю.

    с чем это может быть связано?

    Индексация — процесс не моментальный. Могут и месяцы пройти (редко, но говорят, бывает)
    По ссылкам найдёте инструменты проверки роботса — они всё расскажут.

Просмотр 10 ответов — с 1 по 10 (всего 10)
  • Тема «Robots.txt» закрыта для новых ответов.