Robots.txt
-
Здравствуйте! настраивают robots.txt для яндекс и гугл. для яндекса я прописала, а можно ли чтобы в этом файле был настроен гугл?
-
у вас же есть правила
User-agent: Googlebot
там и меняйте если что нужно для гугла
Спасибо!
скажите а если я только это укажу то это будет неверно?User-agent: Googlebot
Disallow: /cgi-bin
Sitemap: http://toys-usa.ru/sitemap.xmlDisallow: /cgi-bin
если у вас есть такая папка, и в ней какое-то содержимое,
то это правило нужное. Если папки нет — нет смысла и можно его убратьDisallow: /wp-admin
в админке ПС делать нечего, все верно
Disallow: /wp-content/cache
в кеше тоже лазить нечего
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackbackи тут ПС опять же делать нечего
хотя там по хорошему должен ставится мета noindex на самой страницеDisallow: */*/feed/*/
Disallow: */feed
аналогично с RSS, нечего ее индексировать, но там тоже есть noindexDisallow: /*?*
отсекать доп параметры страницы — вполне логично
байду например (китайцы)любят подолбить ?replytocomВообще я смотрю у вас различие было в роботс между яндексом и гуглом только в каноникал хосте и соответственно локации sitemap, только работать это у вас будет криво
поскольку sitemap явно задает Host: toys-usa.ru во всех ссылках
и на страницах <link rel=»canonical» href=»http://toys-usa.ru» />поэтому нет смысла для других поисковых ботов рисовать что-то другое, они попытаются это воспринять, но могут и ошибку выдать
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-content/cache Disallow: /*?* Host: toys-usa.ru Sitemap: http://toys-usa.ru/sitemap_index.xml
я бы вот так оставила
/*?* может яндексом не восприниматься, но он его проигнорирует, фатальной ошибки не возникнет
в админке ПС делать нечего, все верно
Они и так там ничего не проиндексируют 😉
например (китайцы)любят подолбить ?replytocom
Это ж вообще не связано с индексированием.
replytocom (и пр мусорные параметры) могут появится в индексе при использовании СЕО плагинов. Без них ВП каноникал корректно проставляет.Disallow: /wp-content/cache
в кеше тоже лазить нечегоСпорно.
Если есть кеш — зачем же ботам лишний раз нагружать сайт? А они очень даже могут.MarinaPautova, рекомендую ознакомится со ссылками, данными в стартпосте: http://searchengines.guru/showthread.php?t=828288
Это ж вообще не связано с индексированием.
replytocom (и пр мусорные параметры) могут появится в индексе при использовании СЕО плагиновBaidu и без плагинов обожает долбить эти replytocomы
Спорно.
Если есть кеш — зачем же ботам лишний раз нагружать сайт? А они очень даже могут.спорно что?) то что ботам и вообще кому либо нечего лазить по прямому url в папку кеша?
Там вообще по хорошему должно стоять Deny from allну вот уже акисмет сообщения без единой ссылки в карантин отправляет… ппц
Baidu и без плагинов обожает долбить эти replytocomы
И я ж о том 🙂 Об индексе — это след мысль.
то что ботам и вообще кому либо нечего лазить по прямому url в папку кеша?
А разе не оттуда достаются, например реалтайм-генерируемые картинки?
Мне почему-то кажется, что я такое не раз видел.спорно что?) то что ботам и вообще кому либо нечего лазить по прямому url в папку кеша?
Там вообще по хорошему должно стоять Deny from allВообще, да, соглашусь 😉
Но только в том, что это нужно закрывать на уровне сервера, а не роботса.
Роботс — это всего лишь рекомендация для ПС. И последние, ксати, индексируют вне зависимости от него. А вот что в выдачу выдают — это отдельный разговор.Спасибо)))
скажите может я неправильно понимаю. мне Google пишет что у меня проиндексировано 0 страниц, хотя robots.txt настроен. с чем это может быть связано?рекомендую ознакомится со ссылками, данными в стартпосте: http://searchengines.guru/showthread.php?t=828288
спасибо читаю.
с чем это может быть связано?
Индексация — процесс не моментальный. Могут и месяцы пройти (редко, но говорят, бывает)
По ссылкам найдёте инструменты проверки роботса — они всё расскажут.
- Тема «Robots.txt» закрыта для новых ответов.