Поддержка Разное Файл robot.txt

  • Здравствуйте все! Не могу поднять сайт до нужного уровня и подозреваю, что мой robot.txt ни куда не годится и устарел напрочь. Вот он.

    
    User-agent: *
    Allow: /wp-content/uploads
    Disallow: /cgi-bin
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins
    Disallow: /wp-content/themes
    Disallow: /wp-content/cache
    Disallow: /wp-login.php
    Disallow: */attachment_id=*
    Disallow: */trackback
    Disallow: */feed/
    Disallow: /?p=*
    Disallow: *?s=
    Disallow: /xmlrpc.php
    
    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins
    Disallow: /wp-content/themes
    Disallow: /wp-content/cache
    Disallow: /wp-login.php
    Disallow: *?replytocom=*
    Disallow: */attachment_id=*
    Disallow: */trackback
    Disallow: */tag/*
    Disallow: */feed/
    Disallow: /?p=*
    Disallow: *?s=
    Disallow: /xmlrpc.php
    
    Host: мойсайт.ru
    
    Sitemap: http://мойсайт.ru/sitemap.xml
    _______________
    В интернете полно всего и все разное, но нашла как мне кажется современный, но не все понятно, подскажите стоит ли копировать, я понимаю так что не все стоит копировать. У меня блог о путешествиях продаж пока никаких нет. 
    User-agent: *               # общие правила для роботов, кроме Яндекса и Google, 
                                # т.к. для них правила ниже
    Disallow: /cgi-bin          # папка на хостинге
    Disallow: /?                # все параметры запроса на главной
    Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
    Disallow: /wp/              # если есть подкаталог /wp/, где установлена CMS (если нет, 
                                # правило можно удалить)
    Disallow: *?s=              # поиск
    Disallow: *&s=              # поиск
    Disallow: /search/          # поиск
    Disallow: /author/          # архив автора
    Disallow: /users/           # архив авторов
    Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой 
                                # ссылки на статью
    Disallow: */feed            # все фиды
    Disallow: */rss             # rss фид
    Disallow: */embed           # все встраивания
    Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, 
                                # правило можно удалить)
    Disallow: /xmlrpc.php       # файл WordPress API
    Disallow: *utm=             # ссылки с utm-метками
    Disallow: *openstat=        # ссылки с метками openstat
    Allow: */uploads            # открываем папку с файлами uploads
    
    User-agent: GoogleBot       # правила для Google (комментарии не дублирую)
    Disallow: /cgi-bin
    Disallow: /?
    Disallow: /wp-
    Disallow: /wp/
    Disallow: *?s=
    Disallow: *&s=
    Disallow: /search/
    Disallow: /author/
    Disallow: /users/
    Disallow: */trackback
    Disallow: */feed
    Disallow: */rss
    Disallow: */embed
    Disallow: */wlwmanifest.xml
    Disallow: /xmlrpc.php
    Disallow: *utm=
    Disallow: *openstat=
    Allow: */uploads
    Allow: /*/*.js              # открываем js-скрипты внутри /wp- (/*/ - для приоритета)
    Allow: /*/*.css             # открываем css-файлы внутри /wp- (/*/ - для приоритета)
    Allow: /wp-*.png            # картинки в плагинах, cache папке и т.д.
    Allow: /wp-*.jpg            # картинки в плагинах, cache папке и т.д.
    Allow: /wp-*.jpeg           # картинки в плагинах, cache папке и т.д.
    Allow: /wp-*.gif            # картинки в плагинах, cache папке и т.д.
    Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS
    
    User-agent: Yandex          # правила для Яндекса (комментарии не дублирую)
    Disallow: /cgi-bin
    Disallow: /?
    Disallow: /wp-
    Disallow: /wp/
    Disallow: *?s=
    Disallow: *&s=
    Disallow: /search/
    Disallow: /author/
    Disallow: /users/
    Disallow: */trackback
    Disallow: */feed
    Disallow: */rss
    Disallow: */embed
    Disallow: */wlwmanifest.xml
    Disallow: /xmlrpc.php
    Allow: */uploads
    Allow: /*/*.js
    Allow: /*/*.css
    Allow: /wp-*.png
    Allow: /wp-*.jpg
    Allow: /wp-*.jpeg
    Allow: /wp-*.gif
    Allow: /wp-admin/admin-ajax.php
    Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать 
                                # от индексирования, а удалять параметры меток, 
                                # Google такие правила не поддерживает
    Clean-Param: openstat       # аналогично
    
    # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent 
    # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
    Sitemap: http://site.ru/sitemap.xml
    Sitemap: http://site.ru/sitemap.xml.gz
    
    # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS 
    # то пишем протокол, если нужно указать порт, указываем). Команду Host понимает 
    # Яндекс и Mail.RU, Google не учитывает.
    Host: www.site.ru
    

    __________________________________________
    Если не трудно пришлите правильный робот плиз)) Спасибо буду очень благодарна за ответы и помощь

Просмотр 15 ответов — с 1 по 15 (всего 16)
  • Модератор Yui

    (@fierevere)

    永子

    если есть сомнения — можете вообще удалить robots.txt

    wordpress пракрасно генерирует и отдает виртуальный вариант,
    корректно дополняемый seo плагинами

    ну и по вашему роботс

    Disallow: /wp-includes/
    Disallow: /wp-content/plugins
    Disallow: /wp-content/themes

    вот это вам точно индексацию портит, ПС хотят видеть ваши js и css

    Роботс делается не для движка, а для сайта.

    Используйте правило: закрывать только то, что вашему сайту не нужно чтобы было в выдаче.
    Грубо говоря — удаляете всё и следите за индексацией (метрика/вебмастер) и если если там появятся нежелательное — закрываете.

    Если Вы показываете в роботсе (закрывающими директивами) то, о чем никто и так не знает Вы делаете только хуже сайту. А то и помогаете злоумышленникам.

    Но помните — роботс не указание. всего лишь рекомендация для ПС.

    http://www.robotstxt.org/robotstxt.html

    • Ответ изменён 7 лет, 1 месяц назад пользователем SeVlad.

    Спасибо за ответы, только у меня вопросов прибавилось((( Я НЕ специалист к сожалению((

    Мой робот я сделала давно, тогда почему-то сайт долго индексировался и мне с яндекс вебмастера предложили закрыть лишнее, чтобы робот быстрей обходил, ну я и закрыла (в интернете день читала про все — так видимо и не поняла)

    Я очень уважаю ваше мнение, но чем больше я смотрю файлов и сайтов, тем больше у меня вопросов ибо в каждом что-то разное — то стоит в конце /, то не стоит и прочие значки вот по ссылке, что прислал SeVlad я вообще ничего не поняла, так как это плюс еще очередной вариант на мою и без того запутанную чайниковую голову
    Yui мне лучше совсем убрать то что Вы написали или добавить разрешение allow для моей темы Нирвана (у меня закачано еще три темы — хотела сменить дизайн посмотреть, чтобы не перегружать обходящего робота) Я ОЧЕНЬ боюсь испортить или открыть больше, чем нужно.
    Могли бы вы подправить, исправить, проверить мой робот тхт или написать новый , чтобы он был правильным и в тоже время не замедлял обход сайта роботами гугла и яндекса.

    
    User-agent: *
    Allow: /wp-content/uploads
    Allow: /wp-content/themes/nirvana/css 
    Disallow: /cgi-bin
    Disallow: /wp-admin/
    Disallow: /wp-content/cache
    Disallow: /wp-login.php
    Disallow: */attachment_id=*
    Disallow: */trackback
    Disallow: */feed/
    Disallow: /?p=*
    Disallow: *?s=
    Disallow: /xmlrpc.php
    
    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins
    Disallow: /wp-content/themes
    Disallow: /wp-content/cache
    Disallow: /wp-login.php
    Disallow: *?replytocom=*
    Disallow: */attachment_id=*
    Disallow: */trackback
    Disallow: */tag/*
    Disallow: */feed/
    Disallow: /?p=*
    Disallow: *?s=
    Disallow: /xmlrpc.php
    
    Host: мойсайт.ru
    
    Sitemap: http://мойсайт.ru/sitemap.xml
    Sitemap: http://мойсайт.ru/sitemap.xml
    

    Обязательно здесь ставить вторую строчку с gz в конце,

    Грубо говоря — удаляете всё и следите за индексацией (метрика/вебмастер) и если если там появятся нежелательное — закрываете

    Как я потом узнаю чем закрыть и что именно (куча значков то вначале, то в конце, то * то все вместе
    Поэтому и спросила, что необходимо написать.
    Тот пример который я приложила изобилует всякими функциями поэтому я и запуталась, а в моем случае многое закрыто, особенно этот css, который гугл так обожает

    Заранее Спасибо за вашу помощь.Пустья покажусь бестолковой, но мне очень нужно, а может быть я даже что-то пойму на вашем примере.

    я вообще ничего не поняла,

    Выходит я зря старался, объяснял 🙁

    о плюс еще очередной вариант на мою и без того запутанную чайниковую голову

    Это не «ещё один вариант», а оф. документация к использованию роботса.
    Не понимаете по англ — у ПС есть по-русски.

    А вообще это форум по ВП, а не по СЕО. С такими вопросами лучше на спец форумы. Напр. на сёрч

    • Ответ изменён 7 лет, 1 месяц назад пользователем SeVlad.
    • Ответ изменён 7 лет, 1 месяц назад пользователем SeVlad.

    Спасибо) за ссылки значит осталась без конкретики, теперь на другой форум(((

    Я написала сюда на форум потому что на многих сайтах, где я читала для вордпресса пишут отдельный именно робот тхт для вордпресс, не было выбора.

    Все-таки еще таю надежду на помощь сообщества ибо мне так и не понятно что и как правильно закрыть, а что открыть и как. Если кто напишет готовый или поправит мой вариант — буду безмерно счастлива, даже если там будет всего несколько строчек, только поясните плиз.

    на многих сайтах, где я читала для вордпресса пишут отдельный именно робот тхт для вордпресс

    Там пишут, а точнее копипастят друг у друга такие же не понимающие что зачем и почему.

    значит осталась без конкретики

    Нормально…. Что Yui написала, что я — всё бестолку? Нда..
    Может всё же попробуете перечитать. Хотя бы ответ Yui.

    Модератор Yui

    (@fierevere)

    永子

    я пожалуй добавлю еще — не нужно ничего чрезмерно усложнять
    без веской на то причины и понимания того что делаешь

    Ну и конечно же самый плохой вариант — просто скопировать откуда-то чужой пример, без понимания того, чего там пытался добиться автор.

    robots.txt должен быть минимален. Все что не должно индексироваться (точки входа REST API например, которых в вашем роботсе нет) может быть закрыто мета тегами noindex, что вообщем-то обычно и делается (отчасти самим ВП, отчасти настройками ваших SEO плагинов, у вас же установлен какой-нибудь Yoast или All In One SEO ?)

    Я еще раз посоветую просто удалить ваш robots.txt и зайти на ваш сайт http://адрес/robots.txt и посмотреть что вам предложит ваш вордпресс с вашими установленными SEO плагинами и их настройками

    • Ответ изменён 7 лет, 1 месяц назад пользователем Yui.

    Спасибо!!! Большое. Да я конечно же я перечитала и не раз, но легче-то мне не стало(((
    Свой робот я проверяла, что до, что после удаления 3 строк по рекомендации Yui- ошибок нет. Но и понимания тоже
    Теперь я удалила робот совсем (точнее удалила его содержимое через плагин All In One SEO (правильно или надо совсем файл удалить через FTP ???)
    Набрала как вы сказали, но без закрывающего / была пустая страница с / на конце показал строчки, где предлагает провести анализ сайта подскажите, как мне узнать что предложит вордпресс (где его предложения увидеть) Спасибо. Почему-то мой сео пак показывал при нажатии на кнопку оптимизации строку хост красным, а в оптимизированном варианте у него это строки вообще не было ( я не стала оптимизировать) Сейчас в файле робот пусто. Что дальше?? Подскажите? Попроще, если можно. Спасибо

    Модератор Yui

    (@fierevere)

    永子

    Теперь я удалила робот совсем (точнее удалила его содержимое через плагин All In One SEO (правильно или надо совсем файл удалить через FTP ???)

    надо чтобы файл не был пустым, надо чтобы его было совсем не было
    тогда будет обращение к движку wordpress , который и отдаст сгенерированный им robots.txt

    и зайти на ваш сайт http://адрес/robots.txt и посмотреть

    зайдите, посмотрите что у вас там будет

    Спасибо Yui вот что вордпресс сгенерировал, все разрешил брать, как-то стремно. Скажите что-нибудь пжл не бросайте на произвол судьбы)

    User-agent: *
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php

    Sitemap: http://мой сайт.ru/sitemap.xml.gz

    Sitemap: http://мой сайт.ru/sitemap.xml

    Модератор Yui

    (@fierevere)

    永子

    И чем этот вариант плох?

    Закрыта админка, разрешен ajax, указана карта сайта
    все что нужно есть.

    То что должно быть закрыто, SEO плагин и сам WP закрывают через мета noindex

    оставляйте, наблюдайте
    если в консоли ПС будут признаки того, что в индекс попадает то, что не нужно
    тогда и будете придумывать правила

    А скажите ссколько времени нужно наблюдать (день два или???)

    И очень беспокоит отсутствие
    Disallow: /cgi-bin
    получается, то что мне в поддержке вэбмастера сказали про долгий обход робота из-за кучи разрешений, оно будет компенсироваться запретами настроек плагина All in Seo pak. Надеюсь там все правильно. Только я читала, что роботы могут и не реагировать на это. Может я старую инфу читала, не знаю. Но пока оставлю как Вы сказали. Спасибо

    Модератор Yui

    (@fierevere)

    永子

    день? знаете как медленно ПС реиндексируют? Особенно яндекс. Для гугла примерно так пару недель, Яша — месяц и более

    И очень беспокоит отсутствие
    Disallow: /cgi-bin

    это вообще пережиток прошлого, когда в эту папку клали скрипты и бинарники исполняемые вебсервером. У некоторых хостеров конечно иногда встречается такой атавизм, но я бы не сказала что это нормально. В любом случае, отсутствие директивы Disallow никак не влияет на то, будут ваш сервер там «щупать» хакеры или нет. На индексирование тем более

    Скорее всего у вас старые данные, для сайтостроения тенденции меняются быстро, так что информация нескольких лет давности уже может устаревать

    Спасибо, за объяснения, полезно, только вот забыла спросить — нужно прописывать тоже самое специально для робота яндекса или этих строчек достаточно всем роботам — а то везде пишут, что Яша особенный)) или это у них в поддержке лучше спросить, как Вы считаете.
    Про устаревшую инфу, да читаешь и не знаешь правильно или нет, да еще действительно передирают друг у друга(((

    Модератор Yui

    (@fierevere)

    永子

    с базовым набором правил , особенности для яндекс не нужны
    достаточно того что написано для всех User-agent: *

Просмотр 15 ответов — с 1 по 15 (всего 16)
  • Тема «Файл robot.txt» закрыта для новых ответов.