Правильный robots.txt для WordPress

Мой блог набирает популярность, а поисковые системы всё лучше и лучше начинают его индексировать. Сейчас задумался над тем чтобы в поисковый индекс попадали только нужные страницы блога без мусора и дублирующего контента.

robots.txt

Просто может получиться так что в поисковую систему попадут две разные страницы, а содержание этих страниц идентичное. Поисковики относятся к этому негативно.

Введение

Чтобы избежать этого нужно разработать свод правила по индексированию сайта, т.е. составить robots.txt и разместить его в корне.

Для начала хочу привести список с именами ботов поисковых систем:

  • Яндекс – yandex
  • Гугл – google
  • Рамблер – StackRambler
  • Мэйл – Mail.ru
  • Апорт – Aport
  • Алекса – Alexa

Чуть дальше по тексту ты обязательно поймёшь для чего нужна эта таблица. А сейчас важно понять что, при составлении robots.txt для  Яндекса нужно писать “yandex”, а для гугла нужно писать “google”.

Как это работает

Если Вы закрываетесь от определённой поисковой системы, то в строке

User-agent:

нужно указать интересующую тебя поисковую систему.

Если оставить

User-agent: *

то нижеследующие правила будут распространятся на все поисковые системы.

Строчка

Disallow: /wp-admin/

закрывает от индексации всё что находится в папке /wp-admin/, а если быть точным то все URL’ы в которых вначале стоит /wp-admin/.

Ещё для некоторых поисковых систем можно укзаать параметр, который напоминает поисковой системе о том какой именно сайт индексирется.

Host: ibragimov.me

Так же можно указать где расположен xml карта сайта. Как её сгенерировать и для чего она нужна Я буду писать позже, так что подписывайтесь на обновления!

Sitemap: https://ibragimov.me/sitemap.xml

Встречайте robots.txt

На момент написания статьи мой robots.txt для Яндекса и других поисковых систем выглядит следующий образом:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: */trackback
Disallow: */comments
Disallow: /*.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: */trackback
Disallow: */comments
Disallow: /*.php
Host: ibragimov.me
Sitemap: https://ibragimov.me/sitemap.xml

 

Подглядывайте

Узнать какой на данный момент используется robots.txt на сайте можно по ссылке https://ibragimov.me/robots.txt Это работает для любого сайта. Подглядывайте за лучшими блогами, но не забывайте что есть индивидуальные правила, которые Вам не только не нужны, но и могут навредить. Будте внимательны и проверяйте свой роботс с помощью сервиса Яндекса http://webmaster.yandex.ru/robots.xml!

 

 

8 responses to “Правильный robots.txt для WordPress”

  1. http://ibragimov.me/robots.txt

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    и это все ? а где robots?

    1. Я что где то упомянул что его использую?

  2. А почему не используете, если не секрет?

    1. Арсен Ибрагимов Avatar
      Арсен Ибрагимов

      Потому что мне всё равно что там роботы наиндексировали :)

  3. А зачем дублировать правила “для всех” и отдельно для яндекса? Не совсем понятно…Поясните плз.

    1. Арсен Ибрагимов Avatar
      Арсен Ибрагимов

      На самом деле так делать не стоит. Это подхвачено у топовых блоггеров. Эту директиву стоит использовать в том случае если например всем поисковикам разрешить индексировать один контент, а определённой ПС другой контент.

  4. То есть советую, но сам не использую =) оригинально.

    1. Арсен Ибрагимов Avatar
      Арсен Ибрагимов

      Теперь уже использую

Leave a Reply

Your email address will not be published. Required fields are marked *