Правильный robots.txt для WordPress

Мой блог набирает популярность, а поисковые системы всё лучше и лучше начинают его индексировать. Сейчас задумался над тем чтобы в поисковый индекс попадали только нужные страницы блога без мусора и дублирующего контента.

robots.txt

Просто может получиться так что в поисковую систему попадут две разные страницы, а содержание этих страниц идентичное. Поисковики относятся к этому негативно.

Введение

Чтобы избежать этого нужно разработать свод правила по индексированию сайта, т.е. составить robots.txt и разместить его в корне.

Для начала хочу привести список с именами ботов поисковых систем:

  • Яндекс — yandex
  • Гугл — google
  • Рамблер — StackRambler
  • Мэйл — Mail.ru
  • Апорт — Aport
  • Алекса — Alexa

Чуть дальше по тексту ты обязательно поймёшь для чего нужна эта таблица. А сейчас важно понять что, при составлении robots.txt для  Яндекса нужно писать «yandex», а для гугла нужно писать «google».

Как это работает

Если Вы закрываетесь от определённой поисковой системы, то в строке

User-agent:

нужно указать интересующую тебя поисковую систему.

Если оставить

User-agent: *

то нижеследующие правила будут распространятся на все поисковые системы.

Строчка

Disallow: /wp-admin/

закрывает от индексации всё что находится в папке /wp-admin/, а если быть точным то все URL’ы в которых вначале стоит /wp-admin/.

Ещё для некоторых поисковых систем можно укзаать параметр, который напоминает поисковой системе о том какой именно сайт индексирется.

Host: ibragimov.me

Так же можно указать где расположен xml карта сайта. Как её сгенерировать и для чего она нужна Я буду писать позже, так что подписывайтесь на обновления!

Sitemap: http://ibragimov.me/sitemap.xml

Встречайте robots.txt

На момент написания статьи мой robots.txt для Яндекса и других поисковых систем выглядит следующий образом:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: */trackback
Disallow: */comments
Disallow: /*.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: */trackback
Disallow: */comments
Disallow: /*.php
Host: ibragimov.me
Sitemap: http://ibragimov.me/sitemap.xml

 

Подглядывайте

Узнать какой на данный момент используется robots.txt на сайте можно по ссылке http://ibragimov.me/robots.txt Это работает для любого сайта. Подглядывайте за лучшими блогами, но не забывайте что есть индивидуальные правила, которые Вам не только не нужны, но и могут навредить. Будте внимательны и проверяйте свой роботс с помощью сервиса Яндекса http://webmaster.yandex.ru/robots.xml!

 

 

Есть что добавить? Остались вопросы? Написать!
  1. макс

    http://ibragimov.me/robots.txt

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    и это все ? а где robots?

    Ответить
    • OnArs

      Я что где то упомянул что его использую?

      Ответить
  2. Kplay

    А почему не используете, если не секрет?

    Ответить
    • Арсен Ибрагимов

      Потому что мне всё равно что там роботы наиндексировали :)

      Ответить
  3. soko1

    А зачем дублировать правила «для всех» и отдельно для яндекса? Не совсем понятно…Поясните плз.

    Ответить
    • Арсен Ибрагимов

      На самом деле так делать не стоит. Это подхвачено у топовых блоггеров. Эту директиву стоит использовать в том случае если например всем поисковикам разрешить индексировать один контент, а определённой ПС другой контент.

      Ответить
  4. Ytor

    То есть советую, но сам не использую =) оригинально.

    Ответить

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *