Правильный robots.txt для WordPress

Мой блог набирает популярность, а поисковые системы всё лучше и лучше начинают его индексировать. Сейчас задумался над тем чтобы в поисковый индекс попадали только нужные страницы блога без мусора и дублирующего контента.

Просто может получиться так что в поисковую систему попадут две разные страницы, а содержание этих страниц идентичное. Поисковики относятся к этому негативно.

Введение

Чтобы избежать этого нужно разработать свод правила по индексированию сайта, т.е. составить robots.txt и разместить его в корне.

Для начала хочу привести список с именами ботов поисковых систем:

Яндекс – yandex
Гугл – google
Рамблер – StackRambler
Мэйл – Mail.ru
Апорт – Aport
Алекса – Alexa

Чуть дальше по тексту ты обязательно поймёшь для чего нужна эта таблица. А сейчас важно понять что, при составлении robots.txt для Яндекса нужно писать “yandex”, а для гугла нужно писать “google”.

Как это работает

Если Вы закрываетесь от определённой поисковой системы, то в строке

User-agent:

нужно указать интересующую тебя поисковую систему.

Если оставить

User-agent: *

то нижеследующие правила будут распространятся на все поисковые системы.

Строчка

Disallow: /wp-admin/

закрывает от индексации всё что находится в папке /wp-admin/, а если быть точным то все URL’ы в которых вначале стоит /wp-admin/.

Ещё для некоторых поисковых систем можно укзаать параметр, который напоминает поисковой системе о том какой именно сайт индексирется.

Host: ibragimov.me

Так же можно указать где расположен xml карта сайта. Как её сгенерировать и для чего она нужна Я буду писать позже, так что подписывайтесь на обновления!

Sitemap: https://ibragimov.me/sitemap.xml

Встречайте robots.txt

На момент написания статьи мой robots.txt для Яндекса и других поисковых систем выглядит следующий образом:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: */trackback
Disallow: */comments
Disallow: /*.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: */trackback
Disallow: */comments
Disallow: /*.php
Host: ibragimov.me
Sitemap: https://ibragimov.me/sitemap.xml

Подглядывайте

Узнать какой на данный момент используется robots.txt на сайте можно по ссылке https://ibragimov.me/robots.txt Это работает для любого сайта. Подглядывайте за лучшими блогами, но не забывайте что есть индивидуальные правила, которые Вам не только не нужны, но и могут навредить. Будте внимательны и проверяйте свой роботс с помощью сервиса Яндекса http://webmaster.yandex.ru/robots.xml!

05.05.2013

Wordpress, Настройка

8 responses to “Правильный robots.txt для WordPress”

макс

June 27, 2013 at 8:57 pm

http://ibragimov.me/robots.txt

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

и это все ? а где robots?

Reply
1. OnArs
  
  June 28, 2013 at 2:03 am
  
  Я что где то упомянул что его использую?
  
  Reply
Kplay

August 5, 2013 at 3:18 pm

А почему не используете, если не секрет?

Reply
1. Арсен Ибрагимов
  
  August 25, 2013 at 12:53 pm
  
  Потому что мне всё равно что там роботы наиндексировали :)
  
  Reply
soko1

October 31, 2013 at 12:56 pm

А зачем дублировать правила “для всех” и отдельно для яндекса? Не совсем понятно…Поясните плз.

Reply
1. Арсен Ибрагимов
  
  November 6, 2013 at 5:49 pm
  
  На самом деле так делать не стоит. Это подхвачено у топовых блоггеров. Эту директиву стоит использовать в том случае если например всем поисковикам разрешить индексировать один контент, а определённой ПС другой контент.
  
  Reply
Ytor

November 21, 2013 at 7:11 pm

То есть советую, но сам не использую =) оригинально.

Reply
1. Арсен Ибрагимов
  
  November 25, 2013 at 11:54 am
  
  Теперь уже использую
  
  Reply