Мой блог набирает популярность, а поисковые системы всё лучше и лучше начинают его индексировать. Сейчас задумался над тем чтобы в поисковый индекс попадали только нужные страницы блога без мусора и дублирующего контента.
Просто может получиться так что в поисковую систему попадут две разные страницы, а содержание этих страниц идентичное. Поисковики относятся к этому негативно.
Введение
Чтобы избежать этого нужно разработать свод правила по индексированию сайта, т.е. составить robots.txt и разместить его в корне.
Для начала хочу привести список с именами ботов поисковых систем:
- Яндекс – yandex
- Гугл – google
- Рамблер – StackRambler
- Мэйл – Mail.ru
- Апорт – Aport
- Алекса – Alexa
Чуть дальше по тексту ты обязательно поймёшь для чего нужна эта таблица. А сейчас важно понять что, при составлении robots.txt для Яндекса нужно писать “yandex”, а для гугла нужно писать “google”.
Как это работает
Если Вы закрываетесь от определённой поисковой системы, то в строке
User-agent:
нужно указать интересующую тебя поисковую систему.
Если оставить
User-agent: *
то нижеследующие правила будут распространятся на все поисковые системы.
Строчка
Disallow: /wp-admin/
закрывает от индексации всё что находится в папке /wp-admin/, а если быть точным то все URL’ы в которых вначале стоит /wp-admin/.
Ещё для некоторых поисковых систем можно укзаать параметр, который напоминает поисковой системе о том какой именно сайт индексирется.
Host: ibragimov.me
Так же можно указать где расположен xml карта сайта. Как её сгенерировать и для чего она нужна Я буду писать позже, так что подписывайтесь на обновления!
Sitemap: https://ibragimov.me/sitemap.xml
Встречайте robots.txt
На момент написания статьи мой robots.txt для Яндекса и других поисковых систем выглядит следующий образом:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/cache/ Disallow: /wp-content/themes/ Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: /category/ Disallow: /author/ Disallow: /page/ Disallow: */trackback Disallow: */comments Disallow: /*.php User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/cache/ Disallow: /wp-content/themes/ Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: /category/ Disallow: /author/ Disallow: /page/ Disallow: */trackback Disallow: */comments Disallow: /*.php Host: ibragimov.me Sitemap: https://ibragimov.me/sitemap.xml
Подглядывайте
Узнать какой на данный момент используется robots.txt на сайте можно по ссылке https://ibragimov.me/robots.txt Это работает для любого сайта. Подглядывайте за лучшими блогами, но не забывайте что есть индивидуальные правила, которые Вам не только не нужны, но и могут навредить. Будте внимательны и проверяйте свой роботс с помощью сервиса Яндекса http://webmaster.yandex.ru/robots.xml!
Leave a Reply