Файл Robots.txt — разбираю подробности создания

24.10.2010 | Рубрика: Как я создавал блог 2 комментария

создание файла robots.txt, для чего нужен файл robots.txt Вот и еще одну ошибку я допустил при создании блога, я не уделил внимание созданию такого файла, как robots.txt. Для начала — что он делает? Он запрещает или разрешает индексировать файлы или целые каталоги файлов, которые размещены на сервере моего хостера. Для кого это файл предназначен? Этот файл состоит из инструкций для поисковых роботов, как для всех скопом, так и для отдельных их видов. Ведь только у распоряжении Яндекса их будет не меньше 10 штук.

Когда эти роботы приходят для индексации сайта, они ищут для себя инструкции, которые и прописаны в этом файле. Когда нужно создавать этот файл robots.txt? Сразу же после создания блога и его установки на сервер. Во время написания этой заметки я попытаюсь создать файлы robots.txt для wordpress и robots.txt для joomla

Я долго не мог приступить к написанию этой статьи, потому что я не мог понять некоторые нюансы создания файла robots.txt. Казалось бы, создал обыкновенный документ, назвал загадочно Robots, и написал пару строк, закинул на хост.

Но по мене сбора информации у меня уже начала пухнуть голова, именно в нюансах дело. Нужно учитывать некоторые вещи, чтобы и сайту не повредить, и блогом остались довольны. Для начала установим так, раз этот документ общается с роботами поисковых систем, и указывает на то, какие именно файлы, каталоги индексировать или не индексировать, то было бы разумно написать два Robots.txt. Первый документ будет касаться файлов CMS WordPress, второй — CMS Joomla.

Первый файл для CMS WordPress.

Для создания файла нужно установить все каталоги этой CMS, а после установки я переписываю их. Это я делаю с целью обобщить знания о каталогах и файлах этого движка, а затем разобраться и о том, как создавать этот robots.txt для wordpress:

wp-admin — каталог файлов	wp-config.WPTunerOrig.php
wp-content — каталог файлов	wp-cron.php
wp-includes — каталог файлов	wp-feed.php
.htaccess	wp-links-opml.php
index.php	wp-load.php
license.txt — нужно удалить	wp-login.php
readme.html — нужно прочитать и удалить	wp-mail.php
sitemap.xml	wp-pass.php
sitemap.xml.gz	wp-rdf.php
wp-activate.php	wp-register.php
wp-app.php	wp-rss.php
wp-atom.php	wp-rss2.php
wp-blog-header.php	wp-settings.php
wp-comments-post.php	wp-signup.php
wp-commentsrss2.php	wp-trackback.php
wp-config.php	xmlrpc.php
wp-config.WPTunerFinal.php

А теперь я должен создать новый документ и назвать его robots.txt. Открываю с помощью блокнота и создаю данный документ.

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/uploads/
Disallow: /wp-content/themes/
Disallow: /tag/
Disallow: /trackback/
Disallow: */trackback/
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /?feed=
Disallow: /*?*
Disallow: /?s=
Disallow: /xmlrpc.php
Disallow: /wp-register.php
Sitemap: http://seomans.ru/sitemap.xml.gz
Sitemap: http://seomans.ru/sitemap.xml
User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/uploads/
Disallow: /wp-content/themes/
Disallow: /tag/
Disallow: /trackback/
Disallow: */trackback/
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /?feed=
Disallow: /*?*
Disallow: /?s=
Disallow: /xmlrpc.php
Disallow: /wp-register.php
Host: seomans.ru
Sitemap: http://seomans.ru/sitemap.xml.gz
Sitemap: http://seomans.ru/sitemap.xml

А теперь немного по тексту мною созданного документа robots.txt для wordpress.

User-agent: * — это строка, которая говорит, что всех поисковиков касаются инструкции, которые написаны ниже, я не буду ограничивать никого из поисковиков. User-agent: Yandex — блок инструкций, что касаются только поисковика Яндекс

Allow: /wp-content/uploads/ — в эту папку Вордпресс складывает все загруженные и размещенные картинки в статьях и страницах моего созданного блога. Так как мои картинки представляют собой в основном скрины моей работы, стоит их индексировать, тем более они имеют названия более или менее, но подходящие под тему моего блога.

Если на блоге используют только скачанные в интернете картинки, стоит их назвать по другому, изменить их размер.

Все что размещается в других подкаталогах каталога wp-content — следует запретить от индексации, так как в ней размещены темы оформления блога, плагины, кеш страниц, в принципе, это не нужно показывать поисковику абсолютно. В ней находятся файлы, которые могут еще быть в тысячах других блогах, они связаны с обслуживанием блога.

Disallow: /wp-admin/ — запрет индексирования папки с файлами, которые обеспечивают административную панель в блоге.

Disallow: /wp-includes/ — запрет индексирования каталога с файлами, которые размещены в wp-includes. Это рабочие файлы CMS WordPress, ничего нового для поисковика не представляют, а для потребители вообще никакого интереса не имеют.

Disallow: /wp-content/plugins/, Disallow: /wp-content/cache/, Disallow: /wp-content/themes/ – я запрещаю для индексации все папки и файлы в них, которые содержат плагины, которые установлены в моем блоге, папка cache – я запрещаю к индексации файлы, которые создает плагин кэширования, это дубли открытых страниц моего блога, но я даже не знаю, вроде в формате .HTML. Я не желаю, чтобы эти файлы попадали в индекс поисковиков, так как они времены и создаются на притяжении определенного времени и уничтожаются. Зачем мне его индексировать.

Disallow: /wp-login.php — запрещаю индексировать страницу, по которой я захожу в админку, думаю, не стоит рассказывать почему.

Disallow: /wp-register.php — запрещаю индексировать страницу регистрации на блоге, я ее не использую вообще.

Disallow: /trackback/ и Disallow: */trackback/ — запрещаю индексировать страницы, которые отвечают за трекбеки, вообще не пользуюсь этим делом, и не сильно понимаю что это такое.

Disallow: /feed/, Disallow: */feed/, Disallow: /?feed= — запрещаю индексировать страницы, которые связаны с работой с фидами движка Вордпресс, если честно не очень понял написание этих строк, но понял зачем — все равно фид, это тоже что и заметки, только без применения свойств офрмления темы.

Disallow: /?s= , Disallow: /*?* , Disallow: /*? — запрещаю индексацию результатов поиска, понятно почему.

Disallow: /tag/ — запрет индексации меток на моем блоге, потому что они содержат 100% -ные копии заметок.

Disallow: /xmlrpc.php — запрещаем индексацию файла xmlrpc.php, который отвечает за вызов удаленных процедур в WP.

Sitemap: http://seomans.ru/sitemap.xml, http://seomans.ru/sitemap.xml.gz — строка, которая указывает где размещена карта блога, вернее говорит, что она существует на этом блоге(карта сайта создается с помощью специального плагина )

Host: seomans.ru — это строка говорит, что это мой основной домен, на ней размещена моя главная, оригинальная, сладкая, потом добытая информация. Вся другая подобная инфа той, что на этом домене, является зеркалом.

Некоторые операторы были нещадно скопированы с других блогов, которые базируются на CMS WordPress. Пока я поставлю этот Robots.txt в корневую папку моего блога. Когда найду больше информации о роли не включенных файлов в в роботс, я обязательно добавлю записи и напишу продолжение моей заметки.

Второй файл для CMS Joomla.

Для создания файла нужно установить все каталоги этой CMS, а после установки я переписываю их:

administrator — каталог файлов	xmlrpc
cache — каталог файлов	.htaccess — файл
components — каталог файлов	CHANGELOG.php
images	configuration.php
includes	configuration.php-dist
language	COPYRIGHT.php
libraries	CREDITS.php
logs	index.php
media	index2.php
modules	INSTALL.php
plugins	LICENSE.php
templates	LICENSES.php
tmp

Для сайта acvafish.ru я попробую также создать файл robots.txt.

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /LICENSE.php
Disallow: /LICENSES.php
Host: acvafish.ru
Sitemap: http://acvafish.ru/sitemap.xml

Вроде все по созданию и редактированию файла robots.txt. Хочу правда попросить, если кто имеет какие-то поправки к этой заметке, писать их в комментариях. Может где неточность я допустил, ошибку выловите.

З.Ы. Напоследок напишу пару слов о расшифровке директив файла:

User-agent: * — вместо звездочки указывается название поискового робота. Если указывается конкретное название, то прописывается ему инструкция от директивы до следующей директивы User-agent:. В ней уже прописываются указания следующему роботу. Обычно ставят *, тем самым все условия должны выполнять все роботы всех поисковых систем. Почему так делается? Чтобы не нагромождать условия, ведь они одни и теже, а вот я выбрал я перечисления поисковых роботов. И попробуй имм всем условия то написать.

Google	http://www.google.com	Googlebot
Yahoo!	http://www.yahoo.com	Slurp (или Yahoo! Slurp)
AOL	http://www.aol.com	Slurp
MSN	http://www.msn.com	MSNBot
Live	http://www.live.com	MSNBot
Ask	http://www.ask.com	Teoma
AltaVista	http://www.altavista.com	Scooter
Alexa	http://www.alexa.com	ia_archiver
Lycos	http://www.lycos.com	Lycos
Яндекс	http://www.ya.ru	Yandex
Рамблер	http://www.rambler.ru	StackRambler
Мэйл.ру	http://mail.ru	Mail.Ru
Aport	http://www.aport.ru	Aport
Вебальта	http://www.webalta.ru	WebAlta (WebAlta Crawler/2.0)

Disallow: запрет индексирования. После : указывают что запрещают индексировать. Если стоит Disallow: / - весь сайт, если Disallow: /administrator/ - то каталог, который называется administrator, если Disallow: /LICENSE.php - только вот этот файл.

Аllow: — директива разрешения индексировать роботом созданный блог, каталог с файлами, или файл. Есть один нюанс, можно запретить индексировать все каталоги и подкаталоги сайта(например, administrator). Но рядом написать директиву Allow: /administrator/language/ - и вот уже только этот каталог и файлы, что в ней будут индексироваться.

Директива Sitemap: — указывает путь к карте сайта или блога, очень важно для верной индексации ресурса.

Директива Host: — указывает на основной домен моего сайта, все остальные домены с подобным блогом или сайтом считать зеркалом.

2 комментария

Виктор:

31.01.2011 в 4:51 пп

Не смог удержаться, чтобы вас не поблагодарить за столь подробное описание.
Я в гугл ввёл запрос-и открыл сразу все сайты на странице.
у вас лучший и развёрнутый пример. И понятно и не запутано.
Вот вставил сразу себе ( поменял адреса на свой конечно)
Низкий поклон вам.

Ответить
san4izl:

06.03.2011 в 11:35 пп

Спасибо большое. Соглашусь с товарищем Виктором и правда очень развернутый robots.txt, нигде более подробного пока не нашел.

Ответить

Файл Robots.txt — разбираю подробности создания

2 комментария

Добавить комментарий

Новое на блоге

Реклама

Рубрики

Случайные записи

Читаемое

Комментируемые записи

Коротко о блоге

Страницы блога