четверг, 25 октября 2012 г.

Индексация блога поисковыми системами и правильные файлы robots.txt и sitemap.xml


Привет, сегодня речь пойдет о таких важных файлах, как robots.txt и sitemap.xml. Что это такое и с чем его едят? Сначала небольшое вступление.

Ну вот, создали вы свой блог, наполнили его контентом, а что дальше? А теперь, дорогой друг, настало время индексации.


Индексация поисковыми системами, пожалуй, самый важный фактор в продвижении вашего сайта.

Поисковая система проиндексировала ваш сайт – означает, что она узнала о существовании страниц вашего сайта и об информации на ваших страницах, и впоследствии будет показывать ваши страницы в поисковой выдаче, если ваши страницы максимально подходят под введенный запрос.

Также существует такое понятие, как ранжирование страниц – это “выстраивание сайтов по росту”. Другими словами, поисковая система определяет какой сайт наиболее подходит к введенному запросу и выводит его выше, чем остальные. Очевидно, что чтобы получить большое количество посетителей на сайт, нужно стремиться к попаданию в ТОП 10 (первая страница выдачи) поисковых систем. На ранжирование страниц в поиске влияет огромное количество факторов, и большая часть из них зависит именно от нас. Об основных методах поисковой оптимизации читайте в следующих статьях.

Ну а теперь ближе к делу.

Поисковый робот придет на ваш сайт, проиндексирует главную страницу, найдет на главной странице ссылки на внутренние и проиндексирует их. Робот может не найти некоторые страницы, или индексировать их слишком долго. Для того, чтобы робот не “прыгал” по вашим страницам, существует файл Sitemap.xml (карта сайта). В этом файле указываются ссылки на все страницы вашего сайта. Вместо того, чтобы робот самовольно гулял по вашему сайту, достаточно “скормить” ему только файл sitemap.xml и он проиндексирует все указанные там страницы.

Файл sitemap.xml выглядит примерно следующим образом:



Я не буду подробно останавливаться на принципах создания этого файла, а скажу лишь, что такой файл на WordPress можно создать с помощью плагина “Google Sitemap Generator” (Скачать). Достаточно лишь загрузить этот плагин , активировать, зайти в его  настройки и нажать “Создать карту”. Карта сгенерируется автоматически и будет доступна по адресу ваш_сайт.ру/sitemap.xml Карта сайта будет сама обновляться и добавлять нужные ссылки.

Поисковый робот приходит на ваш сайт и индексирует все страницы, в следствие чего они могут появиться в поисковой выдаче. А ведь вам не нужно, чтобы ваша админка, к примеру, появлялась в поиске? Вот для того, чтобы запрещать поисковым роботам для индексации определенные страницы (файлы, папки) и существует файл robots.txt.

Robots.txt – это определенный текстовый файл, который лежит в корневой директории сайта и содержит специальные инструкции для поисковых роботов. В этом файле прописывается основной адрес сайта (хост), путь к карте сайта, и указываются разрешенные и запрещенные для индексации страницы. Опять-таки, я не буду подробно останавливаться на принципах создания этого файла,  если вам интересно, то об этом  вы можете прочитать на сайте robotstxt.org.ru.

Для вордпресс файл robots.txt можно создать следующим плагином:  KB-robotstxt. Загрузите его, активируйте и зайдите в настройки. Там можно указать содержимое этого файла.

По моему мнению, самый оптимальный robots.txt для WordPress должен выглядеть следующим образом:

User-agent: *
Disallow: /xmlrpc.php
Disallow: /tag
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /?*
Sitemap: http://ВАШ_САЙТ.ru/sitemap.xml
Host: ВАШ_САЙТ.ru

User-agent: Yandex
Disallow: /xmlrpc.php
Disallow: /tag
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /?*
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/*
Allow: /wp-content/uploads
Sitemap: http://ВАШ_САЙТ.ru/sitemap.xml




Важно: Не забудьте изменить ВАШ_САЙТ на адрес своего сайта!

Комментариев нет:

Отправить комментарий