Рубрика: Блог на Wordpress
20 Авг 2009
В wordpress есть несколько служебных файлов и папок, которые по-умолчанию могут индексироваться поисковиками. Это лишняя информация, которая засоряет базу поисковика, и мешает индексировать сайт, да и выставлять наружу файлы движка не самый лучший ход. Чтобы скрыть их нужно использовать файл robots.txt о котором и пойдет речь далее. Помимо этого я недавно рассматривал тему дублирующегося контента в wordpress, и все выводы, сделанные в той статье, найдут отражение при написании конечного robots.txt здесь.Если вы не знакомы с форматом и параметрами файла robots.txt, то более подробно можно почитать в моей статье об этом файле. Структура wordpress слабо меняется с выходом новых версия, поэтому можно говорить, что мой вариант подойдет для большинства сайтов. Текст файла, приведенный ниже, полностью работоспособный и может использоваться сразу, достаточно только вставить имя вашего сайта в конце в директиву Sitemap.
User-agent: *
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /tag/
Disallow: /?s=
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Allow: /wp-content/uploads/Sitemap: http://xela.ru/sitemap.xml
Сначала (строки 1-3) скрываем от поисковиков служебные файлы – страницы удаленного постинга, авторизации и регистрации, которые в противном случае они найдут. Затем (строки 4-6) служебные папки с темами, плагинами и т.д. Стоит обратить внимание, что внизу мы откроем доступ к папке картинок директивой “Allow: /wp-content/uploads/”, если у вас картинки к статьям лежат в другой папке, то необходимо поменять путь.
Строки, путь в которых начинается с “/wp” можно закрыть при помощи одной директивы – “Disallow: /wp*”, но я бы не стал так делать, потому, что эта маска может в будущих версиях закрыть от индексации что-то важное, да и с конкретными путями получается нагляднее.
Далее закрываем тэги – “Disallow: /tag/”, чтобы избежать дублирующегося контента и страницу результатов поиска- “Disallow: /?s=” , которая не несет никакой полезной информации для поисковиков и тоже может генерировать лишний неоригинальный контент.
Поисковые роботы, за исключением специализированных, которые ищут по блогам, не понимают фиды и т.п., и выдают ошибки, поэтому закрываем от них непонятные страницы. При этом “блогороботы” наоборот понимают в основном только RSS и игнорируют остальной контент, поэтому для них не нужна отдельная секция в robots.txt, они находят RSS-потоки и на этом их путешествие по сайту заканчивается. Записи “Disallow: /comments/” и “Disallow: */comments/” отличаются друг от друга, в первом случае мы закрываем фид со всеми комментариями, а во втором фиды с комментариями к отдельным статьям.
И, наконец, прописываем путь к файлу sitemap.
Стоит добавить, что при формате ЧПУ-ссылок с датой в начале, нет возможности закрыть от индексации архивы. Для этого я использую плагин , а в нем ставлю noindex для архивов. Но можно поступить и проще, на этом сайте я просто убрал ссылку на архивы.
Ссылки по теме:
на официальном сайте wordpress.
Хочу попросить вас ответить на несколько вопросов по развитию этого сайта в статье "Тысяча есть!". Всего несколько минут вашего времени помогут сделать этот сайт еще интереснее.
Скачайте флэш-плеер
5 комментариев к статье: Robots.txt для Wordpress.
29 января 2010 в 19:28
по аналогии следует добавить, если выключен чпу
Disallow: /?tag
Disallow: /?author
Disallow: /?action
Disallow: /?author
Disallow: /?m
Disallow: /?s
30 января 2010 в 12:08
Количество пользователь WP делится на 2 категории: создателей блогов и создателей сателлитов под сапу. Вторые используют олако тегов чтобы увеличить кол-во страниц второго и третьего уровня вложенности, и для них Disallow: /tag/ – смерти подобно.
xela
30 января 2010 в 15:21
Max, без ЧПУ блог можно выбрасывать сразу.
2alex, сателитчики со включенным для поисковиков облаком тэгов идут строем под АГС.
17 июня 2010 в 14:28
Интересует такой вопрос – какие нужно внести правки, чтобы поисковики не относили сайт к блогам, а считали его полноценным интернет-ресурсом?
Заранее спасибо
xela
24 июня 2010 в 17:24
Mikasi, а блог это не полноценный интернет-ресурс?