В wordpress есть несколько служебных файлов и папок, которые по-умолчанию могут индексироваться поисковиками. Это лишняя информация, которая засоряет базу поисковика, и мешает индексировать сайт, да и выставлять наружу файлы движка не самый лучший ход. Чтобы скрыть их нужно использовать файл robots.txt о котором и пойдет речь далее. Помимо этого я недавно рассматривал тему дублирующегося контента в wordpress, и все выводы, сделанные в той статье, найдут отражение при написании конечного robots.txt здесь.Если вы не знакомы с форматом и параметрами файла robots.txt, то более подробно можно почитать в моей статье об этом файле. Структура wordpress слабо меняется с выходом новых версия, поэтому можно говорить, что мой вариант подойдет для большинства сайтов. Текст файла, приведенный ниже, полностью работоспособный и может использоваться сразу, достаточно только вставить имя вашего сайта в конце в директиву Sitemap.
User-agent: *
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /tag/
Disallow: /?s=
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Allow: /wp-content/uploads/Sitemap: http://xela.ru/sitemap.xml
Сначала (строки 1-3) скрываем от поисковиков служебные файлы — страницы удаленного постинга, авторизации и регистрации, которые в противном случае они найдут. Затем (строки 4-6) служебные папки с темами, плагинами и т.д. Стоит обратить внимание, что внизу мы откроем доступ к папке картинок директивой «Allow: /wp-content/uploads/», если у вас картинки к статьям лежат в другой папке, то необходимо поменять путь.
Строки, путь в которых начинается с «/wp» можно закрыть при помощи одной директивы — «Disallow: /wp*», но я бы не стал так делать, потому, что эта маска может в будущих версиях закрыть от индексации что-то важное, да и с конкретными путями получается нагляднее.
Далее закрываем тэги — «Disallow: /tag/», чтобы избежать дублирующегося контента и страницу результатов поиска- «Disallow: /?s=» , которая не несет никакой полезной информации для поисковиков и тоже может генерировать лишний неоригинальный контент.
Поисковые роботы, за исключением специализированных, которые ищут по блогам, не понимают фиды и т.п., и выдают ошибки, поэтому закрываем от них непонятные страницы. При этом «блогороботы» наоборот понимают в основном только RSS и игнорируют остальной контент, поэтому для них не нужна отдельная секция в robots.txt, они находят RSS-потоки и на этом их путешествие по сайту заканчивается. Записи «Disallow: /comments/» и «Disallow: */comments/» отличаются друг от друга, в первом случае мы закрываем фид со всеми комментариями, а во втором фиды с комментариями к отдельным статьям.
И, наконец, прописываем путь к файлу sitemap.
Стоит добавить, что при формате ЧПУ-ссылок с датой в начале, нет возможности закрыть от индексации архивы. Для этого я использую плагин All in One SEO Pack, а в нем ставлю noindex для архивов. Но можно поступить и проще, на этом сайте я просто убрал ссылку на архивы.
Ссылки по теме:
пример robots.txt на официальном сайте wordpress.
Max says:
Янв 29, 2010
по аналогии следует добавить, если выключен чпу
Disallow: /?tag
Disallow: /?author
Disallow: /?action
Disallow: /?author
Disallow: /?m
Disallow: /?s
xela says:
Янв 30, 2010
Max, без ЧПУ блог можно выбрасывать сразу.
2alex, сателитчики со включенным для поисковиков облаком тэгов идут строем под АГС.
alex says:
Янв 30, 2010
Количество пользователь WP делится на 2 категории: создателей блогов и создателей сателлитов под сапу. Вторые используют олако тегов чтобы увеличить кол-во страниц второго и третьего уровня вложенности, и для них Disallow: /tag/ — смерти подобно.
Mikasi says:
Июн 17, 2010
Интересует такой вопрос — какие нужно внести правки, чтобы поисковики не относили сайт к блогам, а считали его полноценным интернет-ресурсом?
Заранее спасибо :)
xela says:
Июн 24, 2010
Mikasi, а блог это не полноценный интернет-ресурс? :)
cereber.ru says:
Май 2, 2011
а в какой папке располагаются посты?
xela says:
Май 2, 2011
вообще посты располагаются в базе MySQL :)))))
WeBmaster says:
Май 26, 2011
Спаибо.Давно искал