В wordpress есть несколько служебных файлов и папок, которые по-умолчанию могут индексироваться поисковиками. Это лишняя информация, которая засоряет базу поисковика, и мешает индексировать сайт, да и выставлять наружу файлы движка не самый лучший ход. Чтобы скрыть их нужно использовать файл robots.txt о котором и пойдет речь далее. Помимо этого я недавно рассматривал тему дублирующегося контента в wordpress, и все выводы, сделанные в той статье, найдут отражение при написании конечного robots.txt здесь.Если вы не знакомы с форматом и параметрами файла robots.txt, то более подробно можно почитать в моей статье об этом файле. Структура wordpress слабо меняется с выходом новых версия, поэтому можно говорить, что мой вариант подойдет для большинства сайтов. Текст файла, приведенный ниже, полностью работоспособный и может использоваться сразу, достаточно только вставить имя вашего сайта в конце в директиву Sitemap.

User-agent: *
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /tag/
Disallow: /?s=
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Allow: /wp-content/uploads/

Sitemap: http://xela.ru/sitemap.xml

Сначала (строки 1-3) скрываем от поисковиков служебные файлы — страницы удаленного постинга, авторизации и регистрации, которые в противном случае они найдут. Затем (строки 4-6) служебные папки с темами, плагинами и т.д. Стоит обратить внимание, что внизу мы откроем доступ к папке картинок директивой «Allow: /wp-content/uploads/», если у вас картинки к статьям лежат в другой папке, то необходимо поменять путь.

Строки, путь в которых начинается с «/wp» можно закрыть при помощи одной директивы — «Disallow: /wp*», но я бы не стал так делать, потому, что эта маска может в будущих версиях закрыть от индексации что-то важное, да и с конкретными путями получается нагляднее.

Далее закрываем тэги — «Disallow: /tag/», чтобы избежать дублирующегося контента и страницу результатов поиска- «Disallow: /?s=» , которая не несет никакой полезной информации для поисковиков и тоже может генерировать лишний неоригинальный контент.

Поисковые роботы, за исключением специализированных, которые ищут по блогам, не понимают фиды и т.п., и выдают ошибки, поэтому закрываем от них непонятные страницы. При этом «блогороботы» наоборот понимают в основном только RSS и игнорируют остальной контент, поэтому для них не нужна отдельная секция в robots.txt, они находят RSS-потоки и на этом их путешествие по сайту заканчивается. Записи «Disallow: /comments/» и «Disallow: */comments/» отличаются друг от друга, в первом случае мы закрываем фид со всеми комментариями, а во втором фиды с комментариями к отдельным статьям.

И, наконец, прописываем путь к файлу sitemap.

Стоит добавить, что при формате ЧПУ-ссылок с датой в начале, нет возможности закрыть от индексации архивы. Для этого я использую плагин All in One SEO Pack, а в нем ставлю noindex для архивов. Но можно поступить и проще, на этом сайте я просто убрал ссылку на архивы.

Ссылки по теме:
пример robots.txt на официальном сайте wordpress.