Рубрика: Блог на Wordpress
14 Авг 2009
При создании записи в wordpress она автоматически помещается в несколько разделов т.е. она будет повторяться и в нее можно попасть как минимум с главной страницы, из архивов, тэгов и категории. Частично этого можно избежать если пользоваться тэгом “more”, который обрезает часть записи оставляя только анонс. Но в этом случае не записи целиком, а анонсы будут повторяться на страницах, кроме того “more” создает дополнительную ссылку, опять-таки дублируя контент. Почему это плохо и как избежать подобной ситуации?
Почему дублирующийся контент это нехорошо?
Сначала постараемся разобраться почему это нехорошо. В качестве первоисточника из Google Webmaster Blog (на английском) про дублирующийся контент. Краткое резюме: Гугл не наказывает сайты за повторяющиеся материалы, все страницы индексируются, но на результаты выдачи накладывается фильтр, который помогает избежать показа одинаковых результатов. В некоторых случаях, когда они считают, что дублирующийся контент создан с целью манипулирования результатами выдачи, к сайту могут быть применены соответствующие санкции.
Яндекс по этому поводу говорит следующее: “Документ, известный роботу, может не попасть в результаты поиска, если он является дубликатом ранее найденной страницы”. Глубже я копать не стал, но думаю, что в некоторых случаях за одинаковый контент и Яндекс может наказывать.
Кроме непосредственно наказания может сложиться ситуация, когда вместо страницы в выдачу может попасть ее копия из архива или тэгов, что нам конечно же не нужно.
Что сделать, чтобы этого избежать?
Сначала надо уточнить для чего сделан сайт. Если сайт сделан под рекламу, то чем больше страниц проиндексировано поисковиком и присутствует в выдаче, тем больше рекламных площадей доступно. С другой стороны часть дублированных страниц все равно не будет помещена в выдачу, а само присутствие этих страниц в базе может замедлить последующую индексацию сайта. Да и возможность наказания не стоит игнорировать т.к. сайт под рекламу уже заведомо рискует. Для сайтов, при создании которых реклама не главное, все несколько проще, необходимо закрыть лишние страницы от поисковиков и все.
С чего начать?
Первое – это постоянные ссылки ЧПУ (человеко понятные ссылки). У кого установлены и настроены могут пропустить абзац. Итак, чтобы сделать постоянные ссылки заходим в раздел “настройки” и вполне логично выбираем “постоянные ссылки”, дальше по инструкциям. Формат ссылок не важен, для себя я выбрал “месяц и название”, но это не принципиально. Далее необходимо поставить и активировать плагин RusToLat, скачать можно . Этот плагин автоматически переводит русские названия статей в транслит и на выходе мы получаем красивые постоянные ссылки с буквенным названием без спецсимволов.
Второе – это обрезка статей при помощи “more” до анонсов. Конечно если вы пишете по 1-2 абзаца, то пользоваться им не стоит, но если статьи достаточно длинные, то лучше спрятать их часть, чтобы не загромождать страницу. При этом читатель может, прочитав начало, сам решить стоит ли переходить дальше. Правда при таком подходе создается лишняя ссылка на страницу, но об этом в другой раз.
Следующий шаг – определить структуру сайта и закрыть ненужное.
Представим себе стандартную схему сайта на Wordpress. Причем за основу возьмем сильно упрощенный вариант: у нас есть 4 записи, они располагаются по 2 на странице, все записи из одной категории с одним тэгом и сделаны в одном месяце. На записи стоят постоянные ссылки, и они обрезаны тэгом “more”. Пропишем все связи в которые вовлечены эти записи:

Получается, что у нас уникальный контент несут только синие страницы, а зеленые в различных видах собирают анонсы. Главная тоже не уникальна, но с ней в любом случае ничего делать нельзя, т.к. эта начальная страница сайта. По-хорошему нужно выкинуть все зеленые страницы, но как в этом случае поисковик найдет записи в шаге от главной, если он не успел их проиндексировать?
Решим что нам не нужно. Тэги и архивы точно не понадобятся. Например, если есть одна запись с несколькими тэгами, то на нее будет вести ссылка со страницы каждого тэга, причем на всех страницах будет один и тот же анонс. А архивы это некая сборка анонсов записей, объединенных временем написания, тоже практической ценности никакой.
Со страницами и категориями несколько сложнее. Категории собирают тематические анонсы, а значит могут формировать уникальный текст для некоторых запросов с большим количеством ключевых слов. Этот текст в свою очередь может лучше подходить под поисковик, чем текст единичной записи, а значит он может принести дополнительных пользователей. Страницы полезны в меньшей степени, но и на них, при регулярном, обновлении блога будет собираться некий уникальный текст. Оставить или закрыть страницы решение индивидуальное, я их оставил. Естественно это работает только при обрезании статей, в противном случае страницы или категории тоже необходимо закрыть, оставив что-то одно для индексации записей ушедших с первой страницы.
Таким образом мы значительно упрощаем структуру ссылок, максимально убираем дублирующийся контент и при этом оставляем возможность для поисковиков найти все записи.
Чтобы реализовать это технически нужно сделать файл robots.txt в корневой директории сайта. Подробнее о файле robots.txt в предыдущей моей статье, а robots.txt для wordpress я опишу в следующей.
Кроме этого стоит обратить внимание на тэги Noindex и Nofollow и возможность их применения для скрытия ссылок от поисковиком.
Сколько же еще продлится эта невыносимая жара?! Совершенно ничего не хочется делать, никого не хочется фотографировать, даже из дома выходить не хочется.
Скачайте флэш-плеер
5 комментариев к статье: Про дублирующийся контент в Wordpress.
15 августа 2009 в 5:34
Добавил на тебя ссылку сюда
21 августа 2009 в 14:34
2adw0rd: спасибо.
Деннис
28 февраля 2010 в 23:30
не актуальная статья
уже есть новый тег: каноникал, который назначает главную страницу.
xela
1 марта 2010 в 10:15
Да, конечно, это неактуально, за исключением того, что Яндекс тег не понимает и безжалостно наказывает за дублирующийся контент, а так все хорошо.
1 марта 2010 в 20:55
[...] UPD: Про дублирующийся контент в WordPress. [...]