Как найти и удалить дубли страниц на сайте

Как найти и удалить дубли страниц на сайте? Это вопрос должен волновать любого вебмастера. Чаще всего о дублях задумываемся на этапе, когда их уже насобирается приличное количество… Так ли страшны дубли?

Чем грозят дубли страниц для сайта?

Как их найти и удалить?

Всем известно, что успех сайта во многом зависит от того, как его воспринимают поисковые системы. Поисковые системы очень негативно относятся к неуникальным материалам сайтов. При ранжировании страниц роботу сложно определить страницу-первоисточник. Вряд ли неуникальный сайт окажется в первых строках поисковой страницы.

Но бывает так, что весь материал на сайте написан лично автором на основании собственного опыта, а при вводе части текста в строку поиска в результате выдается две, а то и три страницы с точно таким же текстом. Это страницы-дубли одного и того же сайта.

Виды и причины возникновения

Страницы-дубли можно разделить на две группы: полные и неполные.

Полные дубли – это страницы с полностью одинаковым содержимым. Неполные дубли содержат существенную часть текстов с других страниц, но не весь текст. И те, и другие не лучшим образом скажутся на ранжировании страниц сайта.

Чаще всего, полные страницы-дублеры появляются из-за разных недоработок и ошибок шаблонов CMS. А также установка различных модулей и компонентов может спровоцировать появление страниц с одинаковыми содержимым и адресами, но с разными расширениями (www.***.php, www.***.html и т.д.)

Смена дизайна, изменение структуры сайта также может способствовать появлению дублеров. Связано это с тем, что в процессе смены могут появиться страницы с новым адресом, а на старых адресах останутся те же страницы с тем же содержимым.

Ну и последняя причина полных дублей – человеческий фактор. Вебмастер сам может нечаянно создать дубли страниц, ошибившись в написании кода.

Неполные страницы-дублеры появляются по двум причинам. Во-первых, если содержание станиц слишком мало и их сквозные части, такие как шапка, подвал и боковые колонки, составляют основную часть страницы. Во-вторых, если какие-то части материала без изменения помещаются на разных страницах.

Как найти страницы-дубли

Самый простой метод поиска – это поисковая система. Следует ввести в строку поиска 1-2 предложения из текста со страницы, которую нужно проверить. Отметить, что поиск следует вести только на исследуемом сайте. В результате поиска появятся все страницы сайта, содержащие искомый текст. Также поисковая система выдаст все страницы с неполными дублями.

Можно искать дублеры при помощи специальных программ, таких как Xenu’s Link Sleuth. Они, исследуя сайт, выявляют все его страницы. Затем можно найти дубли либо по повторяющимся адресам, либо по заголовку страницы.

Анализ проиндексированных поисковыми системами страниц производится при помощи специальных поисковых запросов. В разных системах эти запросы разные.

Как удалить?

Если таких страниц немного, удалить их можно вручную.

Если выясняется, что на сайте много однотипных дублей, например, страницы с адресами, содержащими идентификатор сессий, то такие страницы можно запретить для индексации. Делается это при помощи команды «Disallow», которая прописывается в файле robots.txt.

Избавиться от множества одинаковых страниц возможно также при помощи автоматической переадресации на одну страницу-первоисточник. Делается это настройкой редиректа 301 в файле htaccess.

Ну и, пожалуй, последний способ — код HTML, прописанный на страницах. Он дает понять поисковым роботам, какую страницу считать первоисточником. В самых популярных системах CMS эти коды генерируются автоматически.