Внутренние дубли страниц – чем опасны, как найти и обезвредить.


Наличие внутренних дублей страниц может привести к ошибкам индексации сайта и даже свести на нет результаты продвижения. К примеру, если у продвигаемой страницы есть дубли, после очередного апдейта один из них может заменить в выдаче нужную страницу. А это обычно сопровождается существенным проседанием позиций, так как у дубля, в отличие от продвигаемой страницы, нет ссылочной массы.



Откуда берутся дубли страниц?

Как я только что упоминала, дубли бывают четкие и нечеткие.
Четкие дубли – это страницы с абсолютно одинаковым контентом, которые имеют разные URL-адреса. Например, страница для печати и ее обычный оригинал, страницы с идентификаторами сессий, одни и те же страницы с разными расширениями (.html, .php, .htm). Большинство четких дублей генерируются движком сайта, но есть и такие, которые возникают из-за невнимательности вебмастера. К примеру, разные URL для главной страницы – у одного нашего клиента до недавнего времени «морда» совершенно статичного сайта (без движка) была доступна по трем разным URL-адресам: site.ru/, site.ru/index.html и site.ru/default.html. Очень часто четкие дубли появляются после замены дизайна и структуры сайта – все страницы получают новые URL-адреса, но старые адреса тоже работают, и в результате каждая страница доступна по 2 разным URL.

Нечеткие дубли – это страницы с очень похожим контентом:
- где контентная часть по объему намного меньше сквозной части: страницы галерей (где само содержание страницы состоит из одной лишь картинки, а остальное – сквозные блоки), страницы товарных позиций с описанием товара всего одним предложением и т.д..
страницы, на которых частично (или полностью, но в разном порядке) повторяется одно и то же содержание. Например, страницы категорий товаров в интернет-магазинах, на которых одни и те же товары отсортированы по разным показателям (по цене, по новизне, по рейтингу и т.д.) или страницы рубрик, где пересекаются одни и те же товары с одними и теми же описаниями. А также страницы поиска по сайту, страницы с анонсами новостей (если один и тот же анонс используется на нескольких страницах) и т.д.



Как определить, есть ли на сайте дубли?

Определить наличие внутренних дублей на сайте можно с помощью поиска Яндекса. Для этого в поисковой строке в расширенном поиске нужно ввести кусок текста страницы, подозреваемой в дублях (текст нужно вводить в кавычках), указав в строке «на сайте» свой домен. Все найденные страницы могут быть четкими или нечеткими дублями друг друга:

Определить дубли можно и с помощью поиска Google. Для этого нужно в поисковую строку ввести кусок текста проверяемой страницы в кавычках и через пробел указать область поиска – site:examplesite.ru. Пример запроса на проверку дублей:

“Длинное предложиение из десяти-пятнадцати слов со страницы, которую мы подозреваем в том, что у нее есть дубли и хотим подтвердить или опровергнуть это” site:examplesite.ru

Если дубли найдутся, это будет выглядеть так:



Как избавиться от дублей страниц?

Оптимальный способ избавления от дублей зависит от того, каким образом дубль появился на сайте и есть ли необходимость оставлять его в индексе (например, если это страница товарной категории или галереи).



Директива Disallow в Robots.txt

Директива “Disallow” используется для запрещения индексации страниц поисковыми роботами и для удаления из базы уже проиндексированных страниц. Это оптимальный вариант борьбы с дублями в случаях, если дублированные страницы находятся сугубо в конкретных директориях или если структура URL позволяет закрыть много дублей одним правилом.
Например, если нужно закрыть все страницы с результатами поиска по сайту, которые находятся в папке www.examplesite.ru/search/, достаточно в Robots.txt прописать правило:

Disallow: /search/

Другой пример. Если знак «?» является идентификатором сеанса, можно запретить индексацию всех страниц, содержащих этот знак, одним правилом:

Disallow: /*?

Таким образом можно запрещать к индексации четкие дубли: страницы для печати, страницы идентификаторов сессий и т.д., страницы поиска по сайту и т.д.
Описание директивы «Disallow» в разделе помощи Яндекса
Описание правил блокировки и удаления страниц в справке Google



Тег rel=canonical

Тег rel=canonical используется для того, чтоб указать роботам, какая именно страница из группы дублей должна участвовать в поиске. Такая страница называется канонической.
Для того, чтоб указать роботам каноническую страницу, необходимо на неосновных страницах прописать ее URL:

< link rel="canonical" href="http://www.examplesite.ru/osnovnaya-stranica.html" >

Такой способ избавления от дублей отлично подходит в том случае, если дублей достаточно много, но закрыть их единым правилом в Robots.txt невозможно из-за особенностей URL.

Яндекс об использовании тега rel=canonical
Google об аттрибуте rel=canonical



301 редирект

301 Permanent Redirect используется для переадресации пользователей и поисковых ботов с одной страницы на другую. Использовать этот способ нужно в случае, если некоторые страницы в результате смены движка или структуры сайта поменяли URL, и одна и та же страница доступна и по старому, и по новому URL. 301 редирект дает сигнал поисковым ботам, что страница навсегда сменила адрес на новый, в результате чего вес cтарой страницы передается новой (в большинстве случаев).

Настроить редирект с одной страницы на другую можно, прописав в файле .htaccess такое правило:

Redirect 301 /category/old-page.html http://www.melodina.ru/category/new-page.html

Можно настроить и массовый редирект со страниц одного типа на другой, но для этого нужно, чтоб у них была одинаковая структура URL.

О том, как сделать 301 редирект на блоге Devaka.ru.



Творческий подход

Бывают случаи, когда страницы, имеющие признаки нечетких дублей, действительно содержат полезную информацию, и удалять их из индекса не хотелось бы. Что делать в таком случае? Менять, добавлять или уникализировать контент.
Например, если проблема с нечеткими дублями возникла из-за слишком объемной навигации, нужно искать способы увеличить контентную часть или сократить сквозные блоки.

Часто бывает, что страницы с описаниями товаров одной и той же категории очень похожи друг на друга. Уникализировать такой текст не всегда возможно, а закрывать к индексации нецелесообразно (это уменьшает контентную часть). В этом случае можно посоветовать добавлять на страницы какие-то интересные блоки: отзывы о товаре, список отличий от других товаров и т.д.

В случае, если в разных рубриках выводится много одних и тех же товаров с одинаковыми описаниями, тоже можно применить творческий подход. Допустим, есть интернет-магазин сумок, где одни и те же товары выводятся сразу в нескольких категориях. Например, женская кожаная сумка с ручкой от Chanel может выводиться сразу в 4-х категориях женские сумки, кожаные сумки, сумки с ручкой и сумки Chanel. В этом нет ничего плохого, так как сумка действительно подходит для всех 4-х категорий, но если анонс с описанием сумки выводится во всех этих категориях, это может навредить (особенно если пересекающихся товаров много). Выход – либо не выводить анонсы на страницах рубрик вообще, либо сокращать их до минимум и автоматически менять описания в зависимости от категорий, на которых выводится товар.
Пример: Стильная [женская] [кожаная] cумка черного цвета [Chanel] [с ручкой] на каждый день.

Я встречала много разных вариантов внутренних дублей на сайтах разной сложности, но не было такой проблемы, которую нельзя было бы решить. Главное, не откладывать вопрос с дублями до тех пор, когда нужные страницы начнут выпадать из индекса и сайт станет терять трафик.

С ув., Елена Камская.

Просмотров: 25,017


  • Pingback: Вывод одного и того же текста на каждой странице()

  • Sankros

    Статья для новичков, уже сотни статей про это написано

  • Alexander

    спасибо за быстрый ответ.

  • Victor69

    Подскажите новичку.  Как прописать канонический адрес в Джумле?
    Куда вписывать?

  • http://twitter.com/antoshaxor Marin Anton

    А как же распространенная ошибка не правильно работающая ошибка 404!? Про нее стоило бы тоже упомянуть…

  • http://optimizatorsha.ru/ Kamskaya

    Собираюсь о 404 писать отдельную статью.

  • http://optimizatorsha.ru/ Kamskaya

    Собираюсь о 404 писать отдельную статью.

  • http://artoha.ru Тролльчёнок

    Рел каноникал – лучший вариант

  • http://studio.visionmax.ru/ Александр

    Отличная статья! Спасибо за информацию, обязательно возьму на вооружение.

  • http://shpargalkablog.ru/2010/09/optimizatsiya-blogger.html NMitra

    По своим наблюдениям. Не всегда поиск показывает все дубли страницы, если ввести предложение в кавычках. Но вот посмотреть, что прячется в “Дополнительных результатах Гугла” всегда полезно.

  • Alexander

    Вопрос: если страницы де-факто дублируются, например есть версия с www. и без или с index.html, но в индексе гугла только “правильный” вариант, может ли это негативно повлиять на выдачу? Ведь страница не проиндексирована.

  • http://optimizatorsha.ru/ Kamskaya

    Пока она не проиндексирована, никакого вреда она не принесет. Но чтоб такие страницы вдруг не попали в индекс, лучше редиректить их на одну основную.

  • http://twitter.com/ekarnakov eugene karnakov

    Следует упомянуть что дубли сайта не всегда плохо. Во многих тематиках 95% трафика собирает 3-4 поисковых запроса (например, работа), и обычно эти запросы продвигаются на главную. Большой индекс сайта (с том числе с четкими и нечеткими дублями) передает много внутр.веса на главную страницу, в данном случае закрывать дубли не целесообразно.

  • Андрей

    А как в таком “простом” случае действовать: site.ru/, site.ru/index.html и site.ru/default.html – неужели редиректы ставить? Тема не раскрыта полностью.

  • http://aplstore.com.ua Alexandr Kurtov

    Очень понравилась статья) Многие оптимизаторы забывают об этом нюансе как дубли.

  • http://www.facebook.com/mitrofan Дмитрий Skuridin

    Ищу специалиста, чтобы решить данную проблему для инет-магазина

  • http://optimizatorsha.ru/ Kamskaya

    Если страницы не попали в индекс, лучше привести все ссылки на главную к единому виду (site.ru/). Если попали – 301 Вам поможет.

  • http://blogalex.ru/ Ракитин Александр

    пасиб,а как убрать теги? То есть в выдачи иногда они преобладают и текст у них похожий

  • Владислав

    Спасибо за статью.

    Яндекс выдает два урла: один со слешом в конце (…/), другой без. Получается, что для ПС  это две разные страницы (?!). И что посоветуете делать в этом случае?

  • http://optimizatorsha.ru/ Kamskaya

    Присылайте  на kamskaya@seolib.ru:
     – URL магазина;
     – какой движок используется;
     – примеры дублей.

    Посмотрим, чем можно помочь.

  • Accordh

    Не знал об этом. Спасибо за обзор. Надо будет учесть.

  • http://optimizatorsha.ru/ Kamskaya

    Каждая страница должна быть доступна либо только со слешем в конце, либо без. Я в таких случаях настраиваю 301 редирект с помощью .htaccess с одного типа урлов на другой.

  • http://optimizatorsha.ru/ Kamskaya

    Не совсем поняла вопрос. Могли бы Вы привести пример?

  • Гость

    Скажите, разве нужно закрывать директивой “Disallow”  страницы, которые уже проиндексированы и без дублей?

  • Владислав

    Обнаружил несколько дублей с адресами  типа ***.ru/?_openstat=YmVndW4ucn…

    Можно их закрыть при помощи robots.txt  след. образом: Disallow: /*?openstat=

    Кстати, что означает эти страницы? Это что-то связано с открытой статистикой?

  • http://divproject.ru Dmitry

    У меня возникла проблема нечетких дублей страницы состоящих из одной лишь картинки. Решение нашел, удалением страниц из панели вебмастера, остальные не подходили под мой случай.

  • Pingback: 8 самых распространенных ошибок, мешающих сайту выйти в топ | Optimizatorsha.Ru()

  • http://posmotrinamir.ru Successbloger1

    Добрый день, Елена! Во-первых спасибо за статью, тема для меня сейчас актуально.
    Есть вопрос, надеюсь на вашу помощь. Вопрос заключается в следующем. Есть блог на WP туристической тематики, использую теги и категории которые индексируются поисковиками, в тегах использую названия стран и городов, в категориях использую СЧ запросы. Так вот, есть ли смысл скрывать категории или теги от индексации? Или может стоит как-то уникализировать страницы категорий и тегов, вставив в них описание? Избежим ли мы тем самым дубляжа?

  • http://optimizatorsha.ru/ Kamskaya

    С категориями и тегами на блогах проблем сейчас нет – поисковики научились их определять и нормально к ним относится. Не вижу необходимости скрывать их от индекса. Уникализировать страницы тегов и категорий вполне возможно с помощью вывода description на таких страницах (как, например, у меня в категориях).

  • http://optimizatorsha.ru/ Kamskaya

    Скорее всего, это дубли, которые генерирует Ваш движок. Проверить,закрывает ли такое правило страницы к индексации можно в панели вебмастера в разделе Настройка индексирования -> Robots.txt

  • http://optimizatorsha.ru/ Kamskaya

    нет, зачем их закрывать?

  • http://absite.ru/ Konstantin Ermakov

    Сомневаюсь, что метки openstat — это самодеятельность движка.
    http://marker.openstat.ru/spec

  • http://optimizatorsha.ru/ Kamskaya

    Точно, спасибо, Константин.

  • http://kleynod.net Sergey Anohin

    Здравствуйте, интересно а считается ли дублем адрес страницы с www и без. Если считается то как с этим бороться?

  • http://optimizatorsha.ru/ Kamskaya

    Считается. Бороться помогает 301 редирект.

  • Aglaianojkina

    Елена, здравствуйте. Скажите, а могут дубли возникать из-за перелинковки с помощью link, встроенного в tynce текстового редактора джумла?  У меня все адреса чпу, а при перелинковке, в текстовом редакторе ставлю ссылку с помощью компонента link, ссылка там не чпу.

  • http://optimizatorsha.ru/ Kamskaya

    Если обе ссылки (ЧПУ и не ЧПУ) ведут на одну и ту же страницу, то это дубли. А что это за модуль такой костыльный? Попробуйте лучше SeoLink, я писала о нем в этой статье – http://optimizatorsha.ru/sdl/j

  • Сергей Куприянов

    Елена, здравствуйте!
    А почему вы не боретесь с битыми ссылками?
    На вашем блоге я нашёл 10 шт.
    Вот, например:
    ОТКУДА
    http://optimizatorsha.ru/maste… 
    КУДА
    http://optimizatorsha.ru/maste… 
    ============
    Ещё вопрос -
    не могли бы вы здесь прокомментировать ваш файл robots.txt
    Почему он у вас такой “короткий”? Вас это устраивает?
    ============
    Спасибо.

  • http://os-config.ru/ Vawsan

    Дубли действительно очень опасная штука, а особенно на вордпресс, когда по умолчанию на свеже установленном движке начинают индексироваться сами статьи, они же в рубриках, архивах и поиске…

  • http://optimizatorsha.ru/ Kamskaya

    1. Сейчас все ссылки проверяю перед публикацией поста, раньше не проверяла. Пост 2009 года, битую ссылку исправила.

  • Алексей

    Здравствуйте, у меня как раз такая проблема. При наличии рабочих 300 страниц, гугл к новому году нашел 4000, сейчас уже перевалило за 20000.  Что делать не знаю. Моггли бы вы своим опытным взглядом посмотреть? Свяжитесь со мной по почте. Спасибо.

  • http://optimizatorsha.ru/ Kamskaya

    Алексей, у меня в контактах тоже есть почта. Если у Вас есть вопросы – пишите.

  • Aleksdema

    Да все это фигня дубли станиц. Google сам их убирает, так называемые “сопли”. А яндекс индексирует и никаких санкций не накладывает, у меня на сайте куча дублей (стоит virtuemart, думаю кто сталкивался проблема знакомая порядка 3-4 дублей на каждый товар, стоит нативный роутер) и ничего. Так вот посещение переваливает за 1000 уникомов в сутки. Все запросы практически коммерческие (сайт интернет магазин детской одежды). В гугле все высокочастотники в топ 5, а в яндексе СЧ и НЧ тоже в топах. Так что по моему опыту яндекс к дублям относится нормально! Для примера вот сайт посмотрите – 
    http://www.kiddywear.ru

  • http://twitter.com/Foxbat3 Foxbat

    Эта проблема просто замучила. Сдуру сменил структуру URL. Все старые в индексе. Закрыл в robots.txt Проверил в вебмастер, что закрыты. Удалил в вебмастере – по фиг. Весь в соплях.

  • Irocez

    У меня вообще из-за дублей практически весь сайт в дубли залез, как начал потихоньку закрывать и подкупать ссылок для отдельных страниц, так начали еле -еле вылазить.

  • Игорь Шарапов

    Вижу, пост старый, но вопрос актуален в данный момент. Ситуация такая: сквозная часть сайта содержит запросы, по которым будет продвигаться главная страница. Если поставить на остальные страницы каноническую ссылку на главную, возможно ли будет продвигать уникальный контент на второстепенных страницах?

  • http://optimizatorsha.ru/ Kamskaya

    Не совсем поняла вопрос. Вы хотите прописать каноникал на всех внутренних страницах? Если да, то так делать нельзя – Вы укажете поисковику, что внутренние страницы не имеют ценности и их индексировать не нужно. Можно сквозные блоки на внутренних страницах закрыть в Noindex, но это решит проблему только с Яндексом. Идеальный способ – не выводить этот блок на внутренних страницах вообще, раз он имеет ценность только для главной.

  • Pingback: Особенности продвижения регионального новостного сайта | SEOMILK()

  • http://optimizatorsha.ru/ Kamskaya

    Статью можно размещать в несколько рубрик при условии:

    1) URL статьи должен быть один.

    Некоторые движки могут одной и той же статье присвоить столько разных урлов, во сколько рубрик она размещена. Если у Вас WordPress, такого быть не должно.

    2) Если в рубриках выводятся анонсы статей, желательно делать их уникальными. Если уникальными их сделать невозможно, то нужно сделать их хотя бы отличающимися от первых абзацов самой статьи.