Отправить заявку на SEO-продвижение сайта от Ant-Team.ru

Заказать

Кейс: как удалить украденный контент

Рассказываем о том, как неоригинальный контент может повредить сайту и как бороться с ворами контента, которые снижают уникальность ваших статей простым копипастом. Даем подробные инструкции по защите авторского текста с образцами документов. 

Рис.1. Как удалить украденный контент.

Одна из задач поисковых систем — оценивать уникальность и полезность информации на сайтах. Поэтому их алгоритмы постоянно совершенствуются с тем, чтобы лучше и быстрее обнаруживать дублированный и малополезный контент.  Если на сайте размещены некачественные, неуникальные или спам-материалы, то поисковик наложит фильтр на такой ресурс, а это повлияет на посещаемость сайта. 

Какие фильтры используют поисковики, чтобы ограничивать сайты с дублированным и некачественным контентом  

Фильтры и санкции Google, связанные с неуникальным контентом

1. Фильтр по дубликатам контента (Duplicate Content Filter): Google стремится не индексировать или не отображать дубликаты в результатах поиска. Он индексирует веб-страницы, чтобы определить качество и уникальность их содержимого. Если обнаруживает, что одна страница дублирует другую, то может удалить дублирующийся контент из индекса. Для этого поисковик использует комбинацию алгоритмов. Они учитывают не только сходство текста, но и другие факторы: структуру страницы, метаданные и ссылки. Таким образом, присвоение статуса «дубликат» зависит и от даты  индексирования страницы.

2. Комплексный алгоритм ранжирования (Ranking Algorithm): Google использует сложный алгоритм ранжирования, который учитывает уникальность контента, его качество, авторитетность и релевантность. В него входит фильтр Google Panda, который оценивает качество контента и не любит украденные тексты. Неоригинальный контент может отрицательно повлиять на позиции в поисковой выдаче. 

3. Helpful content update: это обновление Google, которое будет поощрять сайты с контентом, помогающим пользователям решить свои проблемы, а также наказывать некачественные сайты, к которым он в том числе относит сайты с украденным контентом. Пока обновление работает для англоязычного сегмента, но скоро его распространят и на русскоязычные сайты.

4. Удаление страниц из индекса: Google может удалить страницы с неуникальным контентом из своего индекса, чтобы обеспечить лучший пользовательский опыт и предотвратить спам, о чем сообщал в своих правилах

Чтобы выйти из-под санкций Google, придется полностью переработать контент, сделав его уникальным и полезным для пользователей. И запастись временем: снятие фильтров Google достаточно длительный процесс и может затянуться до следующего обновления алгоритма.

Фильтры и санкции Яндекс за использование неуникального контента

В поисковой системе Яндекс при обнаружении неуникального контента срабатывает фильтр, получивший неофициальное название «Ты последний». 

Его последствия: страница будет помещена в самый конец поисковой выдачи, резко сократится трафик с Яндекса при сохранении числа страниц в индексе и нормальном процессе индексации новых страниц. 

Для выхода из ситуации нужно также полностью переработать контент на странице, которая попала под фильтр «Ты последний», многократно повысив его уникальность и ценность. Затем написать в службу поддержки Яндекса и отправить исправленные страницы на переобход в Яндекс.Вебмастере. Как видим, снятие фильтра требует достаточно больших затрат. И не только временных.

Август 2023 года отметился новым штормом в поисковой выдаче Яндекса, причиной которого стало обновление алгоритмов поисковой системы по определению неоригинального контента на сайтах.

В своем блоге представители Яндекса отметили:

«Теперь алгоритмы лучше определяют заимствованный и неоригинальный контент на сайтах. Если сайт не предлагает оригинального контента, содержит преимущественно скопированную или переписанную информацию с других ресурсов, а также контент с низкокачественным автоматическим переводом текстов на другой язык, — он не соответствует принципам качественного сайта». 

Блог Яндекса для вебмастеров.

что «теперь алгоритмы лучше определяют заимствованный и неоригинальный контент на сайтах. Если сайт не предлагает оригинального контента, содержит преимущественно скопированную или переписанную информацию с других ресурсов, а также контент с низкокачественным автоматическим переводом текстов на другой язык, — он не соответствует принципам качественного сайта». 

При этом практика и многочисленные обсуждения на тематических форумах и сайтах показывают, что после этого обновления многие авторитетные онлайн-ресурсы с оригинальными и полезными статьями столкнулись с пессимизацией, причиной которой вполне может быть малополезный, по мнению поисковой системы, контент. 

Возникает очевидный вопрос, как и почему такая ситуация могла произойти, если и собственники сайтов, и SEO-специалисты уверяют, что размещают уникальные статьи и материалы на своих ресурсах?

Давайте проверим, а уникальный ли контент?

Мы сами столкнулись со снижением трафика из поисковых систем в работе над одним из проектов. И потому решили провести текстовый анализ материалов, которые были размещены на ресурсе нашего клиента. 

Рис.2. Анализ трафика из поисковых систем.

Для проведения анализа мы использовали функционал  https://text.ru/antiplagiat, который оценивает уникальность текста. 

Рис.3. Анализ уникальности текстов на text.ru.

Результаты анализа нас впечатлили. Так, например, мы проверили на оригинальность 15 страниц из одного раздела сайта и выяснили, что только две из них содержат текст с уникальностью свыше 90 %. Остальные не дотягивали и до 70 %. Пять статей имели уникальность менее 5 %.

Рис.4. Результаты текстового анализа. 

При этом ниша заказчика является узкой, а тексты для сайта готовили эксперты компании-клиента вместе с копирайтерами на основании технических заданий от наших SEO-специалистов. То есть мы были абсолютно уверены, что на сайте содержатся оригинальные тексты, которые в глазах поисковиков (и пользователей) будут считаться полезным контентом.

Как мы обнаружили кражу контента

Как выяснилось, уникальность текста была утеряна в связи с массовой кражей контента с ресурса клиента. 

Всего мы проверили 149 страниц из разделов «Услуги» и «Статьи». На 29-ти из них выявили кражу контента. 

Например: 

Рис.5. Результаты проверки в сервисе text.ru.  

Как можно увидеть на скриншоте, в некоторых случаях текст одной статьи воровали сразу несколько доменов. 

Всего в краже контента мы уличили 37 сайтов, 3 из которых можно назвать наиболее злостными: один из них полностью скопировал 8 статей, второй 5, а третий 4 текста.

Рис.6. Соотношение доменов и количества украденного контента.

Среди воришек контента были не только информационные сайты, которые зарабатывают на размещении рекламы, но и прямые конкуренты.

При этом информация о принципах работы обновленного алгоритма поиска Яндекса и способах выявления малополезного контента еще не известна. Так что остается только догадываться, какой сайт поисковая система признает автором контента, а какой — злостным плагиатчиком. 

В связи с этим перед нами встал вопрос защиты интеллектуальных прав и борьбы с воровством. 

Конечно, можно переписать все тексты с низкой уникальностью и разместить на своем сайте новый оригинальный контент. Но это повлечет временные и трудовые затраты специалистов — экспертов, копирайтеров, SEO-специалистов. И никто не даст гарантий, что на следующий день после размещения ушлые воры вновь не скопируют ваши тексты и мгновенно не опубликуют их у себя. Прощай оригинальность.

Поэтому мы решили пойти по пути защиты прав клиентов на авторство контента. 

Чем защищен авторский контент

Контент (статьи, видео и фотографии), размещаемый на интернет-сайтах, является объектом авторского права. 

Интеллектуальную собственность и авторские права защищает Гражданский кодекс РФ (далее — ГК РФ). В соответствии с ГК РФ гражданин или юридическое лицо, обладающие исключительным правом на результат интеллектуальной деятельности (правообладатель), вправе использовать такой результат или такое средство по своему усмотрению любым не противоречащим закону способом (статья 1229). 

Это в том числе означает, что автор контента может по своему желанию разрешать или запрещать другим лицам использование результата интеллектуальной деятельности (в нашем случае — статьи). 

И очень важный момент: отсутствие запрета не считается согласием (разрешением). Другие лица не могут использовать соответствующий результат интеллектуальной деятельности без согласия правообладателя, за исключением случаев, предусмотренных ГК РФ. 

Почему мы акцентировали на этом внимание? Многие воришки контента дословно скопировали тексты статей нашего клиента, но разместили на своем сайте ссылку на страницу сайта клиента, с которой был украден контент. Судя по всему, таким образом они хотели избежать обвинений в нарушении авторских прав. Как видим, они ошибались.

Размещение ссылок даже усугубило ситуацию: мы получили внешние ссылки на ресурс клиента с очень сомнительных сайтов, большинство из которых имеют Domain Rating по Ahrefs меньше 1.

Рис.7. Ссылочный профиль и трафик сайтов, укравших контент. 

Для подтверждения своих прав обычно устанавливают стандартное уведомление об авторских правах. Чаще всего информацию добавляют в подвал сайта в виде текста или символа ©, с указанием названия сайта (имени владельца) и года. Например: «© Все права защищены, Имя владельца сайта, 2023». 

Это самый простой способ подчеркнуть, что весь контент на сайте является объектом авторских прав и его использование без разрешения запрещено.

На сайте нашего клиента был размещен такой знак охраны авторских прав. 

Как удалить украденный контент 

Составляем список украденного

По итогам анализа мы составили список украденного контента, в который включили:

  • url страницы сайта клиента, с которой был взят контент;
  • скриншот страницы сайта клиента со статьей, где указана дата размещения контента, который впоследствии был украден;
  • скриншот с данными проверки текста на уникальность с помощью сервиса https://text.ru/antiplagiat;
  • скриншот страницы сайта-плагиатчика, содержащей заимствованную у клиента статью;
  • данные из Ahrefs о рейтинге и ссылочной массе сайта-вора контента.
Рис.8. Список украденного контента. 

Готовим официальную претензию

Мы направили претензию в адрес всех администраторов сайтов-плагиатчиков. Пример документа вы можете скачать по ссылке и использовать в работе. 

Рис.9. Пример претензии в адрес администраторов сайтов-плагиатчиков.

Отправить претензию можно по электронной почте, адрес которой обычно находится в разделе Контакты, или воспользоваться формой обратной связи. 

В нашем случае с обоими методами возникла проблема: большинство сайтов не указывали email, либо он был недействующим, а форма обратной связи оказалась нерабочей. 

Окей, с этим тоже можно справиться. Через сервис https://whois.ru мы установили сервер, на котором зарегистрирован домен,  и направили наше обращение через форму связи с администратором домена.

Рис.10. Поиск сервера, на котором зарегистрирован домен.

В результате на момент подготовки статьи 27 доменов удалили украденный контент после получения претензии.

Рис.10. Поиск сервера, на котором зарегистрирован домен.

10 доменов не выполнили наши требования. Для таких случаев мы подготовили письма в адрес администраторов сайтов-хостингов, которые находятся на рассмотрении у хостинг-провайдера.

Какие материалы можно приложить к претензии?

Чтобы подтвердить авторство, можно использовать техническое задание и сам документ с контентом. Однако направлять их администратору сайта-плагиатчика не стоит, поскольку он может ими воспользоваться не с благими целями. 

Оптимальный вариант — приложить к претензии для подтверждения авторства:

  • Скрины страниц сайтов, если и на вашем сайте, и на сайте-плагиатчике указана дата размещения статьи, и статья на вашем ресурсе опубликована раньше.

Например:

Рис.12. Пример скриншота страницы с датой размещения текста. 

Рис.13. Пример скриншота страницы с датой размещения текста. 

  • Скрины из веб-архива, например, https://web.archive.org/ или https://web-arhive.ru. Они покажут, что на дату, в которую вы разместили материалы на своем ресурсе, страницы сайта с украденным у вас контентом не существовало вовсе или она содержала другой контент.
  • Скрины из сервиса проверки whois. Они подтвердят, что домен, на котором разместили украденный контент, был зарегистрирован позднее, чем размещен ваш контент.

Как вы уже поняли, для быстрого и эффективного решения вопроса об авторстве контента важно размещать дату публикации статьи на странице. Это значительно упростит разрешение спорных моментов в будущем.

Что делать, если администратор сайта-плагиатчика игнорирует претензию или не выполняет требования

В таком случае необходимо найти хостинг-провайдера, обслуживающего такой сайт. Сделать это можно с помощью все тех же сервисов whois.

Рис.14. Ищем хостинг-провайдера, обслуживающего сайт.

Вводите в поисковую строку адрес сайта — в строке с данными сервера появится указание хостинга. Затем ищете официальный сайт этого хостинга и пишете обращение через форму обратной связи или на почту. В отличие от сайтов-плагиатчиков, на сайтах хостингов указанные варианты связи обычно работают.

К обращению нужно приложить материалы, подтверждающие авторство. Те же, которые вы прикладывали к претензии. 

Дополнительно хостинг-провайдер может запросить оформленную в установленном порядке доверенность (если заявление подается представителем правообладателя), договор авторского заказа на материалы, размещенные на вашем сайте, и другие документы, подтверждающие авторство материалов.

Иногда сервис Who is в строке «данные сервера» может предоставить данные компании cloudflare.com, которая не является хостинг-провайдером, а предоставляет услуги CDN и серверы DNS. Обычно такая ситуация возникает, когда хостинг-провайдер находится за рубежом.

Рис.15. Сервис Who is предоставил данные компании cloudflare.com, а не хостинг-провайдера.

Но даже в этом случае адрес хостинг-провайдера узнать можно. Для этого на сайте cloudflare.com заходим в раздел «Trust and safety».

Рис.16. Ищем адрес хостинг-провайдера на сайте cloudflare.com.

Затем нажимаем кнопку «Click here to submit an abuse report».

Рис.17. Ищем адрес хостинг-провайдера на сайте cloudflare.com.

Из предложенного списка тематик обращения выбираем «Copyright Infringement and DMCA Violations» и заполняем форму на английском языке (мы перевели через Google-переводчик).

Рис.18. Заполняем форму на сайте cloudflare.com.

В ответ на такой запрос Cloudflare.com пришлет контакты хостинг-провайдера. Можно писать ему напрямую.

Зарубежные хостинг-провайдеры удаляют украденный контент гораздо быстрее, чем российские, и не требуют много документов.

Рис.19. Ответ зарубежного хостинг-провайдера. 

В нашем случае анализ показал, что большинство доменов сайтов-плагиатчиков зарегистрированы на одном хостинге приблизительно в одно и то же время. Это может означать, что противоправной деятельностью занимается один человек, информацию о котором сервер скрыл. 

Как еще можно защитить контент?

Для защиты контента от копирования на веб-страницах  в некоторых случаях используют:

  1. CSS-свойство user-select с заданным значением none, благодаря чему все элементы на странице не будут допускать выделение текста и, следовательно, его копирование: 
css .some-element { user-select: none; } 

  1. JavaScript для блокировки правой кнопки мыши: 
<script type="text/javascript"> document.oncontextmenu = function() { return false; } </script> 

Но в большинстве случаев контент воруют посредством парсинга, а не копируют вручную. Поэтому такой способ не является эффективным и не даст 100 % результата. Опытные пользователи всегда смогут обойти защиту. 

Вывод

Кража контента — это проблема, с которой может столкнуться каждый владелец интернет-ресурса и (или) SEO-специалист. Однако используя специальные инструменты и способы защиты, с этим явлением можно успешно бороться и защищать труды своей интеллектуальной деятельности.

Практика показывает, что проблема украденного контента в большинстве случаев решается после обращения к администраторам сайтов-плагиатчиков и (или) сайтов-хостингов, на которых они зарегистрированы.

Если же решить проблему таким способом не получилось, вы можете обратиться в службу поддержки поисковиков  и пожаловаться на копирование информации с сайта: 

P.S. Мы не можем утверждать, что именно результаты нашей работы по удалению украденного контента повлияли на рост трафика из поисковых систем на сайт клиента. Но после просадки в августе он заметно подрос в сентябре.

Рис.20. Анализ трафика из поисковых систем на сайте клиента после удаления украденного контента. 

P.S.S. А если хотите узнать, как создавать качественные тексты для сайта, читайте нашу статью.

Автор: Анастасия Пономарева (seo-специалист Ant-Team.ru). 

Подписывайтесь на наш телеграм-канал t.me/seoantteam, чтобы первыми узнавать о выходе новых материалов.