Вряд ли кому понравится, если вдруг его идею украдут. Примерно так же к этому относятся и поисковые системы – они рассматривают скопированный контент если не как воровство, то уж точно как нелегальное копирование.
Дело в том, что множество похожих страниц чрезвычайно засоряет выдачу, поэтому поисковики стремятся установить страницу, первой разместившую уникальный контент, а все остальные страницы с похожими материалами исключают из индексации.
Это делается главным образом для удобства пользователей, однако уникальность контента имеет большое значение и для поискового продвижения сайта, чем активно пользуются seo-оптимизаторы.
Так как дублированный контент может послужить причиной пессимизации сайта, то очень важно постоянно отслеживать появление дублированных страниц. Дублирование контента может происходить по двум основным причинам:
• Ошибки в архитектуре веб-сайта
• Кража контента
Ошибки в архитектуре веб-сайта
Неправильная архитектура сайта – очень часто встречающаяся проблема. Похожие страницы могут появиться на сайте вследствие наличия на сайте:
- Страниц с документами, подготовленными для распечатки
- Страниц с контентом с доступом через разные адреса (URL)
- Страниц, с очень схожей структурой контента (характеристики, описания, рецептуры и так далее)
- Страниц, имеющих одинаковые заголовки и заполненные мета-теги
Чтобы убедиться в наличии (или отсутствии) дублированных страниц, нужно сделать запрос «site:www.sait.com» и проверить все проиндексированные страницы конкретного сайта. Этот запрос можно использовать во всех основных поисковых системах, как отечественных, так и зарубежных.
При этом разные поисковые системы по разному относятся к дублированному контенту. Например, Google размещает дублированный контент в выдаче с оговоркой «опущенные результаты». Если подобных страниц много, то это повод задуматься о приведении архитектуры сайта в порядок – иначе со временем большинство его страниц будет исключено из индексации.
Кража контента
Вторая причина появления дублированного контента – банальное воровство. Это настоящая проблема – популярные материалы после своего размещения очень быстро появляются на сторонних ресурсах.
При этом лица, скопировавшие контент, зачастую выдают его за свой собственный и не ставят ссылок на сайт, разместивший оригинальные материалы. Тут возникает другая проблема: часто случается, что сайт, укравший, допустим, статью, является гораздо более трастовым ресурсом, поэтому статья, размещенная на нем, индексируется гораздо быстрее и поисковая система автоматически присваивает авторство именно ему. Следовательно, сайт, первоначально разместивший уникальный контент, в глазах поисковой системы будет считаться вором. Разумеется, это неправильно.
Однако доказать кражу контента и добиться его снятия с других сайтов невероятно трудно. Если кража обнаружилась, то первым делом нужно попытаться связаться с владельцами сайта, незаконно разместившего материалы и попросить их убрать. В ряде случаев это помогает. Если же такие попытки не принесли результата, то можно пожаловаться непосредственно поисковым системам.
В Гугл это можно сделать по адресу:
http://www.google.com/dmca.html
Самым эффективным способом борьбы с воровством контента – это жалоба хостинг-провайдеру сайта-вора. Определить на каком хостинге висит сайт, ворующий ваш контент проще простого, нужно всего лишь зайти на любой whois сервис.
Вот скрин с сайта Whois-Service.ru. По скриншоту легко можно определить, что мой сайт расположен на хостинге SpaceWeb. Кстати, этот хостинг весьма паршивый, не рекомендую.
Вернемся к делу. Вся информацию по местоположению недоброжелательного нам сайта доступна. Заходим на сайт хостинг-провайдера и пишем жалобу. Если владелец не уберет ваш контент, то его сайт заблокируют и дело с концами.
Конечно, работа по восстановлению справедливости потребует много сил, но если владельцу сайта важно не потерять позиции своего ресурса, то отслеживать дублированный контент нужно регулярно.