Дублированный контент — это термин, используемый в области поисковой оптимизации для описания контента , который появляется на нескольких веб-страницах. Дублированный контент может быть существенной частью контента в пределах доменов или между ними и может быть как полностью дублирующим, так и очень похожим. [1] Когда несколько страниц содержат по сути один и тот же контент, поисковые системы, такие как Google и Bing, могут наказать или прекратить показ копирующего сайта в любых релевантных результатах поиска.
Невредоносный дублированный контент может включать вариации одной и той же страницы, например, версии, оптимизированные для обычного HTML, мобильных устройств или удобства печати, или элементы магазина, которые могут отображаться через несколько отдельных URL-адресов. [1] Проблемы с дублированным контентом также могут возникать, когда сайт доступен по нескольким поддоменам, например, с «www» или без него, или когда сайты не могут правильно обрабатывать завершающий слеш URL-адресов. [2] Другим распространенным источником невредоносного дублированного контента является пагинация , при которой контент и/или соответствующие комментарии разделяются на отдельные страницы. [3]
Синдицированный контент — это популярная форма дублированного контента. Если сайт синдицирует контент с других сайтов, обычно считается важным убедиться, что поисковые системы могут определить, какая версия контента является оригинальной, чтобы оригинал мог получить преимущества от большего показа через результаты поисковой системы. [1] Способы сделать это включают наличие тега rel=canonical на синдицированной странице, который указывает на оригинал, NoIndexing синдицированной копии или размещение ссылки в синдицированной копии, которая ведет обратно к оригинальной статье. Если ни одно из этих решений не реализовано, синдицированная копия может рассматриваться как оригинал и получать преимущества. [4]
Количество возможных URL-адресов, сканируемых серверным программным обеспечением, также затрудняет для веб-сканеров избегание получения дублированного контента. Существуют бесконечные комбинации параметров HTTP GET (на основе URL), из которых только небольшая выборка фактически вернет уникальный контент. Например, простая онлайн-фотогалерея может предлагать пользователям три варианта, как указано в параметрах HTTP GET в URL-адресе. Если существует четыре способа сортировки изображений, три варианта размера миниатюр , два формата файлов и возможность отключить предоставленный пользователем контент, то к одному и тому же набору контента можно получить доступ с помощью 48 различных URL-адресов, все из которых могут быть связаны на сайте. Эта математическая комбинация создает проблему для сканеров, поскольку им приходится перебирать бесконечные комбинации относительно небольших изменений скриптов, чтобы получить уникальный контент.
На разных веб-страницах может быть похожий контент в виде похожего контента продукта. Обычно это замечается на веб-сайтах электронной коммерции, где использование похожих ключевых слов для похожих категорий продуктов приводит к этой форме невредоносного дублированного контента. Это часто случается, когда выпускаются новые итерации и версии продуктов, но продавец или модераторы веб-сайта электронной коммерции не делают полных описаний продуктов. [5]
Вредоносный дублированный контент относится к контенту, который намеренно дублируется в попытке манипулировать результатами поиска и получить больше трафика. Это известно как поисковый спам . Существует ряд инструментов для проверки уникальности контента. [6] В некоторых случаях поисковые системы штрафуют веб-сайты и отдельные страницы-нарушители за рейтинг на страницах результатов поиска (SERP) за дублированный контент, который считается «спамом».
Обнаружение плагиата или обнаружение схожести контента — это процесс обнаружения случаев плагиата или нарушения авторских прав в работе или документе. Широкое использование компьютеров и появление Интернета упростили плагиат чужих работ. [7] [8]
Обнаружение плагиата может осуществляться различными способами. Человеческое обнаружение является наиболее традиционной формой выявления плагиата в письменных работах. Это может быть длительной и трудоемкой задачей для читателя [8] , а также может привести к несоответствиям в том, как плагиат определяется в организации. [9] Программное обеспечение для сопоставления текста (TMS), которое также называют «программным обеспечением для обнаружения плагиата» или «программным обеспечением для борьбы с плагиатом», стало широко доступно как в виде коммерчески доступных продуктов, так и в виде программного обеспечения с открытым исходным кодом [ нужны примеры ] . TMS на самом деле не обнаруживает плагиат как таковой, а вместо этого находит определенные отрывки текста в одном документе, которые соответствуют тексту в другом документе.Если контент был скопирован, обеим сторонам доступны несколько вариантов разрешения. [10]
Перенаправление HTTP 301 (301 Moved Permanently) — это метод борьбы с дублирующимся контентом, позволяющий перенаправлять пользователей и поисковые роботы на единственную релевантную версию контента. [1]