Дублированный контент

Дублированный контент — это термин, используемый в области поисковой оптимизации для описания контента , который появляется на нескольких веб-страницах. Дублированный контент может быть существенной частью контента в пределах доменов или между ними и может быть как полностью дублирующим, так и очень похожим. ^[1] Когда несколько страниц содержат по сути один и тот же контент, поисковые системы, такие как Google и Bing, могут наказать или прекратить показ копирующего сайта в любых релевантных результатах поиска.

Типы

Невредоносный

Невредоносный дублированный контент может включать вариации одной и той же страницы, например, версии, оптимизированные для обычного HTML, мобильных устройств или удобства печати, или элементы магазина, которые могут отображаться через несколько отдельных URL-адресов. ^[1] Проблемы с дублированным контентом также могут возникать, когда сайт доступен по нескольким поддоменам, например, с «www» или без него, или когда сайты не могут правильно обрабатывать завершающий слеш URL-адресов. ^[2] Другим распространенным источником невредоносного дублированного контента является пагинация , при которой контент и/или соответствующие комментарии разделяются на отдельные страницы. ^[3]

Синдицированный контент — это популярная форма дублированного контента. Если сайт синдицирует контент с других сайтов, обычно считается важным убедиться, что поисковые системы могут определить, какая версия контента является оригинальной, чтобы оригинал мог получить преимущества от большего показа через результаты поисковой системы. ^[1] Способы сделать это включают наличие тега rel=canonical на синдицированной странице, который указывает на оригинал, NoIndexing синдицированной копии или размещение ссылки в синдицированной копии, которая ведет обратно к оригинальной статье. Если ни одно из этих решений не реализовано, синдицированная копия может рассматриваться как оригинал и получать преимущества. ^[4]

Количество возможных URL-адресов, сканируемых серверным программным обеспечением, также затрудняет для веб-сканеров избегание получения дублированного контента. Существуют бесконечные комбинации параметров HTTP GET (на основе URL), из которых только небольшая выборка фактически вернет уникальный контент. Например, простая онлайн-фотогалерея может предлагать пользователям три варианта, как указано в параметрах HTTP GET в URL-адресе. Если существует четыре способа сортировки изображений, три варианта размера миниатюр , два формата файлов и возможность отключить предоставленный пользователем контент, то к одному и тому же набору контента можно получить доступ с помощью 48 различных URL-адресов, все из которых могут быть связаны на сайте. Эта математическая комбинация создает проблему для сканеров, поскольку им приходится перебирать бесконечные комбинации относительно небольших изменений скриптов, чтобы получить уникальный контент.

На разных веб-страницах может быть похожий контент в виде похожего контента продукта. Обычно это замечается на веб-сайтах электронной коммерции, где использование похожих ключевых слов для похожих категорий продуктов приводит к этой форме невредоносного дублированного контента. Это часто случается, когда выпускаются новые итерации и версии продуктов, но продавец или модераторы веб-сайта электронной коммерции не делают полных описаний продуктов. ^[5]

Вредоносный

Вредоносный дублированный контент относится к контенту, который намеренно дублируется в попытке манипулировать результатами поиска и получить больше трафика. Это известно как поисковый спам . Существует ряд инструментов для проверки уникальности контента. ^[6] В некоторых случаях поисковые системы штрафуют веб-сайты и отдельные страницы-нарушители за рейтинг на страницах результатов поиска (SERP) за дублированный контент, который считается «спамом».

Обнаружение дублированного контента

Обнаружение плагиата или обнаружение схожести контента — это процесс обнаружения случаев плагиата или нарушения авторских прав в работе или документе. Широкое использование компьютеров и появление Интернета упростили плагиат чужих работ. ^[7]^[8]

Обнаружение плагиата может осуществляться различными способами. Человеческое обнаружение является наиболее традиционной формой выявления плагиата в письменных работах. Это может быть длительной и трудоемкой задачей для читателя ^[8] , а также может привести к несоответствиям в том, как плагиат определяется в организации. ^[9] Программное обеспечение для сопоставления текста (TMS), которое также называют «программным обеспечением для обнаружения плагиата» или «программным обеспечением для борьбы с плагиатом», стало широко доступно как в виде коммерчески доступных продуктов, так и в виде программного обеспечения с открытым исходным кодом ^{[ нужны примеры ]} . TMS на самом деле не обнаруживает плагиат как таковой, а вместо этого находит определенные отрывки текста в одном документе, которые соответствуют тексту в другом документе.

Резолюции

Если контент был скопирован, обеим сторонам доступны несколько вариантов разрешения. ^[10]

Добейтесь удаления контента с сайта копировщика, связавшись с владельцем дублированного контента и попросив его удалить скопированный контент.
Наймите юриста , который отправит уведомление об удалении копировальному аппарату.
Перепишите контент, чтобы снова сделать контент сайта уникальным.

Перенаправление HTTP 301 (301 Moved Permanently) — это метод борьбы с дублирующимся контентом, позволяющий перенаправлять пользователей и поисковые роботы на единственную релевантную версию контента. ^[1]

Смотрите также

Спиннинг статей – метод рассылки спама для поисковой оптимизации
Канонический элемент ссылки – Тип гиперссылки
Дедупликация данных – метод обработки данных для устранения дубликатов повторяющихся данных.
Нормализация URL-адресов – процесс стандартизации URI-адресов.Страницы, отображающие краткие описания целей перенаправления

Ссылки

^ abcd "Дублированный контент". Google Inc. Получено 2016-01-07 .
^ "Дублированный контент - Дублированный контент" . Получено 2011-12-19 .
^ "Дублирующий контент: причинно-следственная связь и значимость". Эффективный рост бизнеса . Получено 15 мая 2017 г.
^ Энге, Эрик (28 апреля 2014 г.). «Синдицированный контент: почему, когда и как». Search Engine Land . Third Door Media . Получено 25 июня 2018 г.
^ Избегайте санкций со стороны Google за дублирование контента
^ Ахмад, Билал (20 мая 2011 г.). «6 бесплатных инструментов проверки дублирующегося контента». TechMaish.com . Получено 15 мая 2017 г. .
^ Калвин, Финтан; Ланкастер, Томас (2001). «Плагиат, профилактика, сдерживание и обнаружение». CiteSeerX 10.1.1.107.178 . Архивировано из оригинала 18 апреля 2021 г. . Получено 11 ноября 2022 г. – через The Higher Education Academy .
^ ab Bretag, T. , & Mahmud, S. (2009). Модель определения студенческого плагиата: электронное обнаружение и академическое суждение. Журнал университетской практики преподавания и обучения, 6 (1). Получено с http://ro.uow.edu.au/jutlp/vol6/iss1/6
^ Macdonald, R., & Carroll, J. (2006). Плагиат — сложная проблема, требующая целостного институционального подхода. Assessment & Evaluation in Higher Education, 31 (2), 233–245. doi :10.1080/02602930500262536
^ "Есть дублированный контент? Он может убить ваш рейтинг". OrangeFox.com . OrangeFox . Получено 27 марта 2016 г. .

[Google-1] "Дублированный контент". Google Inc. Получено 2016-01-07 .

[danclarkie.co.uk-2] "Дублированный контент - Дублированный контент" . Получено 2011-12-19 .

[3] "Дублирующий контент: причинно-следственная связь и значимость". Эффективный рост бизнеса . Получено 15 мая 2017 г.

[4] Энге, Эрик (28 апреля 2014 г.). «Синдицированный контент: почему, когда и как». Search Engine Land . Third Door Media . Получено 25 июня 2018 г.

[5] Избегайте санкций со стороны Google за дублирование контента

[6] Ахмад, Билал (20 мая 2011 г.). «6 бесплатных инструментов проверки дублирующегося контента». TechMaish.com . Получено 15 мая 2017 г. .

[7] Калвин, Финтан; Ланкастер, Томас (2001). «Плагиат, профилактика, сдерживание и обнаружение». CiteSeerX 10.1.1.107.178 . Архивировано из оригинала 18 апреля 2021 г. . Получено 11 ноября 2022 г. – через The Higher Education Academy .

[Content_similarity_detection_:0-8] Bretag, T. , & Mahmud, S. (2009). Модель определения студенческого плагиата: электронное обнаружение и академическое суждение. Журнал университетской практики преподавания и обучения, 6 (1). Получено с http://ro.uow.edu.au/jutlp/vol6/iss1/6

[9] Macdonald, R., & Carroll, J. (2006). Плагиат — сложная проблема, требующая целостного институционального подхода. Assessment & Evaluation in Higher Education, 31 (2), 233–245. doi :10.1080/02602930500262536

[10] "Есть дублированный контент? Он может убить ваш рейтинг". OrangeFox.com . OrangeFox . Получено 27 марта 2016 г. .