Википедия:Ссылка гнилая

Как предотвратить или восстановить неработающие ссылки

Как и большинство крупных веб-сайтов , Википедия страдает от явления, известного как «гниение ссылок» , когда внешние ссылки становятся мертвыми , поскольку связанные веб-страницы или целые веб-сайты исчезают, меняют свое содержимое или перемещаются без HTTP-перенаправления. Средний срок жизни URL-адресов составляет около 1 года.

Гниение ссылок представляет серьезную опасность для Википедии из-за политики надежности и правил цитирования источников .

В общем, не удаляйте цитируемую информацию только потому, что URL-адрес источника больше не работает . Инструменты, процедуры и процессы доступны, как описано в этом документе.

  • WP:ПЛРТ

Автоматическое архивирование

Ссылки, добавленные редакторами в основное пространство английской Википедии, автоматически сохраняются в Wayback Machine в течение примерно 24 часов (хотя на практике не все ссылки сохраняются по разным причинам [ указать ] ). Это делается с помощью программы под названием «NoMore404», которую запускает и обслуживает Internet Archive; включены другие языковые вики-сайты. Она отслеживает API EventStreams, извлекает новые внешние URL-адреса и добавляет снимок в Wayback. Эта система стала активной где-то после 2015 года, хотя и ранее предпринимались попытки. Кроме того, где-то после 2012 года archive.today (он же archive.is) попытался заархивировать все внешние ссылки, существовавшие в то время в Википедии. Это было неполным, но за этот период в archive.today было добавлено значительное количество ссылок, что сделало его основным архивным источником, заполняющим пробелы в охвате. Archive.today по-прежнему создает некоторые автоматизированные архивы по состоянию на 2020 год, хотя степень охвата и частота неизвестны.

По состоянию на 2015 год существуют бот и инструмент Wikipedia под названием WP:IABOT , которые автоматизируют исправление неработающих ссылок. Он работает непрерывно, проверяя все статьи в Wikipedia на предмет неработающей ссылки, добавляя архивы в Wayback Machine (если их еще нет) и заменяя неработающие ссылки в викитексте архивной версией. Этот бот работает автоматически, но его также могут направлять конечные пользователи через его веб-интерфейс. Он доступен при просмотре истории любой страницы, расположенной в верхней части страницы в строке «Внешние инструменты» с опцией «Исправить неработающие ссылки».

С 2015 года периодический бот WP:WAYBACKMEDIC проверяет наличие нерабочих ссылок в самих ссылках архивов. Базы данных архивов динамичны: архивы перемещаются или пропадают, добавляются новые и т. д. Этот бот поддерживает существующие ссылки на архивы в английской Википедии. Он также архивирует ресурсы по запросу в WP:URLREQ . Это гибкий инструмент, который может выполнять множество пользовательских задач, таких как миграция/перемещение URL, захваченные домены , обнаружение и исправление soft-404.

Ручное архивирование

Предложения по ручному улучшению архивирования:

  • Избегайте пустых URL-адресов . Используйте шаблоны цитирования, например, для цитат и для разделов внешних ссылок.{{cite web}}{{webarchive}}
  • Используйте службу веб-архивирования, например Internet Archive или Archive.today . Полный список доступен на WP:Список веб-архивов в Википедии . В шаблонах цитирования вставьте URL-адрес архива |archive-url=и добавьте |archive-date=. Если ссылка все еще действительна, включите |url-status=live, в противном случае установите |url-status=dead.
  • Чтобы добавить более одного архивного URL, в качестве дополнительной страховки от сбоя провайдера, принимает до 10 архивных URL провайдера. Опция создает вывод, подходящий для завершения шаблона CS1|2. Например, будет показано 4 архивных URL (один из cite web и три из webarchive).{{webarchive}}|format=addlarchives{{cite web|archive-url=..}}{{webarchive|format=addlarchive|url1=..|url2=..|url3..}}
  • Если ссылка все еще активна, но еще не заархивирована, посетите веб-сайт выбранной вами службы архивирования и подайте заявку на архивацию страницы.
  • Запускайте WP:IABOT на страницах через его пользовательский интерфейс.

Альтернативные методы

Большинство шаблонов цитирования имеют |quote=параметр, который может использоваться для хранения текстовых цитат исходного материала. Это может использоваться для хранения ограниченного количества текста из источника в шаблоне цитирования. Это особенно полезно для источников, которые нельзя архивировать с помощью веб-архиваторов. Это также может обеспечить страховку от сбоя выбранного веб-архиватора. Хранение всего текста источника нецелесообразно в соответствии с политикой добросовестного использования , поэтому выбирайте только самые важные части текста, которые в наибольшей степени поддерживают утверждения в статье Википедии. Где это применимо, материалы, являющиеся общественным достоянием, можно копировать в Викиресурс .

Информация о странице обсуждения

Чтобы указать, что все использованные внешние ссылки в статье были успешно архивированы к дате редактирования, вы можете добавить шаблон в верхнюю часть страницы обсуждения статьи , который будет выглядеть так:{{Archived reflist}}

Когда домен в Интернете истекает, любой может заплатить за него и управлять им. Некоторые организации активно ищут эти домены и «узурпируют» их для создания спам- и мошеннических сайтов. Чтобы восстановить внешнюю ссылку на один из этих сайтов из Википедии, удалите ссылку и замените ее архивной версией оригинала, как описано в Wikipedia:Link rot/Usurpations .

Существует автоматизированная система для узурпации целых доменов. Смотрите WP:URLREQ , чтобы зарегистрировать все ссылки в домене для лечения узурпации.

  • WP:DEADLINK

Существует несколько способов попытаться восстановить мертвую ссылку, подробно описанных ниже. В общем, избегайте удаления цитат (или цитируемого материала) просто потому, что URL больше не работает, особенно если цитата отформатирована с другой информацией (например, название, автор, дата и название публикации), которая может быть альтернативно использована для поиска источника.

Идет поиск

Если неработающая ссылка содержит достаточно информации (название статьи, имена и т. д.), ее часто можно использовать для поиска веб-страницы в другом месте, либо на том же сайте, либо в другом месте.

Часто веб-страницы просто перемещаются в пределах одного сайта. Индекс сайта или функция поиска по сайту являются полезным местом для поиска перемещенной страницы, поиска заголовка или другой информации. Если эти инструменты недоступны, многие поисковые системы Интернета позволяют выполнять поиск на указанном сайте. Например, с помощью Google добавьте site:en.wikipedia.orgв строку поиска только для поиска в английской Википедии. Иногда изменение http://на работает.https://

Если это не удастся, поиск в Интернете заголовка страницы может найти альтернативные сайты. Поиск в Интернете данных для поддержки может найти другой источник.

Если вы нашли подходящий новый URL, то вы можете редактировать параметры в цитате. Если цитата использует один из распространенных шаблонов цитат (например , {{ cite web }} , {{ cite news }} , {{ Citation }} ), вы можете:

  • Измените |url=to на новый URL-адрес;
  • Измените или добавьте |access-date=для ссылки на текущую дату.

Интернет-архивы

Проверьте наличие архивных версий в одном из многочисленных веб-архивных сервисов. Архивные сервисы «Большой тройки» — это web.archive.org , webcitation.org и archive.today . На них приходится более 90% всех архивов в Википедии, причем на web.archive.org приходится более 80% всех ссылок на архивы. Другие архивные сервисы перечислены на WP:WEBARCHIVES . Для большинства браузеров доступны дополнения (расширения) для поиска архивных копий, с такими названиями, как Resurrect pages .

Интерфейс Mementos позволяет осуществлять поиск по нескольким архивным сервисам с помощью одного поиска. База данных Memento кэшируется, что означает, что результаты возвращаются быстро, но кэш также устаревает, и на него не следует полагаться как на последнее слово — он часто будет неправильно сообщать, что архивы недоступны. Вам все равно может потребоваться проверить отдельные архивные сайты, но Mementos может быть быстрой первой проверкой.

Букмарклеты для проверки общих архивных сайтов на наличие архивов текущей страницы
(все открываются в новой вкладке или окне)
Архив сайтаБукмарклет
Архив.org
javascript : void ( window.open ( ' https://web.archive.org/web/*/ ' + location.href ) )
UKGWA
javascript : void ( window.open ( ' https://webarchive.nationalarchives.gov.uk/ukgwa/*/ ' + location.href ) )

Если доступно несколько дат архива, используйте ту, которая с наибольшей вероятностью соответствует содержимому страницы, просмотренной редактором, который ввел ссылку в |access-date=. Если этот параметр не указан, можно выполнить поиск в истории изменений статьи, чтобы определить, когда ссылка была добавлена ​​в статью.

Просмотрите архив, чтобы убедиться, что он содержит действительную информацию о странице. Обычно даты, которые ближе ко времени размещения ссылки на странице Википедии или более ранние, с большей вероятностью покажут действительную информацию.

Если вы нашли подходящий URL архива, то вы можете добавить его в цитату. Если цитата использует один из распространенных шаблонов (например , {{ cite web }} , {{ cite news }} , {{ Citation }} ), то вы можете редактировать следующим образом:

  • Оставьте |url=без изменений, указав URL-адрес источника.
  • Добавьте |archive-url=, указывающий на URL архива.
  • Добавьте |archive-date=, указав дату сохранения архивной копии. Формат ГГГГ-ММ-ДД обычно самый простой, но можно использовать любой формат.
  • Добавьте или измените |url-status=. Используйте, |url-status=deadесли старый URL не работает. Используйте |url-status=unfitили , |url-status=usurpedесли старый URL был узурпирован для спама, рекламы или иным образом непригоден (см. WP:USURPURL ). Используйте, |url-status=liveесли |url=все еще работает и дает правильную информацию, но вы хотите заранее добавить |archive-url=.
  • Оставьте |access-date=без изменений, указав дату, когда предыдущий редактор последний раз обращался к |url=. Некоторые редакторы считают, |access-date=что следует удалить после того, как работа |archive-url=будет установлена, поскольку |url=больше недоступен, поскольку сохранение |access-date=является излишним беспорядком.
  • WP:МДЛИ

Иногда все попытки восстановить ссылку будут безуспешными. В этом случае рассмотрите возможность поиска альтернативного источника, чтобы потеря оригинала не навредила проверяемости статьи. Альтернативные источники по широким темам обычно легко найти. Простой поисковый запрос может найти подходящую альтернативу, но будьте предельно осторожны, чтобы не ссылаться на зеркала и ответвления самой Википедии , что нарушит Wikipedia:Verifiability .

Иногда найти подходящий источник невозможно или для этого потребуются более обширные методы исследования, такие как посещение библиотеки или использование базы данных на основе подписки. В таком случае рассмотрите возможность консультации с редакторами Википедии на Wikipedia:WikiProject Resource Exchange , Wikipedia:Village pump или Wikipedia:Help desk . Также рассмотрите возможность обращения к экспертам или другим заинтересованным редакторам в соответствующем WikiProject .

Иногда ссылка не работает, потому что сайт переместил URL (например, http://example.com переместился на http://example.co.uk). Если вы обнаружили такое изменение URL, отправьте запрос на WP:URLREQ для перемещения URL. Бот внесет изменения.

В целом, тот факт, что URL-адрес не работает, не означает, что источник полностью прекратил свое существование, а неработающий URL-адрес в цитате не означает, что его нужно удалить . Ознакомьтесь с руководством на WP:DEADREF , чтобы узнать, когда следует удалять цитаты с неработающими ссылками. Важно отметить, что книги, журналы, газеты и другие печатные источники существуют офлайн и продолжают существовать, даже если веб-сайты выходят из строя или меняют свое местоположение; отсутствие работающего URL-адреса для книги не снижает ее ценности как источника контента Википедии. Постоянно недоступные удобные ссылки на печатные источники можно удалить, но ссылку следует сохранить. Перед удалением цитаты с неработающим URL-адресом подумайте, можно ли отследить источник, вообще не используя URL-адрес; если да, то его, вероятно, следует сохранить.

  • ВП:КДЛ

Мертвый, неархивированный URL-адрес источника все еще может быть полезен. Такая ссылка указывает, что информация была (вероятно) проверяемой в прошлом, и ссылка может предоставить другому пользователю большие ресурсы или опыт с достаточной информацией, чтобы найти ссылку. Она также может вернуться из мертвых. С помощью мертвой ссылки можно определить, цитировалась ли она где-то еще, или связаться с лицом, изначально ответственным за источник. Например, можно связаться с факультетом компьютерных наук Йельского университета, если http://www.cs.yale.edu/~EliYale/Defense-in-Depth-PhD-thesis.pdf [ мертвая ссылка ] мертва.

Разместите {{ dead link |date=October 2024}} после мертвой цитаты, непосредственно перед тегом </ref>, если применимо, оставив исходную ссылку нетронутой. Отметка мертвых ссылок сигнализирует редакторам и ботам Link rot, что эту ссылку необходимо заменить ссылкой на архив. Размещение {{ dead link }} также автоматически классифицирует статью в категорию проекта «Статьи с мертвыми внешними ссылками» и в определенную категорию ежемесячного диапазона дат на основе |date=параметра. Не удаляйте цитату только потому, что она была помечена тегом {{ dead link }} в течение длительного времени.

  • WP:ВНЕШНИЙ ГОВОР

Сайты, не относящиеся к Wikimedia, также подвержены порче ссылок. После перемещения или удаления страницы ссылки на страницы Wikipedia с других сайтов могут сломаться. В большинстве случаев перемещения страниц перенаправление останется на старой странице — это не вызовет проблем. Но если страница полностью удалена или захвачена (т. е. заменена другим контентом), то порча ссылок будет вызвана на всех внешних сайтах, которые ссылаются на нее.

Замена содержимого страницы на страницу устранения неоднозначности все еще может привести к порче ссылок, но менее вредна, поскольку страница устранения неоднозначности по сути является типом мягкого перенаправления , которое приведет читателя к необходимому контенту. Если страница узурпирована контентом для другой темы, которая разделяет ее название, в верхней части может быть размещена заметка в шапке , которая направляет читателей к исходному контенту на ее новой странице — это снова тип мягкого перенаправления, но менее очевидно. В этих случаях читатели, приходящие по внешней гнилой ссылке, должны иметь возможность найти то, что они ищут, но лучше избегать такой ситуации, поскольку им придется попасть туда через дополнительную страницу, что потенциально создает плохое впечатление как о Википедии, так и о ссылающемся веб-сайте.

Поскольку программное обеспечение Wikipedia не хранит Refererинформацию , невозможно сказать, сколько внешних веб-страниц будет затронуто перемещением или удалением, но риск порчи ссылок, вероятно, будет наибольшим на старых и высокопрофильных страницах. По правде говоря, не так много можно сделать; обслуживание веб-сайтов, не относящихся к Wikimedia, не входит в сферу деятельности Wikimedia и в большинстве случаев не входит в наши возможности (хотя, если их можно исправить, было бы полезно это сделать). Тем не менее, может быть хорошей практикой подумать о потенциальном влиянии на другие сайты при удалении или перемещении страниц Wikipedia, особенно если не останется никаких перенаправлений или заметок. Если ожидается, что перемещение или удаление нанесет значительный ущерб, то это может быть фактором, который следует учитывать в обсуждениях WP:RM , WP:AFD и WP:RFD , хотя другие факторы могут иметь больший вес.

Глоссарий

Глоссарий терминов и понятий.

  • Beyond-404 . Концептуально и в идеале каждая мертвая ссылка будет возвращать код статуса 404. В дебрях Интернета многие «мертвые» страницы могут возвращать другие коды. Это область beyond-404, и для ее обнаружения и исправления часто требуются специальные инструменты и предусмотрительность. Она может составлять 30% или более всех неработающих ссылок. Некоторые из типов beyond-404 описаны в этом глоссарии. Ссылки могут быть комбинацией типов, например, URL-адрес, который: Soft-redirect --> Soft-404 --> Redirect --> Destination.
  • Блокировщик ботов . Любой механизм, который не позволяет автоматизированным инструментам определять статус страницы. Наиболее распространенными являются CloudFlare, ограничители скорости и блокировщики IP. Блокировщики ботов могут вызывать ложные 404.
  • Hard-404 или мертвая ссылка . Страница, которая возвращает код статуса 404, мертвая ссылка.
  • Soft-404 . URL-адрес, который перенаправляет на страницу с контентом, отличным от исходного. Например, https://example.com/page1.html перенаправляет на https://example.com/home.html (перенаправление на домашнюю страницу). Soft-404 могут быть сквоттерами доменных имен, пустыми страницами, спам-сайтами, блокировщиками ботов, ограничителями скорости, возможности безграничны. Это наиболее распространенный тип мертвых ссылок «Beyond 404». Концептуально страница не возвращает 404, но и не возвращает предполагаемый контент, по сути 404 и, таким образом, «мягкая». Методы обнаружения Soft-404, включая предвидение, URL-адрес перенаправления, заголовок страницы и контент на странице.
  • Crunchy-404 . URL, который находится где-то между Soft-404 и Hard-404. Контент отличается от исходной страницы, но все еще имеет контент, релевантный оригиналу. В зависимости от того, какую информацию ищет читатель, он может считаться мертвой ссылкой или активной ссылкой по отношению к зрителю.
  • Перенаправление . URL-адрес, который автоматически перенаправляет на другую страницу.
  • Мягкий редирект . URL, который кажется неработоспособным (404), но существует в сети под другим URL, т. е. в нем отсутствует редирект. Это следствие мягкого 404.
  • Soft-200 или False 404. URL, который кажется мертвым, но на самом деле активен. Это может быть вызвано блокировщиками ботов или неправильной настройкой.
  • Ghost redirect . Ссылка перенаправления повреждена. Например, заголовок 301 был удален и стал 404, но старая информация 301 все еще сохраняется в Wayback Machine. Полезно для обнаружения информации о перенаправлении, которой больше нет в живой сети. См. также репозиторий Ghostredir.
  • Перемещение URL (или миграция ). Когда URL перемещается из одной схемы в другую, например, при миграции https://example.com/main.html в https://arthur.com/main.html .. удаленный сайт меняет доменные имена. В большинстве случаев сайты оставляют некоторые старые URL и не переносят их все, они обычно превращаются в 404 и мягкие перенаправления. Таким образом, при выполнении перемещения URL в Википедии крайне важно проверить, работает ли новый URL. Если невозможно проверить (например, из-за блокировщика ботов), это называется «слепым перемещением URL».
  • Контент-дрейф . Когда контент на статическом URL-адресе меняется со временем. Например, рейтинги команд на https://espn.com/mlb/rangers/standings.html меняются еженедельно. Погода и финансовые данные — другие классические примеры. Даже если URL-адрес может быть активным, он функционально мертв, страница больше не отображает предполагаемый контент, это разновидность soft-404.

Смотрите также

Эссе

Инструменты и руководства

Боты

  • InternetArchiveBot (IABot) – автоматически исправляет неработающие ссылки, когда это возможно, и помечает их, когда это невозможно
  • WaybackMedic - автоматически исправляет неработающие ссылки, которые трудно определить, другие общие исправления
  • Пользователь:Legobot – может массово помечать ссылки с помощью . Запросы можно сделать на User talk:Legoktm .{{dead link}}

  • Официальное дополнение Wayback для Firefox и Chrome [примечание 1]
  • Resurrect Pages, сторонний дополнительный инструмент, предоставляет ссылки на семь веб-сайтов кэша/архива при обнаружении неработающей ссылки. (Firefox)
  • Webcache, дополнение для Opera. (поддержка прекращена; доступны более новые аналогичные дополнения)
  • weblinkchecker.py — скрипт из коллекции Python Wikipedia Bot, который находит неработающие внешние ссылки.
  • Link-dispenser — инструмент Toolforge, который определяет неработающие ссылки в цитатах.
  • Проверка обратных ссылок для поиска потенциально недействительных ссылок на сайтах, не относящихся к Wikimedia
  • «Некоторые URL-адреса бессмертны, большинство — недолговечны», подробный анализ продолжительности жизни URL-адресов

Примечания

  1. ^ «Сохранение страниц в Wayback Machine». Справочный центр Internet Archive . 2018-08-24.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Wikipedia:Link_rot&oldid=1247327399"