Википедия:Индексация поисковой системы (предложение)

  • ВП:SEI

Поисковые системы, такие как Google и Bing, предоставляют результаты поиска, используя компьютерные программы, называемые веб-краулерами, для «серфинга» в Интернете в поисках новых страниц для добавления в поисковые индексы и обновлений для ранее «сканируемых» страниц. Эти потенциально навязчивые программы регулируются набором стандартов , которые позволяют владельцам веб-сайтов контролировать, какие страницы разрешено посещать краулерам и по каким ссылкам им разрешено переходить для доступа к новым страницам. В контексте Википедии это означает, что у нас есть возможность контролировать, какие страницы доступны веб-краулерам, и, следовательно, какие страницы возвращаются поисковыми системами, такими как Google.

Фон

С момента основания Википедии весь ее контент был доступен веб-сканерам и поисковым системам. Файл Robots.txt , который управляет доступом веб-сканеров, использовался в первую очередь для блокировки отдельных веб-сканеров, которые выполняли чрезмерно долгое или быстрое сканирование и, следовательно, истощали системные ресурсы. Это означало, что в дополнение ко всему нашему энциклопедическому контенту, огромное количество обсуждений, споров и драм было доступно для внешнего поиска. Этот материал находится в центре внимания значительного количества жалоб в службу OTRS и часто может содержать нежелательную личную информацию о пользователях, нежелательно жаркие дебаты о темах статей и другой контент, который никак не способствует укреплению репутации Википедии как профессиональной энциклопедии. В 2006 году немецкая Википедия провела «Meinungsbilder» (примерно аналогичный RfC ) и попросила разработчиков исключить все пространства имен talk из веб-сканеров (см. T6937), пытаясь контролировать часть этого контента.

Мощное присутствие Википедии как восьмого по популярности веб-сайта в Интернете дает всем нашим страницам очень большой вес в рейтингах поисковых систем ; страница Википедии, которая соответствует введенному поисковому запросу, почти гарантированно занимает место в первой десятке результатов, независимо от фактического содержания страницы. Хотя это чрезвычайно позитивный статус для наших статей и контента, он не всегда выгоден:


В июне 2006 года MediaWiki был улучшен, чтобы предоставить разработчикам возможность исключать отдельные пространства имен из индексации веб-краулерами. Эта функциональность была расширена в феврале 2008 года, чтобы позволить разработчикам устанавливать политику индексации на отдельных страницах. Наконец, в июле 2008 года пользователи получили возможность вручную устанавливать политику индексации для отдельных страниц с помощью двух волшебных слов __INDEX__и __NOINDEX__; разработчики могут настраивать, на каких страницах будут работать эти волшебные слова.

До конца 2008 года низкое качество собственной внутренней поисковой системы Wikipedia означало, что редакторы полагались на Google, чтобы найти материал для внутренних целей, такой как прошлые обсуждения, полезные страницы справки и другую информацию. В октябре 2008 года функция внутреннего поиска была значительно улучшена , включив все функции, уже доступные через поисковые системы, такие как Google, а также включив ряд функций, уникальных для Wikipedia, таких как автоматическое определение перенаправлений и разделов страниц, а также более подходящие поисковые рейтинги. Это сделало внутренний поиск более совершенным методом поиска внутреннего контента, чем внешний поиск, такой как Google. В декабре 2008 года новые обновления программного обеспечения MediaWiki позволили вставлять кнопки встроенного поиска для поиска по наборам подстраниц, таким как архивы страниц обсуждений или доска объявлений администраторов .


В результате все редакционные страницы были просканированы (продвинуты в поисковые системы, такие как Google). Для небольшого веб-сайта это не было большой проблемой. Для «топ-5-10 веб-сайтов» это так. Диалог о пользователях из Википедии, включая их внутренние действия в качестве редакторов, обычно является «топ-хитом» для людей долгое время после того, как они редактируют, и страницы, отличные от основного пространства и хорошо патрулируемых частей других пространств, могут содержать большое количество непроверенных, неподтвержденных пользовательских записей, которые любой пользователь может разместить в различных пространствах имен. Если только они не являются существенно проблемными и активно не замеченными, они могут оставаться непроверенными и просканированными как контент Википедии в течение многих лет.

Наши посетители и читатели ищут энциклопедический контент, а не внутренние дискуссии, споры пользователей. Наши читатели на первом месте. Существует значительный контент, который мы хотим, чтобы публика нашла и увидела. Это конечный продукт проекта.

Остальные, включая популярные страницы проектов, такие как AFD, и все пространства имен "обсуждений", страницы разрешения споров, страницы пользователей и т. д., не приносят большой пользы проекту, если индексируются поисковыми системами. Многие из них также вызывают значительную обеспокоенность по поводу конфиденциальности и легкости нахождения вредоносных материалов (споров/обвинений пользователей) в Google, гораздо больше, чем помогают проекту. Нам не нужно, чтобы они были опубликованы. Это внутренние (редакционные) страницы.

Предлагается, что наконец-то пришло время закрыть этот пробел. Вместо того, чтобы NOINDEXить отдельные страницы, в основном ad hoc, я не вижу никаких серьезных текущих обоснований для того, чтобы какая-либо "внутренняя" страница вообще подвергалась индексации, и я вижу, что проблемы уменьшатся, если ее убрать. Используйте внутренний поиск, чтобы найти такой материал, и убейте индексацию всего, что не является действительно публичной ценностью как наш "выход/продукт".

Предварительное обсуждение имело место на Wikipedia:Village pump (политика)#NOINDEX всех неконтентных пространств имен (декабрь 2008 г. - январь 2009 г.). Это предложение направлено на то, чтобы официально проверить, существует ли консенсус для запроса этих изменений, и определить технические средства для этого.

Предложение

Пространство именСостояние по умолчаниюПереопределение
разрешено?
Основное пространствоИндексированныйНет
Пользователь:НеиндексированоДа
Википедия:НеиндексированоДа
Файл:ИндексированныйДа
МедиаВики:НеиндексированоНет
Шаблон:НеиндексированоДа
Помощь:ИндексированныйНет
Категория:ИндексированныйДа
Портал:ИндексированныйДа
Все пространства имен Talk
( Talk: , User talk: ,
File talk:
и т.д.)
НеиндексированоНет
Изменения текущих настроек подсвечиваются.

Предлагаемые изменения делятся на две области: техническую и процедурную, как описано ниже.

Технический

Пространства имен тем Wikipedia:, MediaWiki: и Template:, а также все пространства имен обсуждений по умолчанию не индексируются ; то есть страницы в этих пространствах имен не будут обнаружены веб-сканерами и, следовательно, не будут отображаться в рейтингах поисковых систем, хотя все страницы будут по-прежнему отображаться в результатах внутреннего поиска Wikipedia .

Кроме того, волшебные слова __INDEX__и __NOINDEX__отключены в пространствах имен тем MediaWiki: и Help:, а также во всех пространствах имен talk. Это имеет эффект «блокировки» настройки по умолчанию, поэтому ее нельзя изменить на постраничной основе.

Новые настройки индексации графически показаны в таблице справа.

Процедурный

В связи с этими изменениями возникает необходимость в разработке новых руководящих принципов, регулирующих использование магических слов __INDEX__и __NOINDEX__тех пространств имен, где они функционируют.

ИНДЕКС в Пользователь: пространство имен
ИНДЕКС в Википедии: пространство имен
  • Такие страницы, как политики , руководства и «любые общепризнанные стабильные справочные страницы» (на основе консенсуса) останутся проиндексированными .
  • Другие страницы могут индексироваться индивидуально в каждом конкретном случае (на основе консенсуса).
NOINDEX в файле: пространство имен

Некоторый контент (неэнциклопедический материал, такой как отчеты об ошибках , внутренние логотипы проектов и т. д.) может быть неиндексирован на основе консенсуса. Обсуждение NOINDEXing несвободных медиа , вероятно, будет проходить отдельно от этого предложения.

ИНДЕКС в Шаблоне: пространство имен
NOINDEX в категории: пространство имен

Категории «Обслуживание» будут вручную NOINDEXированы, все остальные категории (т. е. категории контента) не должны переопределяться и должны оставаться проиндексированными .

NOINDEX в Portal: пространство имен

Выполнение

  • После того, как эта страница будет завершена, сообществу будет предложено рассмотреть предложения по изменению статуса индекса различных пространств имен, как описано выше. Различные части этого предложения будут запрошены отдельно, чтобы редакторы могли выбирать свои предпочтения на основе каждого пространства имен.
  • Для тех пространств имен, где консенсус достигнут, WMF и техническим пользователям будет предложено определить наиболее подходящий способ реализации решения.

Часто задаваемые вопросы

  • Станет ли это проблемой, если пользователи будут полагаться на Google для поиска ненужного контента в Википедии?
Нет. В ноябре 2008 года был улучшен внутренний поиск сайта . Новый поиск обрабатывает сложные запросы того же типа, что и Google, и имеет другие функции, которые позволяют ему лучше выполнять поиск в этих пространствах, чем Google.
Например, внутренний поиск может обрабатывать те же булевы выражения и поиск "заголовка страницы", что и расширенный поиск Google, но теперь он также понимает пространства имен, "разделы" страниц, может искать слова с подстановочными знаками и т. д., чего Google не может. Кроме того, многие страницы, которые уже NOINDEXED, можно искать с помощью внутреннего поиска, но Google не видит их.
  • Что необходимо знать пользователям?
Пользователям придется использовать внутренний поиск вместо внешнего поиска, чтобы найти материал в прошлых обсуждениях. Они обнаружат, что как только они привыкнут нажимать «поиск» вместо «Google», будут приниматься те же форматы , что и Google Advanced Search, а также, что станет доступна более полезная информация, относящаяся к википедистам, ищущим прошлые обсуждения, например, ограничение поиска определенными пространствами имен или информацией «раздел» и «название раздела», которой у них не было до использования Google.
Такое изменение требует четкого предварительного уведомления . Пользователи будут уведомлены четким баннером и сообщениями на доске объявлений об изменении за месяц вперед и направлены на полезную ссылку и справочную информацию. Другие средства, облегчающие переход, также будут использоваться в максимально возможной степени. Новые пользователи усвоят «вот как искать обсуждения» так же, как они усвоят, как просматривать изменения истории, или разметку, или любое другое редакционное ноу-хау Википедии.
  • Что еще может произойти в течение месяца предварительного уведомления?
К тому времени, как будет обсуждаться техническая сторона и пройдет месячное уведомление, скорее всего, большинство очевидных страниц пространства проекта, которые необходимо проиндексировать, или те, где консенсус будет достигнут, будут помечены как проиндексированные. Пользователи вряд ли будут ждать :)
  • Повлияет ли это на рейтинг Википедии?
Википедия занимает верхние позиции по многим темам, поскольку ее контент очень часто цитируется. Влияние этого предложения очень трудно предсказать.
  • Почему предлагается индексировать пространство проектов именно так?
Короткий ответ — страницы, которые мы хотим индексировать в Projectspace, скорее всего, будут меняться относительно медленно по количеству или местоположению. Те, которые мы не хотим индексировать, будут написаны наугад или неясны, и, скорее всего, намного превосходят их по количеству. Поэтому мы по умолчанию не индексируем, если не решено иначе.

  • Можно ли на самом деле задать пространство имен как «без индекса, не подлежащее переопределению»?
Краткий ответ: Да, эти настройки могут выполнять как разработчики MediaWiki, так и администраторы en.wiki, хотя наиболее эффективное решение предполагает их комбинацию.
  • Разве эта страница не бессмысленна? Поскольку сообщество решило, что оно хочет, чтобы страницы в неосновном пространстве индексировались?
У сообщества никогда не было возможности сформировать консенсус по этому вопросу; как объяснялось выше, возможность ограничивать доступ веб-краулеров к страницам была реализована задолго до образования Википедии, и до недавнего времени плохая функция внутреннего поиска делала noindexing невозможным. Теперь, когда ситуация изменилась, мы можем сформировать законный консенсус. Не забывайте, что даже если сообщество ранее решило , что страницы, не относящиеся к основному пространству, должны быть проиндексированы (чего оно не сделало), такой консенсус может со временем измениться по мере изменения ситуации, например, из-за обновленного внутреннего поиска.

Смотрите также

Получено с "https://en.wikipedia.org/w/index.php?title=Wikipedia:Индексирование_поисковой_системы_(предложение)&oldid=1176496309"