Это предложение провалилось . Консенсус для его реализации не был достигнут в разумные сроки. Если вы хотите возобновить обсуждение, пожалуйста, используйте страницу обсуждения или инициируйте тему на village pump . |
Поисковые системы, такие как Google и Bing, предоставляют результаты поиска, используя компьютерные программы, называемые веб-краулерами, для «серфинга» в Интернете в поисках новых страниц для добавления в поисковые индексы и обновлений для ранее «сканируемых» страниц. Эти потенциально навязчивые программы регулируются набором стандартов , которые позволяют владельцам веб-сайтов контролировать, какие страницы разрешено посещать краулерам и по каким ссылкам им разрешено переходить для доступа к новым страницам. В контексте Википедии это означает, что у нас есть возможность контролировать, какие страницы доступны веб-краулерам, и, следовательно, какие страницы возвращаются поисковыми системами, такими как Google.
С момента основания Википедии весь ее контент был доступен веб-сканерам и поисковым системам. Файл Robots.txt , который управляет доступом веб-сканеров, использовался в первую очередь для блокировки отдельных веб-сканеров, которые выполняли чрезмерно долгое или быстрое сканирование и, следовательно, истощали системные ресурсы. Это означало, что в дополнение ко всему нашему энциклопедическому контенту, огромное количество обсуждений, споров и драм было доступно для внешнего поиска. Этот материал находится в центре внимания значительного количества жалоб в службу OTRS и часто может содержать нежелательную личную информацию о пользователях, нежелательно жаркие дебаты о темах статей и другой контент, который никак не способствует укреплению репутации Википедии как профессиональной энциклопедии. В 2006 году немецкая Википедия провела «Meinungsbilder» (примерно аналогичный RfC ) и попросила разработчиков исключить все пространства имен talk из веб-сканеров (см. T6937), пытаясь контролировать часть этого контента.
Мощное присутствие Википедии как восьмого по популярности веб-сайта в Интернете дает всем нашим страницам очень большой вес в рейтингах поисковых систем ; страница Википедии, которая соответствует введенному поисковому запросу, почти гарантированно занимает место в первой десятке результатов, независимо от фактического содержания страницы. Хотя это чрезвычайно позитивный статус для наших статей и контента, он не всегда выгоден:
В июне 2006 года MediaWiki был улучшен, чтобы предоставить разработчикам возможность исключать отдельные пространства имен из индексации веб-краулерами. Эта функциональность была расширена в феврале 2008 года, чтобы позволить разработчикам устанавливать политику индексации на отдельных страницах. Наконец, в июле 2008 года пользователи получили возможность вручную устанавливать политику индексации для отдельных страниц с помощью двух волшебных слов __INDEX__
и __NOINDEX__
; разработчики могут настраивать, на каких страницах будут работать эти волшебные слова.
До конца 2008 года низкое качество собственной внутренней поисковой системы Wikipedia означало, что редакторы полагались на Google, чтобы найти материал для внутренних целей, такой как прошлые обсуждения, полезные страницы справки и другую информацию. В октябре 2008 года функция внутреннего поиска была значительно улучшена , включив все функции, уже доступные через поисковые системы, такие как Google, а также включив ряд функций, уникальных для Wikipedia, таких как автоматическое определение перенаправлений и разделов страниц, а также более подходящие поисковые рейтинги. Это сделало внутренний поиск более совершенным методом поиска внутреннего контента, чем внешний поиск, такой как Google. В декабре 2008 года новые обновления программного обеспечения MediaWiki позволили вставлять кнопки встроенного поиска для поиска по наборам подстраниц, таким как архивы страниц обсуждений или доска объявлений администраторов .
Этот раздел необходимо расширить : включите сведения о любых разногласиях, возникших из-за индексации Google страниц без содержания. Вы можете помочь, дополнив его. |
В результате все редакционные страницы были просканированы (продвинуты в поисковые системы, такие как Google). Для небольшого веб-сайта это не было большой проблемой. Для «топ-5-10 веб-сайтов» это так. Диалог о пользователях из Википедии, включая их внутренние действия в качестве редакторов, обычно является «топ-хитом» для людей долгое время после того, как они редактируют, и страницы, отличные от основного пространства и хорошо патрулируемых частей других пространств, могут содержать большое количество непроверенных, неподтвержденных пользовательских записей, которые любой пользователь может разместить в различных пространствах имен. Если только они не являются существенно проблемными и активно не замеченными, они могут оставаться непроверенными и просканированными как контент Википедии в течение многих лет.
Наши посетители и читатели ищут энциклопедический контент, а не внутренние дискуссии, споры пользователей. Наши читатели на первом месте. Существует значительный контент, который мы хотим, чтобы публика нашла и увидела. Это конечный продукт проекта.
Остальные, включая популярные страницы проектов, такие как AFD, и все пространства имен "обсуждений", страницы разрешения споров, страницы пользователей и т. д., не приносят большой пользы проекту, если индексируются поисковыми системами. Многие из них также вызывают значительную обеспокоенность по поводу конфиденциальности и легкости нахождения вредоносных материалов (споров/обвинений пользователей) в Google, гораздо больше, чем помогают проекту. Нам не нужно, чтобы они были опубликованы. Это внутренние (редакционные) страницы.
Предлагается, что наконец-то пришло время закрыть этот пробел. Вместо того, чтобы NOINDEXить отдельные страницы, в основном ad hoc, я не вижу никаких серьезных текущих обоснований для того, чтобы какая-либо "внутренняя" страница вообще подвергалась индексации, и я вижу, что проблемы уменьшатся, если ее убрать. Используйте внутренний поиск, чтобы найти такой материал, и убейте индексацию всего, что не является действительно публичной ценностью как наш "выход/продукт".
Предварительное обсуждение имело место на Wikipedia:Village pump (политика)#NOINDEX всех неконтентных пространств имен (декабрь 2008 г. - январь 2009 г.). Это предложение направлено на то, чтобы официально проверить, существует ли консенсус для запроса этих изменений, и определить технические средства для этого.
Пространство имен | Состояние по умолчанию | Переопределение разрешено? |
---|---|---|
Основное пространство | Индексированный | Нет |
Пользователь: | Неиндексировано | Да |
Википедия: | Неиндексировано | Да |
Файл: | Индексированный | Да |
МедиаВики: | Неиндексировано | Нет |
Шаблон: | Неиндексировано | Да |
Помощь: | Индексированный | Нет |
Категория: | Индексированный | Да |
Портал: | Индексированный | Да |
Все пространства имен Talk ( Talk: , User talk: , File talk: и т.д.) | Неиндексировано | Нет |
Изменения текущих настроек подсвечиваются. |
Предлагаемые изменения делятся на две области: техническую и процедурную, как описано ниже.
Пространства имен тем Wikipedia:, MediaWiki: и Template:, а также все пространства имен обсуждений по умолчанию не индексируются ; то есть страницы в этих пространствах имен не будут обнаружены веб-сканерами и, следовательно, не будут отображаться в рейтингах поисковых систем, хотя все страницы будут по-прежнему отображаться в результатах внутреннего поиска Wikipedia .
Кроме того, волшебные слова __INDEX__
и __NOINDEX__
отключены в пространствах имен тем MediaWiki: и Help:, а также во всех пространствах имен talk. Это имеет эффект «блокировки» настройки по умолчанию, поэтому ее нельзя изменить на постраничной основе.
Новые настройки индексации графически показаны в таблице справа.
В связи с этими изменениями возникает необходимость в разработке новых руководящих принципов, регулирующих использование магических слов __INDEX__
и __NOINDEX__
тех пространств имен, где они функционируют.
Некоторый контент (неэнциклопедический материал, такой как отчеты об ошибках , внутренние логотипы проектов и т. д.) может быть неиндексирован на основе консенсуса. Обсуждение NOINDEXing несвободных медиа , вероятно, будет проходить отдельно от этого предложения.
Категории «Обслуживание» будут вручную NOINDEXированы, все остальные категории (т. е. категории контента) не должны переопределяться и должны оставаться проиндексированными .
Немного более длинный ответ |
---|
Пространство проекта содержит широкий спектр материалов. Оно может включать, как и пользовательское пространство, почти любые записи пользователя , при условии, что они поверхностно кажутся относящимися к проекту или интересам проекта; обсуждения; споры; негативный материал о пользователях; эссе о точках зрения любого редактора; и значительный другой непроверенный материал. Он также содержит значительное количество действительно ценного материала, который является таким же нашим «выходом/продуктом», как и любая статья, — наши политики, руководящие принципы, объяснения процессов, общепризнанные стабильные страницы в Википедии/Викимедиа, справочные данные и т. д. Пространство проекта представляет собой смесь всего этого. Некоторые из них должны быть просканированы (в общем, последний ценный материал и любой другой «консенсус говорит»). Многое не проверено, и новый материал может быть добавлен в любое время. Поскольку политики и руководства могут быть коллективно проиндексированы просто через их соответствующие шаблоны, а количество стабильных, ценных справочных страниц само по себе довольно стабильно, а количество других страниц растет гораздо быстрее и не проверяется, проще и эффективнее использовать по умолчанию NOINDEX, а затем индексировать в качестве исключения все (или любую группу или категорию страниц), что консенсус считает ценным. |
Полный ответ: | |
---|---|
Страница может быть установлена в состояние «Не индексировать» несколькими способами. Веб-сканеры, используемые поисковыми системами, проверяют наличие файла с именем « robots.txt » в корне веб-сервера и используют его для установки глобальных параметров, по которым сканнер может получить доступ к путям на сайте. Файл robots.txt Википедии можно просмотреть по адресу http://en.wikipedia.org/robots.txt. Записи в файл могут добавляться либо разработчиками Викимедиа, либо администраторами en.wiki путем редактирования MediaWiki:Robots.txt . Записи, добавленные разработчиками, переопределяют записи, добавленные администраторами en.wiki. Во-вторых, в заголовки отдельных страниц можно добавлять метатеги HTML , чтобы заставить веб-сканеры, посещающие страницу, «игнорировать» ее. Несколько параметров конфигурации MediaWiki позволяют устанавливать эти теги на уровне вики, на уровне пространства имен и на уровне страницы. Наконец, пользователи вики могут добавить переключатель поведения в вики-разметку страницы, чтобы вручную добавить элемент HTML meta – переключатель Мета-теги HTML не могут переопределять ограничения, установленные в файле robots.txt, поскольку страница, исключенная robots.txt, никогда не будет извлечена, поэтому если в разметке есть локальное переопределение, это никогда не будет замечено. Наконец, пространства имен, в которых распознаются переключатели Используя эти параметры, мы можем попросить разработчиков реализовать любую перестановку состояния по умолчанию и переопределения для любого пространства имен (используя параметры конфигурации MediaWiki), а также блокировать как отдельные страницы (используя ), так и иерархии страниц (используя MediaWiki:Robots.txt ) на постоянной основе. |