Википедия:Тест поисковой системы

Руководство Википедии по поиску поставщиков

Поисковая система перечисляет веб-страницы в Интернете . Это облегчает исследование, предлагая немедленное множество применимых вариантов. Возможно, полезные элементы в списке результатов включают исходный материал или электронные инструменты, которые может предоставить веб-сайт, такие как словарь, но сам список, в целом, может также указывать на важную информацию. Однако, распознавание этой информации может потребовать проницательности.

Результаты поисковой системы могут помочь редакторам сохранить (то, что примечательно ) или удалить (то, что не поддается проверке ) исходный материал, в зависимости от его надежности. В Википедии существует высокий спрос на надежность . Различение надежности исходного материала является особенно важным навыком для использования сети, в то время как сама вики лишь облегчает создание нескольких черновиков. По мере продвижения презентаций и удалений это разнообразие вариантов ввода, как правило, приводит к желаемой цели — нейтральной точке зрения . В зависимости от типа запроса и вида поисковой системы это разнообразие может открыться для одного автора.

Некоторые тесты поисковых систем

  1. Популярность — см. инструмент Google для отслеживания тенденций ниже.
  2. Использование – Определите значимость термина. (См., например, инструмент Google ngram.)
  3. Подлинность – Определите поддельную мистификацию или городскую легенду .
  4. Известность — решите, следует ли номинировать страницу на удаление.
  5. Существование – узнайте, какие источники (включая веб-сайты) на самом деле существуют для возможной презентации.
  6. Информация – Проверьте достоверность фактов и цитат.
  7. Имена и терминология . Определите названия, используемые для вещей (включая альтернативные названия и терминологию).
  8. Авторские права — определите, копируется ли материал , и если да, проверьте наличие лицензии.

На этой странице описываются как тесты веб-поиска, так и инструменты веб-поиска, которые могут помочь в развитии Википедии, а также их предубеждения и ограничения.

Преимущества конкретной поисковой системы можно различить, используя множество общих поисковых систем. Отличительными преимуществами каждой из них являются их пользовательский интерфейс и, что менее очевидно, их алгоритмы для составления и поиска собственных индексов. Поскольку веб-сканер может быть заблокирован — как определенный, так и в целом — разные поисковые системы могут перечислять разные веб-сайты, и существует больше веб-сайтов, доступных по URL, чем индексируется в любой базе данных.

Наиболее распространенными поисковыми системами являются Google, Bing и Yahoo. Существуют специализированные поисковые системы для медицины , науки , новостей и права среди прочих. Существует несколько обобщенных поисковых систем. Они адаптируют ваш запрос ко многим поисковым системам. См. § Общие поисковые системы ниже. Эта страница в основном использует Google вместо Bing или Yahoo , но стремится к обобщению там, где это возможно. Например, она описывает Google Groups (группы Usenet), Google Scholar (академия), Google News и Google Books.

Добросовестный поиск: практическое правило

  • ВП:GFG
  • WP:GOOGLECHECK

Если добавление к статье без указания источника кажется вам правдоподобным, подумайте о том, чтобы воспользоваться подходящей поисковой системой и найти надежный источник, прежде чем принимать решение о возврате к предыдущей версии.

Тесты поисковых систем

В зависимости от предмета и того, насколько тщательно он используется, тест поисковой системы может быть очень эффективным и полезным или давать вводящие в заблуждение или бесполезные результаты. В большинстве случаев тест поисковой системы является эвристикой первого прохода или « правилом большого пальца ».

Что может сделать поисковый тест, а что нет

Поисковая система может индексировать страницы и тексты, размещенные другими людьми в Интернете, подобно большому индексу в конце книги.

Поисковые системы могут:

  • Предоставьте информацию и ссылки на страницы, которые помогут достичь вышеуказанных целей.
  • Подтвердите, «кто, как сообщается, что сказал» согласно источникам (полезно для нейтрального цитирования)
  • Часто предоставляют полные цитируемые копии исходных документов
  • Подтвердите, насколько часто упоминается выражение. Однако обратите внимание, что поиск Google может выдавать гораздо больше результатов, чем когда-либо будет возвращено пользователю, особенно для точных цитируемых выражений. Например, поиск Google по запросу «зеленая золотая рыбка» с кавычками в 2021 году изначально выдает около 209 000 результатов, однако при переходе на последнюю страницу результатов поиска отображается количество возвращенных результатов, равное 303. См. также здесь, чтобы рассчитать статистическую значимость. [1]
  • Выполняйте более точный поиск на определенных веб-сайтах или по комбинированным и альтернативным фразам (или исключая определенные слова и фразы, которые в противном случае могли бы запутать результаты).

Поисковые системы не могут:

  • Гарантируем, что результаты надежны или «истинны» (поисковые системы индексируют любой текст, который пользователи решат разместить в Интернете, будь то истинный или ложный).
  • Гарантируйте, почему что-то упоминается так часто, и что это не связано с маркетингом , репостом в качестве интернет-мема , спамом или саморекламой, а скорее с важностью.
  • Гарантируйте, что результаты отражают именно те варианты использования, которые вы подразумеваете, а не другие варианты использования. (Например, поиск по конкретному Джону Смиту может выдать много «Джонов Смитов», которые не являются тем, о ком идет речь, много страниц, содержащих «Джон» и «Смит» по отдельности, а также пропустить все полезные ссылки, проиндексированные под «Дж. Смит» или, если термин заключен в кавычки, «Джон Майкл Смит» и «Смит, Джон»).
  • Гарантируем, что вы не пропустите важные ссылки из-за выбора поискового выражения.
  • Гарантируйте, что малоупомянутые или неупомянутые пункты автоматически становятся неважными.
  • Гарантировать, что конкретный результат является оригинальным экземпляром фрагмента текста, а не перепечаткой, отрывком, цитатой, неверным цитированием или нарушением авторских прав.

и поисковые системы часто не будут:

  • Предоставлять новейшие исследования в том же объеме, что и журналы и книги, по быстро развивающимся темам.
  • Будьте нейтральны .

Тест поисковой системы не может помочь вам избежать работы по интерпретации ваших результатов и принятию решения о том, что они на самом деле показывают. Появление в индексе само по себе обычно не является доказательством чего-либо.

Тесты поисковых систем и политика Википедии

Проверяемость

Тесты поисковых систем могут возвращать результаты, которые являются фиктивными, предвзятыми, мистификацией или подобными. Важно учитывать, получена ли используемая информация из надежных источников, прежде чем использовать или цитировать ее. Менее надежные источники могут быть бесполезными или нуждаться в разъяснении своего статуса и основы, чтобы другие читатели получили нейтральное и информированное понимание, чтобы судить о надежности источников.

Нейтральность

Google (и другие поисковые системы) не стремятся к нейтральной точке зрения . Википедия стремится. Google индексирует самостоятельно созданные страницы и страницы медиа, которые не имеют политики нейтралитета. Википедия имеет политику нейтралитета, которая является обязательной и применяется ко всем статьям и всей редакционной деятельности, связанной со статьями.

Таким образом, Google не является источником нейтральных названий, а только популярных. Нейтральность обязательна в Википедии (включая решение о том, как называть вещи), даже если не в других местах, и, в частности, нейтралитет важнее популярности.

(См. WP:NPOV § Нейтральность и проверяемость для получения информации о балансе политик проверяемости и нейтральности, а также WP:NPOV § Наименование статей для получения информации о том, как следует называть статьи)

Известность

Количество "попаданий" (результатов поиска) является очень грубой мерой важности. Некоторые неважные темы имеют много "попаданий", некоторые важные темы имеют мало или вообще не имеют их, по причинам, обсуждаемым далее на этой странице.

Цифры количества попаданий сами по себе редко могут "доказать" что-либо о значимости , без дальнейшего обсуждения типа попаданий, того, что искалось, как это искалось и какую интерпретацию давать результатам. С другой стороны, изучение типов возникающих попаданий [ необходимо разъяснение ] (или их отсутствия) часто дает полезную информацию, связанную с значимостью.

Кроме того, поисковые системы не устраняют неоднозначность и склонны сопоставлять частичные поиски. (Однако, как описано ниже, вы можете исключить частичные совпадения, процитировав фразу для сопоставления): Хотя «Мадонна в скалах» определенно является энциклопедической и известной записью, она не является иконой поп-культуры. Однако из-за сопоставления Мадонны как частичного совпадения, а также других ссылок на Мадонну, не связанных с картиной, результаты поиска Google или Bing будут несоразмерны по сравнению с любой столь же известной картиной эпохи Возрождения. Чтобы исключить частичные совпадения при поиске фразы в Google, процитируйте фразу для сопоставления следующим образом: «Мадонна в скалах».

Использование поисковых систем

Выражения поисковой системы (примеры и руководство)

В этом разделе объясняются некоторые поисковые выражения, используемые в веб-поиске Google . [2] Аналогичные подходы будут работать во многих других поисковых системах и других поисковых системах Google, но всегда читайте их страницы справки для получения дополнительной информации, поскольку возможности и работа поисковых систем часто различаются. Обратите внимание, что если вы вошли в учетную запись Google при поиске в Google, то это может повлиять на результаты, которые вы получаете, на основе вашей истории поиска. [3] Также не забудьте проверить «Языки для отображения (поисковых) результатов» в «Настройках поиска». [4] )

Единственным наиболее полезным инструментом поисковой системы может быть использование кавычек для поиска точного соответствия фразе. Однако поисковая система, такая как Google, имеет как простой, так и расширенный поиск с дополнительными параметрами поиска. Расширенный поиск упрощает ввод дополнительных параметров, которые могут помочь в поиске. Следующие сворачиваемые разделы охватывают основные примеры и помощь по использованию поисковых систем с Википедией.

Специализированные поисковые системы, такие как архивы медицинских документов, имеют собственную специализированную структуру поиска, которая здесь не рассматривается.

Конкретные варианты использования поисковых систем в Википедии

  • Google Trends позволяет узнать, какой вариант слова или имени чаще всего ищут, например, такой (примечание: спортивная категория) или такой. Пример «Приливная волна» и «Цунами», см. также пример Google Books ниже.
  • Google Books имеет модель охвата, которая находится в более тесном соответствии с традиционным энциклопедическим содержанием, чем Интернет, взятый в целом; если он имеет системную предвзятость, то это совсем другая системная предвзятость, чем поиск Google Web. Многократные попадания на точную фразу в поиске Google Books предоставляют убедительные доказательства реального использования фразы или концепции. Вы можете сравнить использование терминов, таких как «приливная волна» и «цунами». Поиск Google Books может найти опубликованные в печати свидетельства о важности человека, события или концепции. Его также можно использовать для замены не имеющего источника «общеизвестного» факта на печатную версию того же факта. [5]
  • Группы Google или другие медиа с отметкой даты могут помочь установить время и контекст ранних ссылок на слово или фразу. Поиск в группах Google.
  • Google News может помочь оценить, является ли что-то достойным освещения в печати. ​​Google News раньше был менее подвержен манипуляциям со стороны саморекламы, но с появлением псевдоновостных сайтов, предназначенных для сбора доходов от рекламы или продвижения определенных программ, этот тест часто оказывается не более надежным, чем другие в областях, представляющих общественный интерес, и индексирует множество «новостных» источников, которые отражают определенные точки зрения. Архив новостей насчитывает много лет, но может быть не бесплатным после ограниченного периода. Результаты новостей часто включают пресс-релизы, которые не являются нейтральными, независимыми источниками.
  • Google Scholar предоставляет доказательства того, сколько раз публикация, документ или автор цитировались или упоминались другими. Лучше всего подходит для научных или академических тем. Может включать магистерские и докторские диссертации, патенты и юридические документы. Поиск Google Scholar.
  • Темы, которые, как утверждается, являются заметными по популярной ссылке, могут иметь тип ссылки и популярность, проверенные. Предполагаемая известная проблема, которая имеет всего несколько сотен ссылок в Интернете, может быть не очень заметной; по-настоящему популярные интернет-мемы могут иметь миллионы или даже десятки миллионов ссылок. [6] Однако обратите внимание, что в некоторых областях известная тема может иметь очень мало ссылок; например, можно ожидать только несколько ссылок на некоторые археологические материалы, а некоторые материалы вообще не будут отражены в Интернете.
  • Темы, предположительно подлинные, можно проверить, ссылаются ли на них надежные независимые источники; это хороший тест на мистификации и тому подобное.
  • Нарушения авторских прав на веб-сайтах часто можно выявить (как описано выше).
  • Альтернативные варианты написания и использования могут иметь относительную частоту проверки (например, для дебатов, которые являются более распространенными из двух одинаково нейтральных и приемлемых терминов). Google Trends может сравнивать использование в категории «Новости» (например, «Приливная волна» и «Цунами»), но это может быть ненадежным для старых новостей. [7]

Интерпретация результатов

Общий

  • WP:ХИТЫ

Никогда не следует полагаться на сырое количество попаданий для доказательства значимости. Вместо этого следует обратить внимание на то, что (книги, новостные статьи, научные статьи и веб-страницы) найдено, и на то, действительно ли они демонстрируют значимость или незначимость в каждом конкретном случае. Количество попаданий всегда было и, скорее всего, всегда останется крайне ошибочным инструментом для измерения значимости и не должно считаться ни окончательным, ни окончательным. Управляемую выборку найденных результатов следует открывать по отдельности и читать, чтобы фактически проверить их релевантность.

В случае Google (и других поисковых систем, таких как Bing и Yahoo!) количество посещений в верхней части страницы ненадежно и обычно не должно сообщаться. Количество посещений, указанное на предпоследней (предпоследней) странице результатов, может быть немного точнее. Для поисков с небольшим количеством зарегистрированных посещений (менее 1000) фактическое количество посещений, необходимое для достижения нижней части последней страницы результатов, может быть точнее, но даже это не является точным. Google возвращает разные результаты поиска в зависимости от таких факторов, как ваша предыдущая история поиска и на каком сервере Google вы оказались. [8] [9]

Другие полезные соображения при интерпретации результатов:

  • Область применения статьи: Если узкая, требуется меньше ссылок. Попробуйте классифицировать точку зрения, будь то NPoV или другая; например, обратите внимание на разницу между Ontology и Ontology (компьютерная наука) .
  • Тема статьи: Если речь идет о какой-то исторической личности, одного или двух упоминаний в надежных текстах может быть достаточно; если это какой-то интернет- неологизм или популярная песня , то он может быть на 700 страницах и все равно не будет считаться достаточно «существующим», чтобы иметь какую-либо значимость для целей Википедии.

Предубеждения, о которых следует знать

В большинстве случаев результаты поиска следует рассматривать с осознанностью и осторожным скептицизмом, прежде чем полагаться на них. Распространенные предубеждения включают:

Общие предубеждения

Общие сведения (Интернет или люди в целом):

  • Личная предвзятость — тенденция быть более восприимчивым к убеждениям, с которыми человек знаком, согласен или которые распространены в его повседневной культуре, и игнорировать убеждения и взгляды, которые противоречат его предпочтительным взглядам.
  • Культурная и компьютерная предвзятость – Предвзятость в отношении информации из развитых стран, пользующихся Интернетом, и обеспеченных слоев общества (доступ в Интернет). Страны, где использование компьютеров не так распространено, часто будут иметь более низкие показатели ссылок на столь же значимый материал, который, следовательно, может показаться (ошибочно) незначимым.
  • Неоправданный вес – может непропорционально представлять некоторые вопросы, особенно связанные с популярной культурой (некоторым вопросам может быть уделено гораздо больше места, а другим – гораздо меньше, чем справедливо отражает их положение): популярность – это не известность .
  • Источники нелегкодоступны – некоторые источники доступны всем, но многие из них только платные или не публикуются в Интернете. Это может, например, повлиять на результаты поиска, которые вы получаете по исторической теме, которая достигла пика своей известности в СМИ 50 или 100 лет назад; действительные источники вполне могут существовать, но их можно найти на микрофильмах или на сайтах архивирования новостей по подписке, таких как ProQuest или Newspapers.com , а не в общем поиске Google.

Общие поисковые системы (Google, Bing и т. д.):

  • Dark net – поисковые системы исключают огромное количество страниц, и это может включать систематическую предвзятость, так что некоторые материалы исключаются непропорционально (например, потому что они обычно видны на сайтах, которые не индексируются Google, или контент по техническим причинам не может быть проиндексирован ( сайты на основе Flash или изображений и т. д.)).
  • Поисковые системы как инструмент продвижениясуществует индустрия, которая стремится влиять на позицию сайта, популярность и рейтинги в таких поисках или продавать рекламное пространство, связанное с поиском и позициями в поиске. Некоторые темы, такие как порноактеры , настолько доминируют над ними, что поиски не могут быть надежно использованы для установления популярности.
  • Процесс проверки различается: некоторые сайты принимают любую информацию, в то время как на других действует та или иная форма проверки или обзора.
  • Самокопирование . Иногда другие сайты клонируют контент Википедии, который затем распространяется по Интернету, и на его основе создаются новые страницы (и часто не цитируются). Это означает, что на самом деле источником большей части результатов поисковой системы являются просто копии предыдущего текста Википедии, а не подлинные источники.
  • Предвзятость популярного использования – популярное использование и городские легенды часто преувеличивают правильность
    • Примеры:
      1. Поиск по неправильному имени Чарльз Виндзор дает в 10 раз больше результатов, чем по правильному имени Чарльз Маунтбеттен-Виндзор .
      2. Поиск наиболее распространённого написания слова « Эль-Ниньо» часто даёт результат «Эль-Ниньо» без диакритического знака .
      3. Городские легенды часто широко распространяются, например, сотни сайтов сообщают, что USS Constitution отправился в плавание в 1779 году, хотя правильная дата — 1797 год.
  • Популярные взгляды и восприятия, вероятно, будут более отчетливыми. Например, может быть много ссылок на акупунктуру и подтверждений того, что люди часто страдают аллергией на шерсть животных , но только при тщательном исследовании может быть обнаружено, что существуют медицинские рецензируемые оценки первой, и что люди обычно страдают аллергией не на шерсть, а на липкую кожу и частицы слюны ( перхоть ) внутри шерсти.
  • Предвзятость выбора языка . Например, носитель арабского языка, ищущий информацию о гомосексуализме на арабском языке, скорее всего, обнаружит страницы, отражающие иную предвзятость, чем носитель английского языка, ищущий ту же тему на английском языке, поскольку популярные и медийные взгляды и убеждения относительно гомосексуализма могут существенно различаться в англоязычных странах (США, Великобритания, Австралия и т. д.), где, как правило, больше групп, принимающих гомосексуализм, и в арабоязычных странах (Ближний Восток), где, как правило, меньше таких групп.

Другой:

  • Обратите внимание, что другие поисковые системы Google, в частности Google Book Search, имеют иную системную предвзятость по сравнению с поисковыми системами Google Web и дают интересную перекрестную проверку и в некоторой степени независимую точку зрения.

Иностранные языки, нелатинская письменность и старые названия

Часто для элементов неанглийского происхождения или в нелатинских шрифтах значительно большее количество результатов поиска получается при поиске в правильном шрифте или для различных транскрипций — обязательно проверьте « Языки для отображения (поисковых) результатов » в « Настройках поиска ». [4] Например, арабское имя нужно искать в оригинальном шрифте, что легко сделать с помощью Google (при условии, что вы знаете, что искать), но могут возникнуть проблемы, если, например, английские, французские и немецкие веб-страницы транскрибируют имя, используя разные соглашения. Даже для веб-страниц только на английском языке может быть много вариантов одного и того же арабского или русского имени . Личные имена на других языках (русский, англосаксонский ), возможно, придется искать как включая, так и исключая отчество , а поиск имен и других слов на сильно флективных языках должен учитывать, что для получения общего количества результатов может потребоваться поиск форм с различными окончаниями падежей или другими грамматическими вариациями, не очевидными для того, кто не знает языка. Имена во многих культурах традиционно даются вместе с титулами, которые считаются частью имени, но могут и опускаться (как Гази Мустафа Кемаль Паша ).

Даже в древнеанглийском языке написание и представление старых имен может допускать десятки вариаций для одного и того же человека. Упрощенный поиск одного конкретного варианта может на порядок недооценивать присутствие в сети.

Подобный поиск требует определенной лингвистической компетентности, которой обладает не каждый отдельный Википедист, но сообщество Википедии в целом включает в себя множество двуязычных и многоязычных людей, и для номинантов и избирателей АдГ важно, по крайней мере, осознавать свои собственные ограничения и не делать необоснованных предположений, когда предвзятость языка или транскрипции может оказаться решающим фактором.

Проблемы с подсчетом отдельных страниц Google

Обратите внимание также, что количество совпадений в строке поиска, сообщаемое поисковыми системами, является лишь оценкой. Например, Google будет подсчитывать фактическое количество совпадений только после того, как пользователь просматривает все страницы результатов, до последней, и даже тогда он накладывает ограничения на это число. Иногда оценка количества «совпадений» может значительно отличаться (на один или несколько порядков ) от общего количества результатов, показанных на последней странице результатов.

Поиск по определенному сайту может помочь определить, поступает ли большинство совпадений с одного и того же веб-сайта; на один веб-сайт могут приходиться сотни тысяч посещений.

Для поисковых терминов, которые возвращают много результатов, Google использует процесс, который исключает результаты, которые «очень похожи» на другие перечисленные результаты, как игнорируя страницы с существенно похожим содержанием, так и ограничивая количество страниц, которые могут быть возвращены из любого заданного домена. Например, поиск по «Taco Bell» даст только пару страниц из tacobell.com, хотя многие в этом домене, безусловно, совпадут. Кроме того, список отдельных результатов Google создается путем выбора первых 1000 результатов, а затем исключения дубликатов без замен. Следовательно, список отдельных результатов всегда будет содержать менее 1000 результатов, независимо от того, сколько веб-страниц фактически соответствовали поисковым терминам. Например, по состоянию на 14 декабря 2010 года [обновлять]из примерно 742 миллионов страниц, связанных с «Microsoft», Google возвращал 572 «отличных» результата. [10] . Необходимо проявлять осторожность при оценке относительной важности веб-сайтов, дающих более 1000 результатов поиска.

Ограничения поисковой системы – технические примечания

  • WP:GOOGLELIMITS

Многие, возможно, большинство, общедоступных веб-страниц не индексируются. Каждая поисковая система захватывает разный процент от общего числа. Никто не может точно сказать, какая часть захватывается.

Предполагаемый размер Всемирной паутины составляет не менее 11,5 миллиардов страниц, [11] но гораздо более глубокая (и большая) паутина , оцениваемая в более чем 3 триллиона страниц, существует в базах данных, содержимое которых поисковые системы не индексируют. Эти динамические веб-страницы форматируются веб-сервером, когда пользователь запрашивает их, и, как таковые, не могут быть индексированы обычными поисковыми системами. Веб-сайт Патентного и товарного бюро США является примером; хотя поисковая система может найти его главную страницу, можно только искать в его базе данных отдельных патентов, вводя запросы на самом сайте. [12]

Google, как и все поисковые системы Интернета, может найти только ту информацию, которая действительно была размещена в Интернете. Существует еще значительное количество информации, которой нет в Интернете.

Google, как и все основные поисковые службы, следует протоколу robots.txt и может быть заблокирован сайтами, которые не хотят, чтобы их контент индексировался или кэшировался Google. Сайты, содержащие большое количество контента, защищенного авторским правом (галереи изображений, подписные газеты, веб-комиксы, фильмы, видео, справочные службы), обычно предполагающие членство, будут блокировать Google и другие поисковые системы. Другие сайты также могут блокировать Google из-за проблем с нагрузкой или пропускной способностью на сервере, на котором размещен контент.

Поисковые системы также могут не иметь возможности читать ссылки или метаданные, которые обычно требуют плагина браузера, Adobe PDF или Macromedia Flash, или когда веб-сайт отображается как часть изображения. Поисковые системы также не могут слушать подкасты или другие аудиопотоки, или даже видео, упоминающие поисковый запрос. Аналогично поисковые системы не могут читать файлы PDF, состоящие из фотосканов, или заглядывать внутрь сжатых файлов (.zip).

Форумы, сайты только для членства и только для подписки (поскольку Googlebot не регистрируется для доступа к сайту) и сайты, которые циклически меняют свой контент, не кэшируются и не индексируются ни одной поисковой системой. С переходом большего количества сайтов на дизайн AJAX/Web 2.0 это ограничение станет более распространенным, поскольку поисковые системы будут только имитировать переход по ссылкам на веб-странице. Настройки страниц AJAX (например, Google Maps) динамически возвращают данные на основе манипуляций JavaScript в реальном времени.

Google также стал жертвой атак с перенаправлением, которые могут привести к тому, что он выдаст больше результатов по определенному поисковому запросу, чем есть на самом деле страниц с контентом.

Google и другие популярные поисковые системы также являются целью для поисковых "улучшений результатов поиска", также известных как оптимизаторы поисковых систем, поэтому может быть также возвращено много результатов, которые ведут на страницу, которая служит только в качестве рекламы. Иногда страницы содержат сотни ключевых слов, специально разработанных для привлечения пользователей поисковых систем на эту страницу, но на самом деле представляют собой рекламу вместо страницы с контентом, связанным с ключевым словом.

Количество совпадений, сообщаемое Google, является лишь оценкой, которая в некоторых случаях, как было показано, неизбежно отклоняется почти на порядок, особенно для количества совпадений, превышающего несколько тысяч. [13] [14] Для таких распространенных слов, которые дают несколько тысяч совпадений Google, свободно доступные текстовые корпуса, такие как Британский национальный корпус (для британского английского языка) и Корпус современного американского английского языка (для американского английского языка), могут предоставить более точную оценку относительной частоты двух слов.

Пример ограничений

Сайт Economic Crime Summit довольно недружелюбен к Google и Internet Archive. Он очень перегружен графикой, не предоставляя Google практически ничего для поиска и много отсутствующих страниц в версии Internet Archive. Так что, хотя вы можете вызвать Economic Crime Summit Conference 2002, ссылка обзора, которая бы сказала, кто что представил, не работает. Архив Economic Crime Summit Conference 2004 еще хуже, так как он был в трех местах, и ни одна из архивных ссылок ничего не говорит вам о представленных работах.

Через Интернет-архив вы получили доказательство того, что некоторая информация относительно «Влияния достижений компьютерных технологий на обработку доказательств» существовала в Интернете. [15] Однако сегодня Google не может найти эту информацию! Программа, известная как часть Конференции по экономическим преступлениям 2002 года и в свое время указанная на веб-сайте в Интернете, в настоящее время [ когда? ] не может быть найдена Google.

Распространенные поисковые системы

Наиболее распространенными поисковыми системами являются Google, Bing, Yahoo и DuckDuckGo, но наиболее полезные поисковые системы, выбор которых зависит от контекста, могут оказаться не самыми распространенными.

ТипПримеры
Общие поисковые системыGoogle , Bing , Yahoo !, DuckDuckGo и т. д.
Профессиональные исследовательские индексыMedline (медицина), наука, право, Google Scholar
Новости и СМИНовости Google
Исторические архивы веб-страницArchive.org , кэши поисковых систем (как выглядели веб-страницы и их содержимое в разное время или если они были удалены)
Книги и историческая литератураПроект Гутенберг , Google Книги и Amazon.com
Университеты и организации высшего образования4icu.org (Поисковая система университетских сайтов)

Специализированные поисковые системы

Google Scholar хорошо работает в областях, ориентированных на печатные издания и представленных в сети на всех (или почти на всех) уважаемых площадках. Эта поисковая система является хорошим дополнением к коммерчески доступной Thompson ISI Web of Knowledge, особенно в областях, которые не очень хорошо освещены в последней, включая книги, конференционные доклады, неамериканские журналы, общие журналы в области стратегии, менеджмента, международного бизнеса, [16] обучения английскому языку и образовательных технологий. [17] Анализ алгоритма PageRank , используемого Google Scholar, показал, что эта поисковая система, а также ее коммерческие аналоги, предоставляют адекватную информацию о популярности некоторого конкретного источника, [18] хотя это не отражает автоматически реальный научный вклад конкретной публикации. [18]

MedLine , теперь часть PubMed , является оригинальной широкомасштабной поисковой системой, возникшей более четырех десятилетий назад и индексирующей даже более ранние статьи. Таким образом, особенно в биологии и медицине, PubMed "ассоциированные статьи" является прокси Google Scholar для старых статей, не представленных в сети. Например, журнал Stroke размещает статьи в сети вплоть до 1970-х годов. Для этой статьи 1978 года [1] Google Scholar перечисляет 100 цитирующих статей, в то время как PubMed перечисляет 89 ассоциированных статей

В Интернете доступно большое количество юридических библиотек во многих странах, в том числе: Библиотека Конгресса, Библиотека Конгресса (THOMAS), Верховный суд Индианы, FindLaw (США); Юридическая библиотека и источники Кентского университета (Великобритания).

См. также этот список поисковых систем .

Обобщенные поисковые системы

Существует несколько обобщенных поисковых систем. Они адаптируют ваш запрос ко многим поисковым системам. Веб-браузеры предлагают выбор поисковых систем для использования в поле поиска, и их можно использовать по одной для экспериментов с результатами поиска. Метапоисковые системы используют несколько поисковых систем одновременно. Плагин веб-браузера может добавить поисковую систему или метапоисковую систему в ваш список вариантов.

Смотрите также

Ссылки

  1. ^ Например, если в Google Книгах имеется 16 совпадений по одному имени и 24 по другому, то вероятность того, что второе имя на самом деле встречается чаще, составляет всего 70%.
  2. ^ Операторы поиска Google и дополнительная помощь по поиску
  3. ^ Персонализация истории поиска
  4. ^ ab Настройки поиска Google
  5. ^ Избегайте inauthor:"Books, LLC", поскольку LLC "публикует" необработанные распечатки статей Википедии.
  6. ^ Поиск в Google по запросу: AYB ИЛИ AYBABTU ИЛИ "Вся ваша база"
  7. ^ Google Answers вопрос о частоте слов в новостных источниках
  8. ^ Такуя, Фунахаси; Хаято, Ямана (2010). "Проверка надежности счетчиков попаданий поисковых систем" (PDF) . Труды 10-й международной конференции по текущим тенденциям в веб-инженерии . Отделение компьютерных наук и инженерии, Университет Васэда . Получено 5 мая 2015 г.
  9. ^ Салливан, Дэнни (21 октября 2010 г.). «Почему Google не может правильно подсчитывать результаты». SearchEngineLand.com . Получено 5 мая 2015 г.
  10. ^ Поиск Google по запросу «Microsoft»
  11. ^ Гулли, Антонио; Синьорини, Алессио (28 августа 2005 г.). «Индексируемый Интернет — это более 11,5 миллиардов страниц». {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  12. ^ Мор, Элвин; Мюррей, Брайан Х. (2000). «Определение размеров Интернета». Cyveillance. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  13. ^ Марк Либерман (2009), «Цитаты в кавычках и без кавычек», Language Log .
  14. ^ Либерман, Марк (2005), «Сомневаясь в реальности», Language Log ; и другие публикации Language Log, ссылки на которые приведены там.
  15. ^ http://web.archive.org/web/20011212161658/http://www.summit.nw3c.org/Programs_Agenda.htm
  16. ^ Harzing, AWK; van der Wal, R. (2008). Google Scholar как новый источник для анализа цитирования? Этика в науке и экологической политике , т. 8, № 1, стр. 62–71
  17. ^ ван Аалст, Ян. (2010) Использование Google Scholar для оценки влияния журнальных статей в образовании. Educational Researcher 39: 387.
  18. ^ ab Маслов, С.; Реднер, С. (2008). Перспективы и подводные камни расширения алгоритма PageRank Google на сети цитирования. Журнал нейронауки, 28, 11103–11105

Дальнейшее чтение

  • Джо Меерт (30 апреля 2006 г.). "Argumentum ad Googlum". Наука, антинаука и геология .— Меерт замечает, что «Искушение найти быстрый ответ означает, что во многих случаях люди не утруждают себя тщательной проверкой источника». и что «люди будут искать конкретную фразу, которая может быть вырвана из контекста, чтобы подкрепить их аргумент». Он утверждает, что «опасно и безответственно думать, что мы можем загуглить сложную дискуссию», и что он «давно понял, что нет замены детальному исследованию темы».
  • Rich Turner (29 февраля 2004 г.). "Argumentum ad Googlum; Почему получение миллиона просмотров в Google ничего не доказывает". Grumbles . Архивировано из оригинала 3 марта 2016 г.—Тернер отмечает, что «то, что что-то получает результаты в Google, не делает это правильным», и приводит несколько примеров неверных вещей, которые получают тысячи результатов поиска Google.
  • Телуолл, М. (2008). Количественное сравнение результатов поисковых систем, Журнал Американского общества информационной науки и технологий, 59(11), 1702–1710. http://www.scit.wlv.ac.uk/~cm1993/papers/SearchEngineComparisons_preprint.doc
  • Thelwall, M. (2008). Извлечение точных и полных результатов из поисковых систем: пример Windows Live. Журнал Американского общества информационной науки и технологий, 59(1), 38–50. http://www.scit.wlv.ac.uk/~cm1993/papers/2007_Accurate_Complete_preprint.doc
  • Гомес и др. (2000). Обнаружение дубликатов документов, специфичных для запроса. http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=1&p=1&f=G&l=50&d=PTXT&S1=6615209.PN.&OS=pn/6615209&RS=PN/6615209
  • Телуолл, М. (2008). Количественное сравнение результатов поисковых систем, Журнал Американского общества информационной науки и технологий, 59(11), 1702–1710. http://www.scit.wlv.ac.uk/~cm1993/papers/SearchEngineComparisons_preprint.doc
  • Наков, Преслав и Херст, Марти (2005). Исследование использования обращений к страницам поисковой системы в качестве прокси для частот n-грамм, Труды последних достижений в обработке естественного языка 2005 http://biotext.berkeley.edu/papers/nakov_ranlp2005.pdf
  • Барони, Марко и Уэяма, Мотоко (2006) Создание корпусов общего и специального назначения с помощью веб-сканирования, Труды 13-го Международного симпозиума NIJL «Языковые корпусы: их составление и применение». http://tokuteicorpus.jp./result/pdf/2006_004.pdf


Получено с "https://en.wikipedia.org/w/index.php?title=Wikipedia:Search_engine_test&oldid=1227002855"