Эта страница в двух словах: Измерение — это просто. Трудно понять, что именно вы измеряете и что может означать ваше измерение . Поиск в Интернете проверяет понимание WP:Пять столпов Википедии.
Поисковая система перечисляет веб-страницы в Интернете . Это облегчает исследование, предлагая немедленное множество применимых вариантов. Возможно, полезные элементы в списке результатов включают исходный материал или электронные инструменты, которые может предоставить веб-сайт, такие как словарь, но сам список, в целом, может также указывать на важную информацию. Однако, распознавание этой информации может потребовать проницательности.
Результаты поисковой системы могут помочь редакторам сохранить (то, что примечательно ) или удалить (то, что не поддается проверке ) исходный материал, в зависимости от его надежности. В Википедии существует высокий спрос на надежность . Различение надежности исходного материала является особенно важным навыком для использования сети, в то время как сама вики лишь облегчает создание нескольких черновиков. По мере продвижения презентаций и удалений это разнообразие вариантов ввода, как правило, приводит к желаемой цели — нейтральной точке зрения . В зависимости от типа запроса и вида поисковой системы это разнообразие может открыться для одного автора.
Использование – Определите значимость термина. (См., например, инструмент Google ngram.)
Подлинность – Определите поддельную мистификацию или городскую легенду .
Известность — решите, следует ли номинировать страницу на удаление.
Существование – узнайте, какие источники (включая веб-сайты) на самом деле существуют для возможной презентации.
Информация – Проверьте достоверность фактов и цитат.
Имена и терминология . Определите названия, используемые для вещей (включая альтернативные названия и терминологию).
Авторские права — определите, копируется ли материал , и если да, проверьте наличие лицензии.
На этой странице описываются как тесты веб-поиска, так и инструменты веб-поиска, которые могут помочь в развитии Википедии, а также их предубеждения и ограничения.
Преимущества конкретной поисковой системы можно различить, используя множество общих поисковых систем. Отличительными преимуществами каждой из них являются их пользовательский интерфейс и, что менее очевидно, их алгоритмы для составления и поиска собственных индексов. Поскольку веб-сканер может быть заблокирован — как определенный, так и в целом — разные поисковые системы могут перечислять разные веб-сайты, и существует больше веб-сайтов, доступных по URL, чем индексируется в любой базе данных.
Наиболее распространенными поисковыми системами являются Google, Bing и Yahoo. Существуют специализированные поисковые системы для медицины , науки , новостей и права среди прочих. Существует несколько обобщенных поисковых систем. Они адаптируют ваш запрос ко многим поисковым системам. См. § Общие поисковые системы ниже. Эта страница в основном использует Google вместо Bing или Yahoo , но стремится к обобщению там, где это возможно. Например, она описывает Google Groups (группы Usenet), Google Scholar (академия), Google News и Google Books.
Если добавление к статье без указания источника кажется вам правдоподобным, подумайте о том, чтобы воспользоваться подходящей поисковой системой и найти надежный источник, прежде чем принимать решение о возврате к предыдущей версии.
Тесты поисковых систем
В зависимости от предмета и того, насколько тщательно он используется, тест поисковой системы может быть очень эффективным и полезным или давать вводящие в заблуждение или бесполезные результаты. В большинстве случаев тест поисковой системы является эвристикой первого прохода или « правилом большого пальца ».
Что может сделать поисковый тест, а что нет
Поисковая система может индексировать страницы и тексты, размещенные другими людьми в Интернете, подобно большому индексу в конце книги.
Поисковые системы могут:
Предоставьте информацию и ссылки на страницы, которые помогут достичь вышеуказанных целей.
Подтвердите, «кто, как сообщается, что сказал» согласно источникам (полезно для нейтрального цитирования)
Часто предоставляют полные цитируемые копии исходных документов
Подтвердите, насколько часто упоминается выражение. Однако обратите внимание, что поиск Google может выдавать гораздо больше результатов, чем когда-либо будет возвращено пользователю, особенно для точных цитируемых выражений. Например, поиск Google по запросу «зеленая золотая рыбка» с кавычками в 2021 году изначально выдает около 209 000 результатов, однако при переходе на последнюю страницу результатов поиска отображается количество возвращенных результатов, равное 303. См. также здесь, чтобы рассчитать статистическую значимость. [1]
Выполняйте более точный поиск на определенных веб-сайтах или по комбинированным и альтернативным фразам (или исключая определенные слова и фразы, которые в противном случае могли бы запутать результаты).
Поисковые системы не могут:
Гарантируем, что результаты надежны или «истинны» (поисковые системы индексируют любой текст, который пользователи решат разместить в Интернете, будь то истинный или ложный).
Гарантируйте, почему что-то упоминается так часто, и что это не связано с маркетингом , репостом в качестве интернет-мема , спамом или саморекламой, а скорее с важностью.
Гарантируйте, что результаты отражают именно те варианты использования, которые вы подразумеваете, а не другие варианты использования. (Например, поиск по конкретному Джону Смиту может выдать много «Джонов Смитов», которые не являются тем, о ком идет речь, много страниц, содержащих «Джон» и «Смит» по отдельности, а также пропустить все полезные ссылки, проиндексированные под «Дж. Смит» или, если термин заключен в кавычки, «Джон Майкл Смит» и «Смит, Джон»).
Гарантируем, что вы не пропустите важные ссылки из-за выбора поискового выражения.
Гарантируйте, что малоупомянутые или неупомянутые пункты автоматически становятся неважными.
Гарантировать, что конкретный результат является оригинальным экземпляром фрагмента текста, а не перепечаткой, отрывком, цитатой, неверным цитированием или нарушением авторских прав.
и поисковые системы часто не будут:
Предоставлять новейшие исследования в том же объеме, что и журналы и книги, по быстро развивающимся темам.
Тест поисковой системы не может помочь вам избежать работы по интерпретации ваших результатов и принятию решения о том, что они на самом деле показывают. Появление в индексе само по себе обычно не является доказательством чего-либо.
Тесты поисковых систем и политика Википедии
Проверяемость
Тесты поисковых систем могут возвращать результаты, которые являются фиктивными, предвзятыми, мистификацией или подобными. Важно учитывать, получена ли используемая информация из надежных источников, прежде чем использовать или цитировать ее. Менее надежные источники могут быть бесполезными или нуждаться в разъяснении своего статуса и основы, чтобы другие читатели получили нейтральное и информированное понимание, чтобы судить о надежности источников.
Нейтральность
Google (и другие поисковые системы) не стремятся к нейтральной точке зрения . Википедия стремится. Google индексирует самостоятельно созданные страницы и страницы медиа, которые не имеют политики нейтралитета. Википедия имеет политику нейтралитета, которая является обязательной и применяется ко всем статьям и всей редакционной деятельности, связанной со статьями.
Таким образом, Google не является источником нейтральных названий, а только популярных. Нейтральность обязательна в Википедии (включая решение о том, как называть вещи), даже если не в других местах, и, в частности, нейтралитет важнее популярности.
Количество "попаданий" (результатов поиска) является очень грубой мерой важности. Некоторые неважные темы имеют много "попаданий", некоторые важные темы имеют мало или вообще не имеют их, по причинам, обсуждаемым далее на этой странице.
Цифры количества попаданий сами по себе редко могут "доказать" что-либо о значимости , без дальнейшего обсуждения типа попаданий, того, что искалось, как это искалось и какую интерпретацию давать результатам. С другой стороны, изучение типов возникающих попаданий [ необходимо разъяснение ] (или их отсутствия) часто дает полезную информацию, связанную с значимостью.
Кроме того, поисковые системы не устраняют неоднозначность и склонны сопоставлять частичные поиски. (Однако, как описано ниже, вы можете исключить частичные совпадения, процитировав фразу для сопоставления): Хотя «Мадонна в скалах» определенно является энциклопедической и известной записью, она не является иконой поп-культуры. Однако из-за сопоставления Мадонны как частичного совпадения, а также других ссылок на Мадонну, не связанных с картиной, результаты поиска Google или Bing будут несоразмерны по сравнению с любой столь же известной картиной эпохи Возрождения. Чтобы исключить частичные совпадения при поиске фразы в Google, процитируйте фразу для сопоставления следующим образом: «Мадонна в скалах».
Использование поисковых систем
Выражения поисковой системы (примеры и руководство)
В этом разделе объясняются некоторые поисковые выражения, используемые в веб-поиске Google . [2] Аналогичные подходы будут работать во многих других поисковых системах и других поисковых системах Google, но всегда читайте их страницы справки для получения дополнительной информации, поскольку возможности и работа поисковых систем часто различаются. Обратите внимание, что если вы вошли в учетную запись Google при поиске в Google, то это может повлиять на результаты, которые вы получаете, на основе вашей истории поиска. [3] Также не забудьте проверить «Языки для отображения (поисковых) результатов» в «Настройках поиска». [4] )
Единственным наиболее полезным инструментом поисковой системы может быть использование кавычек для поиска точного соответствия фразе. Однако поисковая система, такая как Google, имеет как простой, так и расширенный поиск с дополнительными параметрами поиска. Расширенный поиск упрощает ввод дополнительных параметров, которые могут помочь в поиске. Следующие сворачиваемые разделы охватывают основные примеры и помощь по использованию поисковых систем с Википедией.
Специализированные поисковые системы, такие как архивы медицинских документов, имеют собственную специализированную структуру поиска, которая здесь не рассматривается.
Базовые поисковые запросы.
Большинство поисков позволяют искать слова ( acid), выражения ( ) и комбинации ( ; ), а также исключать определенные элементы ( ). Выражение указывается в «двойных кавычках», и выражения могут быть сгруппированы с помощью скобок. Выражения обычно не чувствительны к регистру. Поэтому ниже приведены все допустимые тексты для поиска в Google:war on terrorism"war on terror" OR "war on terrorism"John AND SmithBush NOT George
Поиск:John Smith
Поскольку это не в кавычках, Google ищет страницы, содержащие все эти термины. Он находит все страницы, содержащие "john" и "smith". Это вернет страницы, содержащие "john smith", "john michael smith", а также страницы, содержащие оба термина по отдельности, например "The Secretary, john arnold, and Treasurer, mike smith..."
Поиск:"John Smith"
Имя заключено в двойные кавычки. Google будет искать страницы, содержащие точное выражение «Джон Смит» или два слова, идущие рядом друг с другом («Автором был Джон. Смит был композитором...»). Но он не будет подбирать варианты имени, такие как «Джон М. Смит».
Поиск:"John Smith" OR "John M Smith" OR "John Michael Smith"
Поиск:"Ahmed Abu-Sayed" OR "Ahmed Abusayed"
Ищет страницы с любым из этих выражений. Обратите внимание на использование (которое должно быть указано в верхнем регистре) для поиска возможных альтернативных написаний, когда неясно, были ли слова объединены авторами страниц.OR
ИспользованиеNOT
Термин (в Google представлен как ) означает: исключить страницы, содержащие этот термин. Опасность заключается в том, что страницы будут исключены из-за термина, который на самом деле не имеет никакого отношения к текущему поиску. всегда означает «и также не» в Google. Лучшее использование (или в Google) — в двух случаях:NOT-NOTNOT-
Есть четкое выражение или термин, а страница, содержащая это значение, вероятно, не будет соответствовать тому значению, которое вы ищете.
Имеется много ссылок, и вы хотите сузить поиск, исключив менее вероятные предложения страниц.
Поиск термина со вторым значением v1:George Bush NOT president
Поиск термина со вторым значением v2:"George Bush" NOT president
Поиск термина со вторым значением v3:George Bush NOT president NOT "White House"
Вам нужны ссылки на Джорджа Буша, но не на того, кто президент. Учитывая, что 90% ссылок на Джорджа Буша будут о президенте США, имеет смысл исключить все страницы с этим словом или даже более строго, даже если некоторые страницы могут содержать как ссылки на непрезидентских Джорджей Бушей, так и слово президент.
Показаны два варианта: один ищет выражение , а другой имеет второе исключение, чтобы исключить страницы с термином"George Bush""White House"
Сократите широко используемые термины:(flavor OR flavour) (quark OR quantum OR physics) -eat -food -drink -cooking -culinary
Пример более сложного поиска. Автор ищет термин , в смысле свойства в квантовой физике . Источники могут писать его по- американски или по -британски / в стиле Содружества , поэтому первое выражение — искать одно из двух. Также страница должна содержать некоторые другие слова, которые, вероятно, связаны с субатомной физикой, таким образом . Наконец, страницы, содержащие ссылки, связанные с едой и кулинарией, явно исключаются, поскольку большинство ссылок на «вкус» будут именно такого рода.flavorOR(quark OR quantum OR physics)
Расширенный поиск и проверки Copyvio.
Google допускает всевозможные комбинации слов, выражений, , и скобок, которые можно использовать для выполнения довольно подробного поиска.ORNOT
Поиск:linux (grub OR lilo) (boot OR startup OR "start-up") kernel init process
Человек, который хочет написать статью о процессе запуска (или загрузки) Linux , но не знает, где в сети искать надежные источники.
В ходе этого поиска ищутся страницы, содержащие ссылки на Linux, ссылки на два наиболее распространенных загрузчика с , ссылки на запуск в трех распространенных терминах, которые могут использоваться, и другие слова, которые, как мы надеемся, будут обычно связаны с запуском в Linux.(grub OR lilo)
Поиск Copyvio:("zytox is the worlds leading producer of widgets" OR "merger with IBM in 1929" OR "exports radar components to over fifty countries") NOT Wikipedia NOT wiki
Ищет любую из трех запоминающихся фраз из предполагаемого нарушения авторских прав, которые не появляются на той же странице, что и ссылка на . Также исключает термин , чтобы отсеять как множество зеркал Википедии, так и другие вики, которые не являются тем типом сайтов, которые мы ищем.Wikipediawiki
Если этот текст скопирован с веб-сайта, такой поиск часто помогает найти источник.
Поиск смутно запомнившейся информации и незнакомых терминов.
Поиск смутно известного термина:biology reproduction cell nucleus chromosome helix
Поиск того, кто хочет узнать, как называется молекула, которая воспроизводит ( ДНК ), и знает некоторые термины, с которыми она может быть связана, но не может вспомнить сам термин. Используйте связанные термины, чтобы попытаться найти страницы, которые ее упоминают.
Поиск термина с неизвестным написанием:piometra OR pieometra OR pyametra OR pymetra
Поиск слова pyometra кем-то, кто не помнит его написание. Опять же, они могли бы с тем же успехом искать, используя связанные термины (Google: сука матка стерилизация открытая закрытая антибиотик – все термины, связанные с ветеринарным состоянием pyometra). Велика вероятность, что кто-то уже сделал ошибку в написании, как вы, и она была проиндексирована, так что вы можете поискать больше информации оттуда.
Поиск неоднозначных терминов: (например, значение термина «биология клетки »)DNA
Пример проблемного поиска. Очевидный термин может выдать много бесполезных ответов, например, компании с этими инициалами. Поэтому вполне вероятно, что человек, который хочет найти этот элемент и пока не знает многого, должен будет искать так:DNA
Поиск – обнаружение того, что имеет много значений.DNA
Поиск – используйте слова, обычно связанные с этим значением ДНК, чтобы получить страницы, охватывающие это значение.DNA cell biology helix
Используя эти страницы, можно найти правильный термин «дезоксирибонуклеиновая кислота», иногда его пишут как «дезоксирибонуклеиновая кислота».
Выполняю последний поиск"Deoxyribonucleic acid" OR "Deoxyribo nucleic acid"
Поиск:("she's got" OR "she has") "do right by me" ticket ride lyrics
Поиск по названию песни (« Билет на поезд ») для человека, который знает некоторые фразы и думает , что может знать и другие, включая полезные слова, которые могут помочь сузить круг поиска.
Поиск ограничен новостями, группами новостей и другими источниками.
Для поиска всех новостей используйте Google News
Поиск термина на определенном сайте:"George Bush" site:www.bbc.com
Поиск термина в URL-адресе сайта:allinurl:bbc George Bush
Если поиска с помощью недостаточно, using укажет, что поисковые термины должны появляться в самом URL страницы, а не просто как термин на странице. Это в основном полезно для блогов и новостных сайтов, которые используют CMS на основе блогов , которые используют много простого языка в URL статей.site:allinurl:
Специализированные опции, включая поиск с включением или исключением самой Википедии.
Google имеет опции для указания веб-сайтов для поиска или не поиска, и где на странице выполнять поиск. Их можно добавить в конец любого поиска и ограничить местоположения, из которых Google будет сообщать о совпадениях. Примеры полезных поисков, использующих "(Atom OR Bomb)" в качестве примера искомого текста:
Для поиска таким образом
Введите строку поиска, например, такую
Сообщайте только о страницах с веб-сайтов, заканчивающихся на «en.wikipedia.org» (английская Википедия).
(atom OR bomb) site:en.wikipedia.org
Сообщайте только о страницах с веб-сайтов, заканчивающихся на «wikipedia.org», Википедия на любом языке
(atom OR bomb) site:wikipedia.org
Сообщайте только о страницах с веб-сайтов, которые не заканчиваются на «wikipedia.org», т.е. страницы, которые НЕ находятся на веб-сайте Википедии.
(atom OR bomb) -site:wikipedia.org
Избегайте страниц, на которых упоминается .Wikipedia
(Это хороший способ избежать потока результатов, которые либо взяты из Википедии, либо являются копиями и зеркалами статей Википедии.)
(atom OR bomb) NOT Wikipedia NOT wiki
Найдите фразу , избегайте страниц, на которых упоминается или или которые находятся на , и дайте ссылку на выполненный вами поиск Google, чтобы другие могли повторить его.atom bombWikipediawikiWikipedia.org
[http://www.google.com/search?q=%22atom+bomb%22+site%3Abritannica.com+OR+site%3Abbc.co.uk+OR+site%3Anytimes.com+OR+site%3Aguardian.co.uk+OR+site%3Asmh.com.au+OR+site%3Aamazon.com http://www.google.com/search?q="atom bomb" site:britannica.com OR site:bbc.co.uk OR site:nytimes.com OR site:guardian.co.uk OR site:smh.com.au OR site:amazon.com]
Для теннисиста Факундо Аргуэльо из (испаноговорящей) Аргентины, исследуйте, как его имя пишется в надежных английских источниках. Результаты поиска должны включать статьи со словом «теннис», но не со словом «тенис» (испанское написание), исключать испаноязычные веб-сайты с префиксомes ( и т. д., например, испанская Википедия), исключать веб-сайты с аргентинским доменным именем верхнего уровня и исключать страницы, которые подразумеваются или находятся на . Можно значительно упростить такой поиск, используя шаблон {{ Google LC }} (хотя он не исключает термин автоматически ): отображается как кликабельная внешняя ссылка: Источники для Факундо Аргуэльо в Google, исключая язык(и)/страну(ar) Просто щелкните ссылку, сгенерированную шаблоном, затем добавьте положительные и отрицательные совпадающие термины и в строку поиска и повторите поиск.http://es.arWikipediaWikipedia.orgwiki{{subst:google LC|Facundo Argüello|es|ar}}tennis-tenis -wiki
Чтобы изучить предпочтительный вариант написания имени футболиста Факундо Аргуэльо из Аргентины, требуется гораздо более длинная строка поиска, чтобы исключить поток результатов по имени его теннисного тезки (см. выше): просто нажмите на ссылку, затем добавьте положительные и отрицательные совпадающие термины , , (и т. д.) в строку поиска и повторите поиск.soccerfootball-futbolista
Укажите, что выражение должно отображаться в HTML-коде <title>страницы.
allintitle: (atom OR bomb)
allintitleи (или ) можно комбинировать , чтобы найти страницы на веб-сайте (или не на веб-сайте) с заданным выражением в заголовкеsite:-site:
allintitle: (atom NOT bomb) site:en.wikipedia.org
Укажите, что URL-адрес страницы должен содержать определенное выражение.
inurl:(atom OR bomb)
Включение/исключение сайта часто очень полезно для получения просмотров либо с указанного веб-сайта, либо с любых других веб-сайтов. Например, это может быть использовано
Чтобы найти страницы с терминологией Microsoft , которые не были опубликованы корпорацией Microsoft самостоятельно (не заканчивающиеся на ),microsoft.com
Чтобы найти страницы, которые являются официальными источниками правительства США или Великобритании (оканчиваются на и , соответственно),.gov.gov.uk
Чтобы найти сайты из заданной страны (скорее всего, они будут заканчиваться аббревиатурой этой страны, например, Франция ) ,.fr
Или определенные издатели СМИ (например, или )cnn.combbc.co.uk
Специализированные поиски работают по тем же принципам и с теми же базовыми поисковыми выражениями, что и выше, но могут использоваться для проверки в специализированных архивах или с необычными параметрами.
Конкретные варианты использования поисковых систем в Википедии
Google Trends позволяет узнать, какой вариант слова или имени чаще всего ищут, например, такой (примечание: спортивная категория) или такой. Пример «Приливная волна» и «Цунами», см. также пример Google Books ниже.
Google Books имеет модель охвата, которая находится в более тесном соответствии с традиционным энциклопедическим содержанием, чем Интернет, взятый в целом; если он имеет системную предвзятость, то это совсем другая системная предвзятость, чем поиск Google Web. Многократные попадания на точную фразу в поиске Google Books предоставляют убедительные доказательства реального использования фразы или концепции. Вы можете сравнить использование терминов, таких как «приливная волна» и «цунами». Поиск Google Books может найти опубликованные в печати свидетельства о важности человека, события или концепции. Его также можно использовать для замены не имеющего источника «общеизвестного» факта на печатную версию того же факта. [5]
Группы Google или другие медиа с отметкой даты могут помочь установить время и контекст ранних ссылок на слово или фразу. Поиск в группах Google.
Google News может помочь оценить, является ли что-то достойным освещения в печати. Google News раньше был менее подвержен манипуляциям со стороны саморекламы, но с появлением псевдоновостных сайтов, предназначенных для сбора доходов от рекламы или продвижения определенных программ, этот тест часто оказывается не более надежным, чем другие в областях, представляющих общественный интерес, и индексирует множество «новостных» источников, которые отражают определенные точки зрения. Архив новостей насчитывает много лет, но может быть не бесплатным после ограниченного периода. Результаты новостей часто включают пресс-релизы, которые не являются нейтральными, независимыми источниками.
Google Scholar предоставляет доказательства того, сколько раз публикация, документ или автор цитировались или упоминались другими. Лучше всего подходит для научных или академических тем. Может включать магистерские и докторские диссертации, патенты и юридические документы. Поиск Google Scholar.
Темы, которые, как утверждается, являются заметными по популярной ссылке, могут иметь тип ссылки и популярность, проверенные. Предполагаемая известная проблема, которая имеет всего несколько сотен ссылок в Интернете, может быть не очень заметной; по-настоящему популярные интернет-мемы могут иметь миллионы или даже десятки миллионов ссылок. [6] Однако обратите внимание, что в некоторых областях известная тема может иметь очень мало ссылок; например, можно ожидать только несколько ссылок на некоторые археологические материалы, а некоторые материалы вообще не будут отражены в Интернете.
Темы, предположительно подлинные, можно проверить, ссылаются ли на них надежные независимые источники; это хороший тест на мистификации и тому подобное.
Нарушения авторских прав на веб-сайтах часто можно выявить (как описано выше).
Альтернативные варианты написания и использования могут иметь относительную частоту проверки (например, для дебатов, которые являются более распространенными из двух одинаково нейтральных и приемлемых терминов). Google Trends может сравнивать использование в категории «Новости» (например, «Приливная волна» и «Цунами»), но это может быть ненадежным для старых новостей. [7]
Никогда не следует полагаться на сырое количество попаданий для доказательства значимости. Вместо этого следует обратить внимание на то, что (книги, новостные статьи, научные статьи и веб-страницы) найдено, и на то, действительно ли они демонстрируют значимость или незначимость в каждом конкретном случае. Количество попаданий всегда было и, скорее всего, всегда останется крайне ошибочным инструментом для измерения значимости и не должно считаться ни окончательным, ни окончательным. Управляемую выборку найденных результатов следует открывать по отдельности и читать, чтобы фактически проверить их релевантность.
В случае Google (и других поисковых систем, таких как Bing и Yahoo!) количество посещений в верхней части страницы ненадежно и обычно не должно сообщаться. Количество посещений, указанное на предпоследней (предпоследней) странице результатов, может быть немного точнее. Для поисков с небольшим количеством зарегистрированных посещений (менее 1000) фактическое количество посещений, необходимое для достижения нижней части последней страницы результатов, может быть точнее, но даже это не является точным. Google возвращает разные результаты поиска в зависимости от таких факторов, как ваша предыдущая история поиска и на каком сервере Google вы оказались. [8] [9]
Другие полезные соображения при интерпретации результатов:
Область применения статьи: Если узкая, требуется меньше ссылок. Попробуйте классифицировать точку зрения, будь то NPoV или другая; например, обратите внимание на разницу между Ontology и Ontology (компьютерная наука) .
Тема статьи: Если речь идет о какой-то исторической личности, одного или двух упоминаний в надежных текстах может быть достаточно; если это какой-то интернет- неологизм или популярная песня , то он может быть на 700 страницах и все равно не будет считаться достаточно «существующим», чтобы иметь какую-либо значимость для целей Википедии.
Предубеждения, о которых следует знать
В большинстве случаев результаты поиска следует рассматривать с осознанностью и осторожным скептицизмом, прежде чем полагаться на них. Распространенные предубеждения включают:
Общие предубеждения
Общие сведения (Интернет или люди в целом):
Личная предвзятость — тенденция быть более восприимчивым к убеждениям, с которыми человек знаком, согласен или которые распространены в его повседневной культуре, и игнорировать убеждения и взгляды, которые противоречат его предпочтительным взглядам.
Культурная и компьютерная предвзятость – Предвзятость в отношении информации из развитых стран, пользующихся Интернетом, и обеспеченных слоев общества (доступ в Интернет). Страны, где использование компьютеров не так распространено, часто будут иметь более низкие показатели ссылок на столь же значимый материал, который, следовательно, может показаться (ошибочно) незначимым.
Неоправданный вес – может непропорционально представлять некоторые вопросы, особенно связанные с популярной культурой (некоторым вопросам может быть уделено гораздо больше места, а другим – гораздо меньше, чем справедливо отражает их положение): популярность – это не известность .
Источники нелегкодоступны – некоторые источники доступны всем, но многие из них только платные или не публикуются в Интернете. Это может, например, повлиять на результаты поиска, которые вы получаете по исторической теме, которая достигла пика своей известности в СМИ 50 или 100 лет назад; действительные источники вполне могут существовать, но их можно найти на микрофильмах или на сайтах архивирования новостей по подписке, таких как ProQuest или Newspapers.com , а не в общем поиске Google.
Общие поисковые системы (Google, Bing и т. д.):
Dark net – поисковые системы исключают огромное количество страниц, и это может включать систематическую предвзятость, так что некоторые материалы исключаются непропорционально (например, потому что они обычно видны на сайтах, которые не индексируются Google, или контент по техническим причинам не может быть проиндексирован ( сайты на основе Flash или изображений и т. д.)).
Поисковые системы как инструмент продвижения – существует индустрия, которая стремится влиять на позицию сайта, популярность и рейтинги в таких поисках или продавать рекламное пространство, связанное с поиском и позициями в поиске. Некоторые темы, такие как порноактеры , настолько доминируют над ними, что поиски не могут быть надежно использованы для установления популярности.
Процесс проверки различается: некоторые сайты принимают любую информацию, в то время как на других действует та или иная форма проверки или обзора.
Самокопирование . Иногда другие сайты клонируют контент Википедии, который затем распространяется по Интернету, и на его основе создаются новые страницы (и часто не цитируются). Это означает, что на самом деле источником большей части результатов поисковой системы являются просто копии предыдущего текста Википедии, а не подлинные источники.
Предвзятость популярного использования – популярное использование и городские легенды часто преувеличивают правильность
Городские легенды часто широко распространяются, например, сотни сайтов сообщают, что USS Constitution отправился в плавание в 1779 году, хотя правильная дата — 1797 год.
Популярные взгляды и восприятия, вероятно, будут более отчетливыми. Например, может быть много ссылок на акупунктуру и подтверждений того, что люди часто страдают аллергией на шерсть животных , но только при тщательном исследовании может быть обнаружено, что существуют медицинские рецензируемые оценки первой, и что люди обычно страдают аллергией не на шерсть, а на липкую кожу и частицы слюны ( перхоть ) внутри шерсти.
Предвзятость выбора языка . Например, носитель арабского языка, ищущий информацию о гомосексуализме на арабском языке, скорее всего, обнаружит страницы, отражающие иную предвзятость, чем носитель английского языка, ищущий ту же тему на английском языке, поскольку популярные и медийные взгляды и убеждения относительно гомосексуализма могут существенно различаться в англоязычных странах (США, Великобритания, Австралия и т. д.), где, как правило, больше групп, принимающих гомосексуализм, и в арабоязычных странах (Ближний Восток), где, как правило, меньше таких групп.
Другой:
Обратите внимание, что другие поисковые системы Google, в частности Google Book Search, имеют иную системную предвзятость по сравнению с поисковыми системами Google Web и дают интересную перекрестную проверку и в некоторой степени независимую точку зрения.
Иностранные языки, нелатинская письменность и старые названия
Часто для элементов неанглийского происхождения или в нелатинских шрифтах значительно большее количество результатов поиска получается при поиске в правильном шрифте или для различных транскрипций — обязательно проверьте « Языки для отображения (поисковых) результатов » в « Настройках поиска ». [4] Например, арабское имя нужно искать в оригинальном шрифте, что легко сделать с помощью Google (при условии, что вы знаете, что искать), но могут возникнуть проблемы, если, например, английские, французские и немецкие веб-страницы транскрибируют имя, используя разные соглашения. Даже для веб-страниц только на английском языке может быть много вариантов одного и того же арабского или русского имени . Личные имена на других языках (русский, англосаксонский ), возможно, придется искать как включая, так и исключая отчество , а поиск имен и других слов на сильно флективных языках должен учитывать, что для получения общего количества результатов может потребоваться поиск форм с различными окончаниями падежей или другими грамматическими вариациями, не очевидными для того, кто не знает языка. Имена во многих культурах традиционно даются вместе с титулами, которые считаются частью имени, но могут и опускаться (как Гази Мустафа Кемаль Паша ).
Даже в древнеанглийском языке написание и представление старых имен может допускать десятки вариаций для одного и того же человека. Упрощенный поиск одного конкретного варианта может на порядок недооценивать присутствие в сети.
Подобный поиск требует определенной лингвистической компетентности, которой обладает не каждый отдельный Википедист, но сообщество Википедии в целом включает в себя множество двуязычных и многоязычных людей, и для номинантов и избирателей АдГ важно, по крайней мере, осознавать свои собственные ограничения и не делать необоснованных предположений, когда предвзятость языка или транскрипции может оказаться решающим фактором.
Проблемы с подсчетом отдельных страниц Google
Обратите внимание также, что количество совпадений в строке поиска, сообщаемое поисковыми системами, является лишь оценкой. Например, Google будет подсчитывать фактическое количество совпадений только после того, как пользователь просматривает все страницы результатов, до последней, и даже тогда он накладывает ограничения на это число. Иногда оценка количества «совпадений» может значительно отличаться (на один или несколько порядков ) от общего количества результатов, показанных на последней странице результатов.
Поиск по определенному сайту может помочь определить, поступает ли большинство совпадений с одного и того же веб-сайта; на один веб-сайт могут приходиться сотни тысяч посещений.
Для поисковых терминов, которые возвращают много результатов, Google использует процесс, который исключает результаты, которые «очень похожи» на другие перечисленные результаты, как игнорируя страницы с существенно похожим содержанием, так и ограничивая количество страниц, которые могут быть возвращены из любого заданного домена. Например, поиск по «Taco Bell» даст только пару страниц из tacobell.com, хотя многие в этом домене, безусловно, совпадут. Кроме того, список отдельных результатов Google создается путем выбора первых 1000 результатов, а затем исключения дубликатов без замен. Следовательно, список отдельных результатов всегда будет содержать менее 1000 результатов, независимо от того, сколько веб-страниц фактически соответствовали поисковым терминам. Например, по состоянию на 14 декабря 2010 года [обновлять]из примерно 742 миллионов страниц, связанных с «Microsoft», Google возвращал 572 «отличных» результата. [10] . Необходимо проявлять осторожность при оценке относительной важности веб-сайтов, дающих более 1000 результатов поиска.
Ограничения поисковой системы – технические примечания
Многие, возможно, большинство, общедоступных веб-страниц не индексируются. Каждая поисковая система захватывает разный процент от общего числа. Никто не может точно сказать, какая часть захватывается.
Предполагаемый размер Всемирной паутины составляет не менее 11,5 миллиардов страниц, [11] но гораздо более глубокая (и большая) паутина , оцениваемая в более чем 3 триллиона страниц, существует в базах данных, содержимое которых поисковые системы не индексируют. Эти динамические веб-страницы форматируются веб-сервером, когда пользователь запрашивает их, и, как таковые, не могут быть индексированы обычными поисковыми системами. Веб-сайт Патентного и товарного бюро США является примером; хотя поисковая система может найти его главную страницу, можно только искать в его базе данных отдельных патентов, вводя запросы на самом сайте. [12]
Google, как и все поисковые системы Интернета, может найти только ту информацию, которая действительно была размещена в Интернете. Существует еще значительное количество информации, которой нет в Интернете.
Google, как и все основные поисковые службы, следует протоколу robots.txt и может быть заблокирован сайтами, которые не хотят, чтобы их контент индексировался или кэшировался Google. Сайты, содержащие большое количество контента, защищенного авторским правом (галереи изображений, подписные газеты, веб-комиксы, фильмы, видео, справочные службы), обычно предполагающие членство, будут блокировать Google и другие поисковые системы. Другие сайты также могут блокировать Google из-за проблем с нагрузкой или пропускной способностью на сервере, на котором размещен контент.
Поисковые системы также могут не иметь возможности читать ссылки или метаданные, которые обычно требуют плагина браузера, Adobe PDF или Macromedia Flash, или когда веб-сайт отображается как часть изображения. Поисковые системы также не могут слушать подкасты или другие аудиопотоки, или даже видео, упоминающие поисковый запрос. Аналогично поисковые системы не могут читать файлы PDF, состоящие из фотосканов, или заглядывать внутрь сжатых файлов (.zip).
Форумы, сайты только для членства и только для подписки (поскольку Googlebot не регистрируется для доступа к сайту) и сайты, которые циклически меняют свой контент, не кэшируются и не индексируются ни одной поисковой системой. С переходом большего количества сайтов на дизайн AJAX/Web 2.0 это ограничение станет более распространенным, поскольку поисковые системы будут только имитировать переход по ссылкам на веб-странице. Настройки страниц AJAX (например, Google Maps) динамически возвращают данные на основе манипуляций JavaScript в реальном времени.
Google также стал жертвой атак с перенаправлением, которые могут привести к тому, что он выдаст больше результатов по определенному поисковому запросу, чем есть на самом деле страниц с контентом.
Google и другие популярные поисковые системы также являются целью для поисковых "улучшений результатов поиска", также известных как оптимизаторы поисковых систем, поэтому может быть также возвращено много результатов, которые ведут на страницу, которая служит только в качестве рекламы. Иногда страницы содержат сотни ключевых слов, специально разработанных для привлечения пользователей поисковых систем на эту страницу, но на самом деле представляют собой рекламу вместо страницы с контентом, связанным с ключевым словом.
Количество совпадений, сообщаемое Google, является лишь оценкой, которая в некоторых случаях, как было показано, неизбежно отклоняется почти на порядок, особенно для количества совпадений, превышающего несколько тысяч. [13] [14] Для таких распространенных слов, которые дают несколько тысяч совпадений Google, свободно доступные текстовые корпуса, такие как Британский национальный корпус (для британского английского языка) и Корпус современного американского английского языка (для американского английского языка), могут предоставить более точную оценку относительной частоты двух слов.
Пример ограничений
Сайт Economic Crime Summit довольно недружелюбен к Google и Internet Archive. Он очень перегружен графикой, не предоставляя Google практически ничего для поиска и много отсутствующих страниц в версии Internet Archive. Так что, хотя вы можете вызвать Economic Crime Summit Conference 2002, ссылка обзора, которая бы сказала, кто что представил, не работает. Архив Economic Crime Summit Conference 2004 еще хуже, так как он был в трех местах, и ни одна из архивных ссылок ничего не говорит вам о представленных работах.
Через Интернет-архив вы получили доказательство того, что некоторая информация относительно «Влияния достижений компьютерных технологий на обработку доказательств» существовала в Интернете. [15] Однако сегодня Google не может найти эту информацию! Программа, известная как часть Конференции по экономическим преступлениям 2002 года и в свое время указанная на веб-сайте в Интернете, в настоящее время [ когда? ] не может быть найдена Google.
Наиболее распространенными поисковыми системами являются Google, Bing, Yahoo и DuckDuckGo, но наиболее полезные поисковые системы, выбор которых зависит от контекста, могут оказаться не самыми распространенными.
4icu.org (Поисковая система университетских сайтов)
Специализированные поисковые системы
Google Scholar хорошо работает в областях, ориентированных на печатные издания и представленных в сети на всех (или почти на всех) уважаемых площадках. Эта поисковая система является хорошим дополнением к коммерчески доступной Thompson ISI Web of Knowledge, особенно в областях, которые не очень хорошо освещены в последней, включая книги, конференционные доклады, неамериканские журналы, общие журналы в области стратегии, менеджмента, международного бизнеса, [16] обучения английскому языку и образовательных технологий. [17] Анализ алгоритма PageRank , используемого Google Scholar, показал, что эта поисковая система, а также ее коммерческие аналоги, предоставляют адекватную информацию о популярности некоторого конкретного источника, [18] хотя это не отражает автоматически реальный научный вклад конкретной публикации. [18]
MedLine , теперь часть PubMed , является оригинальной широкомасштабной поисковой системой, возникшей более четырех десятилетий назад и индексирующей даже более ранние статьи. Таким образом, особенно в биологии и медицине, PubMed "ассоциированные статьи" является прокси Google Scholar для старых статей, не представленных в сети. Например, журнал Stroke размещает статьи в сети вплоть до 1970-х годов. Для этой статьи 1978 года [1] Google Scholar перечисляет 100 цитирующих статей, в то время как PubMed перечисляет 89 ассоциированных статей
В Интернете доступно большое количество юридических библиотек во многих странах, в том числе: Библиотека Конгресса, Библиотека Конгресса (THOMAS), Верховный суд Индианы, FindLaw (США); Юридическая библиотека и источники Кентского университета (Великобритания).
Существует несколько обобщенных поисковых систем. Они адаптируют ваш запрос ко многим поисковым системам. Веб-браузеры предлагают выбор поисковых систем для использования в поле поиска, и их можно использовать по одной для экспериментов с результатами поиска. Метапоисковые системы используют несколько поисковых систем одновременно. Плагин веб-браузера может добавить поисковую систему или метапоисковую систему в ваш список вариантов.
^ Например, если в Google Книгах имеется 16 совпадений по одному имени и 24 по другому, то вероятность того, что второе имя на самом деле встречается чаще, составляет всего 70%.
^ Операторы поиска Google и дополнительная помощь по поиску
^ Персонализация истории поиска
^ ab Настройки поиска Google
^ Избегайте inauthor:"Books, LLC", поскольку LLC "публикует" необработанные распечатки статей Википедии.
^ Поиск в Google по запросу: AYB ИЛИ AYBABTU ИЛИ "Вся ваша база"
^ Google Answers вопрос о частоте слов в новостных источниках
^ Такуя, Фунахаси; Хаято, Ямана (2010). "Проверка надежности счетчиков попаданий поисковых систем" (PDF) . Труды 10-й международной конференции по текущим тенденциям в веб-инженерии . Отделение компьютерных наук и инженерии, Университет Васэда . Получено 5 мая 2015 г.
^ Салливан, Дэнни (21 октября 2010 г.). «Почему Google не может правильно подсчитывать результаты». SearchEngineLand.com . Получено 5 мая 2015 г.
^ Поиск Google по запросу «Microsoft»
^ Гулли, Антонио; Синьорини, Алессио (28 августа 2005 г.). «Индексируемый Интернет — это более 11,5 миллиардов страниц».{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Мор, Элвин; Мюррей, Брайан Х. (2000). «Определение размеров Интернета». Cyveillance.{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Марк Либерман (2009), «Цитаты в кавычках и без кавычек», Language Log .
^ Либерман, Марк (2005), «Сомневаясь в реальности», Language Log ; и другие публикации Language Log, ссылки на которые приведены там.
^ Harzing, AWK; van der Wal, R. (2008). Google Scholar как новый источник для анализа цитирования? Этика в науке и экологической политике , т. 8, № 1, стр. 62–71
^ ван Аалст, Ян. (2010) Использование Google Scholar для оценки влияния журнальных статей в образовании. Educational Researcher 39: 387.
^ ab Маслов, С.; Реднер, С. (2008). Перспективы и подводные камни расширения алгоритма PageRank Google на сети цитирования. Журнал нейронауки, 28, 11103–11105
Дальнейшее чтение
Джо Меерт (30 апреля 2006 г.). "Argumentum ad Googlum". Наука, антинаука и геология .— Меерт замечает, что «Искушение найти быстрый ответ означает, что во многих случаях люди не утруждают себя тщательной проверкой источника». и что «люди будут искать конкретную фразу, которая может быть вырвана из контекста, чтобы подкрепить их аргумент». Он утверждает, что «опасно и безответственно думать, что мы можем загуглить сложную дискуссию», и что он «давно понял, что нет замены детальному исследованию темы».
Rich Turner (29 февраля 2004 г.). "Argumentum ad Googlum; Почему получение миллиона просмотров в Google ничего не доказывает". Grumbles . Архивировано из оригинала 3 марта 2016 г.—Тернер отмечает, что «то, что что-то получает результаты в Google, не делает это правильным», и приводит несколько примеров неверных вещей, которые получают тысячи результатов поиска Google.
Телуолл, М. (2008). Количественное сравнение результатов поисковых систем, Журнал Американского общества информационной науки и технологий, 59(11), 1702–1710. http://www.scit.wlv.ac.uk/~cm1993/papers/SearchEngineComparisons_preprint.doc
Thelwall, M. (2008). Извлечение точных и полных результатов из поисковых систем: пример Windows Live. Журнал Американского общества информационной науки и технологий, 59(1), 38–50. http://www.scit.wlv.ac.uk/~cm1993/papers/2007_Accurate_Complete_preprint.doc
Гомес и др. (2000). Обнаружение дубликатов документов, специфичных для запроса. http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=1&p=1&f=G&l=50&d=PTXT&S1=6615209.PN.&OS=pn/6615209&RS=PN/6615209
Телуолл, М. (2008). Количественное сравнение результатов поисковых систем, Журнал Американского общества информационной науки и технологий, 59(11), 1702–1710. http://www.scit.wlv.ac.uk/~cm1993/papers/SearchEngineComparisons_preprint.doc
Наков, Преслав и Херст, Марти (2005). Исследование использования обращений к страницам поисковой системы в качестве прокси для частот n-грамм, Труды последних достижений в обработке естественного языка 2005 http://biotext.berkeley.edu/papers/nakov_ranlp2005.pdf
Барони, Марко и Уэяма, Мотоко (2006) Создание корпусов общего и специального назначения с помощью веб-сканирования, Труды 13-го Международного симпозиума NIJL «Языковые корпусы: их составление и применение». http://tokuteicorpus.jp./result/pdf/2006_004.pdf