Поисковая система аудио — это поисковая система на основе веб-технологий , которая сканирует Интернет в поисках аудиоконтента . Информация может состоять из веб-страниц, изображений, аудиофайлов или других типов документов. Существуют различные методы исследования этих систем.
Текст, введенный пользователем в строку поиска, сравнивается с базой данных поисковой системы. Результаты сопоставления сопровождаются кратким описанием аудиофайла и его характеристиками, такими как частота дискретизации, битрейт, тип файла, длина, длительность или тип кодирования. Пользователю предоставляется возможность загрузить полученные файлы.
Система Query by Example (QBE) — это алгоритм поиска, использующий поиск изображений на основе контента (CBIR). Ключевые слова генерируются из проанализированного изображения. Эти ключевые слова используются для поиска аудиофайлов в базе данных. Результаты поиска отображаются в соответствии с предпочтениями пользователя относительно типа файла (wav, mp3, aiff…) или других характеристик.
При поиске аудио из аудио пользователь должен воспроизвести аудиозапись песни либо с помощью музыкального проигрывателя, либо напевая, либо напевая в микрофон компьютера. Затем из звуковой волны выводится звуковой шаблон A , а частотное представление выводится из ее преобразования Фурье . Этот шаблон будет сопоставлен с шаблоном B , соответствующим форме волны и преобразованию звуковых файлов, найденных в базе данных. Все те аудиофайлы в базе данных, шаблоны которых похожи на искомый шаблон, будут отображены в качестве результатов поиска.
Поиск аудио медленно развивался через несколько основных форматов поиска, которые существуют сегодня, и все они используют ключевые слова . Ключевые слова для каждого поиска можно найти в названии медиа, любом тексте, прикрепленном к медиа, и на связанных веб-страницах, а также определяемых авторами и пользователями размещенных видеоресурсов.
Некоторые поисковые системы могут искать записанную речь, например подкасты, хотя это может быть сложно, если есть фоновый шум. Около 40 фонем существуют в каждом языке, и около 400 — во всех разговорных языках. Вместо того, чтобы применять алгоритм текстового поиска после завершения обработки речи в текст, некоторые системы используют алгоритм фонетического поиска для поиска результатов в произнесенном слове. Другие работают, прослушивая весь подкаст и создавая текстовую транскрипцию.
Приложения, такие как Munax, используют несколько независимых алгоритмов ранжирования, которые инвертируют индекс вместе с сотнями параметров поиска для получения окончательного рейтинга для каждого документа. Также как Shazam, который работает, анализируя захваченный звук и ищет совпадение на основе акустического отпечатка в базе данных из более чем 11 миллионов песен. Shazam идентифицирует песни на основе аудиоотпечатка на основе частотно-временного графика, называемого спектрограммой . Shazam хранит каталог аудиоотпечатков в базе данных. Пользователь отмечает песню в течение 10 секунд, и приложение создает аудиоотпечаток. После создания отпечатка аудио Shazam начинает поиск совпадений в базе данных. Если есть совпадение, он возвращает информацию пользователю; в противном случае он возвращает диалог «песня неизвестна». Shazam может идентифицировать предварительно записанную музыку, транслируемую из любого источника, например, радио, телевидения, кинотеатра или музыки в клубе, при условии, что уровень фонового шума недостаточно высок, чтобы предотвратить получение акустического отпечатка, и что песня присутствует в базе данных программного обеспечения. [ необходима цитата ]