Поисковая система аудио

Поисковая система, которая возвращает аудиорезультаты

Поисковая система аудио — это поисковая система на основе веб-технологий , которая сканирует Интернет в поисках аудиоконтента . Информация может состоять из веб-страниц, изображений, аудиофайлов или других типов документов. Существуют различные методы исследования этих систем.

Поиск аудио по тексту

Текст, введенный пользователем в строку поиска, сравнивается с базой данных поисковой системы. Результаты сопоставления сопровождаются кратким описанием аудиофайла и его характеристиками, такими как частота дискретизации, битрейт, тип файла, длина, длительность или тип кодирования. Пользователю предоставляется возможность загрузить полученные файлы.

Поиск аудио по изображению

Система Query by Example (QBE) — это алгоритм поиска, использующий поиск изображений на основе контента (CBIR). Ключевые слова генерируются из проанализированного изображения. Эти ключевые слова используются для поиска аудиофайлов в базе данных. Результаты поиска отображаются в соответствии с предпочтениями пользователя относительно типа файла (wav, mp3, aiff…) или других характеристик.

Вверху: звук A форма волны
Внизу: звук A спектрограмма

Поиск аудио из аудио

При поиске аудио из аудио пользователь должен воспроизвести аудиозапись песни либо с помощью музыкального проигрывателя, либо напевая, либо напевая в микрофон компьютера. Затем из звуковой волны выводится звуковой шаблон A , а частотное представление выводится из ее преобразования Фурье . Этот шаблон будет сопоставлен с шаблоном B , соответствующим форме волны и преобразованию звуковых файлов, найденных в базе данных. Все те аудиофайлы в базе данных, шаблоны которых похожи на искомый шаблон, будут отображены в качестве результатов поиска.

Дизайн и алгоритмы

Спектрограмма звука скрипки.
Целевая зона песни, сканируемая Shazam. [ требуется пояснение ]

Поиск аудио медленно развивался через несколько основных форматов поиска, которые существуют сегодня, и все они используют ключевые слова . Ключевые слова для каждого поиска можно найти в названии медиа, любом тексте, прикрепленном к медиа, и на связанных веб-страницах, а также определяемых авторами и пользователями размещенных видеоресурсов.

Некоторые поисковые системы могут искать записанную речь, например подкасты, хотя это может быть сложно, если есть фоновый шум. Около 40 фонем существуют в каждом языке, и около 400 — во всех разговорных языках. Вместо того, чтобы применять алгоритм текстового поиска после завершения обработки речи в текст, некоторые системы используют алгоритм фонетического поиска для поиска результатов в произнесенном слове. Другие работают, прослушивая весь подкаст и создавая текстовую транскрипцию.

Приложения, такие как Munax, используют несколько независимых алгоритмов ранжирования, которые инвертируют индекс вместе с сотнями параметров поиска для получения окончательного рейтинга для каждого документа. Также как Shazam, который работает, анализируя захваченный звук и ищет совпадение на основе акустического отпечатка в базе данных из более чем 11 миллионов песен. Shazam идентифицирует песни на основе аудиоотпечатка на основе частотно-временного графика, называемого спектрограммой . Shazam хранит каталог аудиоотпечатков в базе данных. Пользователь отмечает песню в течение 10 секунд, и приложение создает аудиоотпечаток. После создания отпечатка аудио Shazam начинает поиск совпадений в базе данных. Если есть совпадение, он возвращает информацию пользователю; в противном случае он возвращает диалог «песня неизвестна». Shazam может идентифицировать предварительно записанную музыку, транслируемую из любого источника, например, радио, телевидения, кинотеатра или музыки в клубе, при условии, что уровень фонового шума недостаточно высок, чтобы предотвратить получение акустического отпечатка, и что песня присутствует в базе данных программного обеспечения. [ необходима цитата ]

Известные двигатели

  • Picsearch Audio Search имел лицензию на поисковые порталы с 2006 года. Picsearch был поставщиком поисковых технологий, который обеспечивал поиск изображений, видео и аудио для более чем 100 основных поисковых систем по всему миру. Служба Picsearch прекратила свою деятельность в 2022 году. [1]

Для смартфонов

  • SoundHound (ранее известный как Midomi ) — это программное обеспечение и компания (обе с одинаковым названием), которые позволяют пользователям находить результаты с аудио. Его функции — это как основанная на аудио служба искусственного интеллекта , так и службы поиска песен и подробностей о них путем их пения , напевания или записи.
  • Shazam — это приложение для смартфона или Mac, наиболее известное своими возможностями идентификации музыки. Оно использует встроенный микрофон для сбора краткого образца воспроизводимого звука. Оно создает акустический отпечаток на основе образца и сравнивает его с центральной базой данных для совпадения. Если оно находит совпадение, оно отправляет пользователю информацию, такую ​​как исполнитель, название песни и альбом.
  • Doreso идентифицирует песню, напевая или напевая мелодию с помощью микрофона; и путем прямого ввода названия песни или исполнителя. Приложение предоставляет информацию о названии песни, ее исполнителе и позволяет вам приобрести песню.
  • Munax (несуществующая) — компания, выпустившая свою первую версию поисковой системы по всему контенту в 2005 году. Их поисковая система PlayAudioVideo для мультимедиа, созданная в июле 2007 года, была первой настоящей поисковой системой для мультимедиа, обеспечивающей поиск в Интернете изображений, видео и аудио в одной и той же поисковой системе и позволяющей пользователям предварительно просматривать их на той же странице. [ требуется цитата ] С тех пор Munax закрылась. [ требуется цитата ]

Смотрите также

Ссылки

  1. ^ "Picsearch". www.picsearch.com . Получено 2024-12-05 .
Взято с "https://en.wikipedia.org/w/index.php?title=Аудиопоисковая_система&oldid=1261366613"