Фонетический алгоритм

Алгоритм индексации слов по произношению

Фонетический алгоритм — это алгоритм индексации слов по их произношению . Большинство фонетических алгоритмов были разработаны для английского языка и не подходят для индексации слов на других языках. [ 1] Поскольку английское правописание значительно варьируется в зависимости от множества факторов, таких как происхождение слова, его использование с течением времени и заимствования из других языков, фонетические алгоритмы обязательно учитывают многочисленные правила и исключения. [2]

Алгоритмы

Среди наиболее известных фонетических алгоритмов:

  • Soundex , который был разработан для кодирования фамилий для использования в переписях. Коды Soundex представляют собой четырехсимвольные строки, состоящие из одной буквы, за которой следуют три цифры.
  • Daitch–Mokotoff Soundex — усовершенствованный Soundex, разработанный для лучшего соответствия фамилиям славянского и германского происхождения. Коды Daitch–Mokotoff Soundex — это строки, состоящие из шести числовых цифр.
  • Фонетика Кельна : похожа на Soundex, но больше подходит для немецких слов.
  • Metaphone и Double Metaphone , которые подходят для большинства английских слов, а не только имен. Алгоритмы Metaphone являются основой для многих популярных программ проверки орфографии .
  • Система идентификации и разведки штата Нью-Йорк (NYSIIS), которая сопоставляет похожие фонемы с одной и той же буквой. Результатом является строка, которую читатель может произнести без декодирования.
  • Метод оценки соответствия, разработанный компанией Western Airlines в 1977 году, — этот алгоритм использует технику кодирования и сравнения диапазонов.
  • Caverphone , созданный для сопоставления данных между избирательными списками конца XIX и начала XX века, оптимизирован для акцентов, присутствующих в некоторых частях Новой Зеландии.

Распространенное использование

  • Проверки орфографии часто могут содержать фонетические алгоритмы. Например, алгоритм Metaphone может взять неправильно написанное слово и создать код. Затем код ищется в каталоге слов с таким же или похожим Metaphone. Слова с таким же или похожим Metaphone становятся возможными альтернативными вариантами написания.
  • Функциональность поиска часто использует фонетические алгоритмы для поиска результатов, которые не полностью соответствуют термину(ам), используемому в поиске. Поиск имен может быть сложным, поскольку часто существует несколько альтернативных написаний имен. Примером является имя Клэр. У него есть два варианта, Клэр/Клэр, которые оба произносятся одинаково. Поиск одного варианта написания не покажет результаты для двух других. При использовании Soundex все три варианта дают один и тот же код Soundex, C460. При поиске имен на основе кода Soundex будут возвращены все три варианта.
  • При дедупликации данных используются фонетические алгоритмы, позволяющие легко группировать записи в группы схожих по звучанию имен для дальнейшей оценки.
  • Модули преобразования речи в текст используют фонетическое кодирование для поиска набора словарных слов, которые произносятся аналогично фонемам, выводимым обработанным аудиосигналом.

Смотрите также

Ссылки

  1. ^ Ли, Нан; Хичкок, Питер; Блюстейн, Джеймс; Блимель, Майкл (2011). Х. Рагхав Рао; Радж Шарман; Т. С. Рагху (ред.). Изучение грандиозных задач для электронного бизнеса следующего поколения: 8-й семинар по электронному бизнесу, WEB 2009, Финикс, Аризона, США, 15 декабря 2009 г., Пересмотренные избранные статьи. Берлин: Springer. стр. 232. ISBN 9783642174483. Получено 31 декабря 2020 г. .
  2. ^ Коэн, Эли Б. (2009). Растущая информация: Часть 2. Санта-Роза, Калифорния: Информирование науки. стр. 498. ISBN 978-1-932886-17-7.
  • Алгоритм преобразования слов в фонемы и обратно.
  • Проект StringMetric представляет собой библиотеку фонетических алгоритмов Scala .
  • Проект clj-fuzzy — библиотека фонетических алгоритмов Clojure .
  • Библиотека фонетических алгоритмов SoundexBR, реализованная на языке R.
  • Talisman — это библиотека JavaScript , в которой собраны различные фонетические алгоритмы, которые можно опробовать онлайн.
Взято с "https://en.wikipedia.org/w/index.php?title=Фонетический_алгоритм&oldid=1222509719"