Caverphone в лингвистике и вычислительной технике — это фонетический алгоритм сопоставления [1] [2], изобретенный для идентификации английских имен по их звукам, изначально созданный для обработки пользовательского набора данных, составленного между 1893 и 1938 годами в южном Данидине , Новая Зеландия. [3] Начавшись с концепции, схожей с metaphone , он с тех пор был разработан для размещения и обработки общего английского языка. [3]
Этимология
Caverphone был создан Дэвидом Худом в проекте Caversham в Университете Отаго в Новой Зеландии в 2002 году, пересмотрен в 2004 году. Он был создан для помощи в сопоставлении данных между избирательными списками конца 19-го и начала 20-го века, где имя должно было быть только в «общеузнаваемой форме». Алгоритм был предназначен для применения к тем именам, которые не могли быть легко сопоставлены между избирательными списками, после того как точные совпадения были удалены из пула потенциальных совпадений. Алгоритм оптимизирован для акцентов, присутствующих в исследуемой области (южная часть города Данидин , Новая Зеландия).
Процедура
Каверфон 1.0
Правила алгоритма применяются последовательно к любому конкретному имени, как серия замен.
Алгоритм следующий:
Преобразовать в нижний регистр
Удалить все, что не AZ
Если имя начинается с...
кашель , замените его на cou2f
грубо , замените его на rou2f
жесткий , замените его на tou2f
достаточно , замените его на enou2f
gn , замените его на 2n
Если имя заканчивается на
мб , замените его на м2
Заменять
cq с 2q
ci с си
се с се
ци с си
тч с 2ч
с с к
д с к
х с к
г с ф
дг с 2г
тио с сио
тиа с сией
д с т
ф с фх
б с п
ш с s2
з с с
любая начальная гласная с буквой А
все остальные гласные с 3
3gh3 с 3kh3
гх с 22
г с к
группы буквы s с S
группы буквы т с Т
группы буквы п с буквой П
группы буквы к с К
группы буквы f с F
группы буквы м с М
группы буквы н с буквой Н
w3 с W3
wy с Wy
wh3 с Wh3
почему с Почему
с 2
любая начальная h с A
все остальные вхождения h с 2
r3 с R3
ry с Ry
г с 2
l3 с L3
ly с Ly
л с 2
j с y
y3 с Y3
у с 2
удалить все
2
3
поставьте шесть 1 в конце
возьмите первые шесть символов в качестве кода
Каверфон 2.0
Начните со слова
Преобразовать в нижний регистр
Удалить все, что не входит в стандартный алфавит (обычно az ) [примечание 1]
Удалить конечную букву e
Если имя начинается с
кашлять сделай это cou2f
грубо сделать это rou2f
жесткий сделать это tou2f
достаточно, сделай это достаточно2f
через сделай это trou2f
gn сделай это 2н
Если имя заканчивается на
мб сделай это м2
Заменять
cq с 2q
ci с си
се с се
ци с си
тч с 2ч
с с к
д с к
х с к
г с ф
дг с 2г
тио с сио
тиа с сией
д с т
ф с фх
б с п
ш с s2
з с с
начальная гласная [примечание 2] с A
все остальные гласные с 3
j с y
начальный y3 с Y3
начальная y с A
у с 3
3gh3 с 3kh3
гх с 22
г с к
группы буквы s с S
группы буквы т с Т
группы буквы п с буквой П
группы буквы к с К
группы буквы f с F
группы буквы м с М
группы буквы н с буквой Н
w3 с W3
wh3 с Wh3
если имя заканчивается на w, замените последнюю w на 3
с 2
начальная h с A
все остальные вхождения h с 2
r3 с R3
если имя заканчивается на r, замените последнюю r на 3
г с 2
l3 с L3
если имя заканчивается на l, замените последнюю l на 3
л с 2
удалить все 2 с
если имя заканчивается на 3 , замените последнюю 3 на A
удалить все 3 s
поставьте десять единиц в конце
возьмите первые десять символов в качестве кода
^ Это может отличаться, если набор букв включает такие символы, как æ , ā или ø.
^ Гласные обычно a, e, i, o, u, но в зависимости от данных могут включать такие символы, как æ, ā или ø.
^ Милетт, Грег; Страуд, Адам (2012-05-18). Профессиональное программирование датчиков Android. John Wiley & Sons. стр. 421–. ISBN9781118240458. Получено 19 февраля 2013 г.
^ Фуа, Клифтон; Ли, Винсент; Смит, Кейт (2006). «Проблема личного имени и рекомендуемое решение для добычи данных». Энциклопедия хранилищ данных и добычи данных . CiteSeerX 10.1.1.127.5111 .