Проверка орфографии

Программное обеспечение для исправления орфографических ошибок

В программном обеспечении проверка орфографии (или проверка орфографии или проверка орфографии ) — это программная функция , которая проверяет наличие ошибок в тексте . Функции проверки орфографии часто встроены в программное обеспечение или службы, такие как текстовый процессор , почтовый клиент , электронный словарь или поисковая система .

У глаза есть проверка орфографии,
Она пришла с моим гороховым морем.
Он самолет подветренных отметок четыре моих ревю
Мисс Стейки Я могу завязать узел моря.

Глаз ударяет по причалам и печатает жужжащий
И вес четыре это два сказать
Погода глаз пишу весло неправильно
Он говорит мне прямо вес.

Глаз пробежал это стихотворение бросил его,
Твой берег действительно рад два нет.
Его варьируется отполированный в его весе.
Мой чек позвонил мне шить.

Чек - благословенная вещь,
Он замораживает тисовые залежи тимьяна.
Он помогает мне исправить все стили выпрямления,
И помогает мне, когда глаз изморозь.

Каждая потертость появляется на моем экране
Глаз скрученный слишком би джоуль.
Чек льется на каждое слово
Два правила орфографии суммы чека.

Оригинальная версия этого стихотворения была написана Джерролдом Х. Заром в 1992 году. Неискушенный проверяльщик орфографии не найдет никаких или почти никаких недостатков в этом стихотворении, потому что оно проверяет слова изолированно. Более продвинутый проверяльщик орфографии будет использовать языковую модель для рассмотрения контекста, в котором встречается слово.
Проверка орфографии Google Chrome в действии для приведенного выше стихотворения, слово «checker» отмечено как нераспознанное слово

Дизайн

Базовая проверка орфографии выполняет следующие процессы:

  • Он сканирует текст и извлекает содержащиеся в нем слова.
  • Затем он сравнивает каждое слово с известным списком правильно написанных слов (т. е. словарем). Он может содержать только список слов или также дополнительную информацию, например, точки переноса или лексические и грамматические атрибуты.
  • Дополнительным шагом является зависящий от языка алгоритм обработки морфологии . Даже для слабо флективного языка, такого как английский , проверка орфографии должна будет учитывать различные формы одного и того же слова, такие как множественное число, глагольные формы, сокращения и притяжательные формы . Для многих других языков, например, тех, в которых есть агглютинация и более сложное склонение и спряжение, эта часть процесса более сложная.

Неясно, дает ли морфологический анализ, допускающий множество форм слова в зависимости от его грамматической роли, существенные преимущества для английского языка, хотя его преимущества для высокосинтетических языков, таких как немецкий, венгерский или турецкий, очевидны.

В дополнение к этим компонентам пользовательский интерфейс программы позволяет пользователям одобрять или отклонять замены, а также изменять работу программы.

Проверки орфографии могут использовать алгоритмы приблизительного сопоставления строк , такие как расстояние Левенштейна , для поиска правильного написания неправильно написанных слов. [1] Альтернативный тип проверки орфографии использует исключительно статистическую информацию, такую ​​как n-граммы , для распознавания ошибок вместо правильно написанных слов. Этот подход обычно требует больших усилий для получения достаточной статистической информации. Основные преимущества включают необходимость в меньшем объеме памяти во время выполнения и возможность исправления ошибок в словах, которые не включены в словарь. [2]

В некоторых случаях программы проверки орфографии используют фиксированный список ошибок и предложений по их исправлению; этот менее гибкий подход часто используется в методах исправления на основе бумажных текстов, таких как см. также статьи энциклопедий.

Алгоритмы кластеризации также использовались для проверки орфографии [3] в сочетании с фонетической информацией. [4]

История

До ПК

В 1961 году Лес Эрнест , возглавлявший исследования этой перспективной технологии, посчитал необходимым включить первую программу проверки орфографии, которая имела доступ к списку из 10 000 приемлемых слов. [5] Ральф Горин, аспирант Эрнеста в то время, создал первую настоящую программу проверки орфографии, написанную как прикладная программа (а не исследовательская) для общего английского текста: SPELL для DEC PDP-10 в Лаборатории искусственного интеллекта Стэнфордского университета в феврале 1971 года. [6] Горин написал SPELL на языке ассемблера для более быстрой работы; он создал первый корректор орфографии, ища в списке слов правдоподобные правильные варианты написания, которые отличаются одной буквой или соседними перестановками букв, и предоставляя их пользователю. Горин сделал SPELL общедоступным, как это было сделано с большинством программ SAIL (Стэнфордская лаборатория искусственного интеллекта), и вскоре он распространился по всему миру через новый ARPAnet, примерно за десять лет до того, как персональные компьютеры стали общедоступными. [7] SPELL, его алгоритмы и структуры данных вдохновили программу ispell для Unix .

Первые системы проверки орфографии были широко доступны на мэйнфреймах в конце 1970-х годов. Группа из шести лингвистов из Джорджтаунского университета разработала первую систему проверки орфографии для корпорации IBM. [8]

Генри Кучера изобрел один для машин VAX компании Digital Equipment Corp в 1981 году. [9]

Unix

Программа International Ispell, обычно используемая в Unix, основана на SPELL RE Gorin. Она была преобразована в C Пейсом Уиллисоном в MIT. [10]

Проект GNU имеет свою проверку орфографии GNU Aspell . Главное улучшение Aspell заключается в том, что он может точнее предлагать правильные альтернативы для неправильно написанных английских слов. [11]

Из-за неспособности традиционных программ проверки орфографии проверять слова в сложных флективных языках венгр Ласло Немет разработал Hunspell — программу проверки орфографии, которая поддерживает агглютинативные языки и сложные составные слова. Hunspell также использует Unicode в своих словарях. [12] Hunspell заменил предыдущий MySpell в OpenOffice.org в версии 2.0.2.

Enchant — еще один общий проверяльщик орфографии, производный от AbiWord . Его цель — объединить программы, поддерживающие разные языки, такие как Aspell, Hunspell, Nuspell, Hspell (иврит), Voikko (финский), Zemberek (турецкий) и AppleSpell, в одном интерфейсе. [13]

ПК

Первые программы проверки орфографии для персональных компьютеров появились в 1980 году, например, «WordCheck» для систем Commodore, выпущенный в конце 1980 года как раз к моменту выхода рекламы в печать в январе 1981 года. [14] Такие разработчики, как Мария Мариани [8] и Random House [15], бросились выпускать OEM- пакеты или продукты для конечных пользователей на быстрорастущий рынок программного обеспечения. На ПК до Windows эти программы проверки орфографии были автономными программами, многие из которых можно было запускать в режиме terminate-and-stay-resident из текстовых процессоров на ПК с достаточным объемом памяти.

Однако рынок автономных пакетов просуществовал недолго, так как к середине 1980-х годов разработчики популярных текстовых процессоров, таких как WordStar и WordPerfect, включили в свои пакеты средства проверки орфографии, в основном лицензированные у вышеуказанных компаний, которые быстро расширили поддержку с английского на многие европейские и в конечном итоге даже азиатские языки . Однако это потребовало повышения сложности морфологических процедур программного обеспечения, особенно в отношении сильно агглютинативных языков, таких как венгерский и финский . Хотя размер рынка текстовых процессоров в такой стране, как Исландия, мог не оправдать инвестиции во внедрение средства проверки орфографии, такие компании, как WordPerfect, тем не менее стремились локализовать свое программное обеспечение для как можно большего числа национальных рынков в рамках своей глобальной маркетинговой стратегии.

Когда Apple разработала «системную проверку орфографии» для Mac OS X, чтобы «операционная система взяла на себя исправление орфографии», [16] это было впервые: «не нужно было поддерживать отдельную проверку орфографии для каждой» программы. [17] Проверка орфографии Mac OS X охватывает практически все встроенные и сторонние приложения.

VT Speller от Visual Tools , представленный в 1994 году, был «разработан для разработчиков приложений, поддерживающих Windows». [18] [19] Он поставлялся со словарем, но имел возможность создавать и включать использование вторичных словарей. [20]

Браузеры

Веб-браузеры, такие как Firefox и Google Chrome, предлагают поддержку проверки орфографии с помощью Hunspell . До использования Hunspell, Firefox и Chrome использовали MySpell и GNU Aspell , соответственно. [21]

Специальности

Некоторые программы проверки орфографии имеют отдельную поддержку медицинских словарей, что помогает предотвратить медицинские ошибки. [22] [23] [24]

Функциональность

Первые средства проверки орфографии были «верификаторами», а не «корректорами». Они не предлагали никаких предложений для неправильно написанных слов. Это было полезно для опечаток, но не было так полезно для логических или фонетических ошибок. Проблема, с которой столкнулись разработчики, заключалась в трудности предложения полезных предложений для неправильно написанных слов. Для этого требуется сокращение слов до скелетной формы и применение алгоритмов сопоставления с образцом.

Может показаться логичным, что в случае с словарями проверки орфографии «чем больше, тем лучше», чтобы правильные слова не помечались как неправильные. Однако на практике оптимальный размер для английского языка, по-видимому, составляет около 90 000 записей. Если их больше, неправильно написанные слова могут быть пропущены, поскольку их принимают за другие. Например, лингвист может определить на основе корпусной лингвистики , что слово baht чаще является неправильным написанием bath или bat , чем ссылкой на тайскую валюту. Следовательно, обычно было бы полезнее, если бы несколько человек, пишущих о тайской валюте, были немного неудобны, чем если бы орфографические ошибки гораздо большего числа людей, обсуждающих baths, были проигнорированы.

Скриншот Enchant , средства проверки орфографии AbiWord

Первые программы проверки орфографии MS-DOS в основном использовались в режиме проверки из текстовых пакетов. После подготовки документа пользователь сканировал текст в поисках ошибок. Однако позже пакетная обработка была предложена в таких пакетах, как недолго просуществовавший CoAuthor от Oracle , и позволяла пользователю просматривать результаты после обработки документа и исправлять только те слова, которые были заведомо неправильными. Когда памяти и вычислительной мощности стало достаточно, проверка орфографии выполнялась в фоновом режиме в интерактивном режиме, как это было в случае с программой Spellbound, выпущенной Sector Software в 1987 году, и Microsoft Word с Word 95.

Проверки орфографии стали более сложными; теперь они способны распознавать грамматические ошибки. Однако даже в лучшем случае они редко обнаруживают все ошибки в тексте (например, ошибки омофонов ) и будут отмечать неологизмы и иностранные слова как орфографические ошибки. Тем не менее, проверки орфографии можно рассматривать как тип помощи при письме на иностранном языке , на который могут положиться изучающие неродной язык, чтобы обнаружить и исправить свои орфографические ошибки в целевом языке. [25]

Проверка орфографии для языков, отличных от английского

Английский язык необычен тем, что большинство слов, используемых в официальном письме, имеют единое написание, которое можно найти в типичном словаре, за исключением некоторых жаргонизмов и измененных слов. Во многих языках слова часто объединяются в новые комбинации слов. В немецком языке составные существительные часто образуются из других существующих существительных. Некоторые письменности не отделяют одно слово от другого, требуя алгоритмов разделения слов. Каждый из них представляет уникальные проблемы для проверки орфографии неанглоязычных языков.

Контекстно-зависимые средства проверки орфографии

Были проведены исследования по разработке алгоритмов, способных распознавать неправильно написанные слова, даже если само слово есть в словаре, на основе контекста окружающих слов. Это не только позволяет отлавливать такие слова, как в стихотворении выше, но и смягчает пагубное влияние увеличения словарей, позволяя распознавать больше слов. Например, baht в том же абзаце, что и Thai или Thailand, не будет распознаваться как неправильное написание bath . Наиболее распространенным примером ошибок, отлавливаемых такой системой, являются омофонные ошибки, такие как выделенные жирным шрифтом слова в следующем предложении:

Их прибытие слишком море, если это катушка .

Самый успешный алгоритм на сегодняшний день - это " Winnow -based spelling Correcting Algorithm" Эндрю Голдинга и Дэна Рота , [26] опубликованный в 1999 году, который способен распознавать около 96% контекстно-зависимых орфографических ошибок, в дополнение к обычным несловесным орфографическим ошибкам. Контекстно-зависимые проверки орфографии появились в ныне несуществующих приложениях Microsoft Office 2007 [27] и Google Wave . [28]

Программы проверки грамматики пытаются исправить проблемы с грамматикой, выходящие за рамки орфографических ошибок, включая неправильный выбор слов.

Смотрите также

Ссылки

  1. ^ Пернер, Петра (2010-07-05). Достижения в области интеллектуального анализа данных: приложения и теоретические аспекты: 10-я промышленная конференция, ICDM 2010, Берлин, Германия, 12-14 июля 2010 г. Труды. Springer Science & Business Media. ISBN 978-3-642-14399-1.
  2. ^ Патент США 6618697, Метод исправления орфографических и грамматических ошибок на основе правил.
  3. ^ де Аморим, RC; Зампиери, М. (2013) Эффективные методы проверки орфографии с использованием алгоритмов кластеризации. Архивировано 17 августа 2017 г. в Wayback Machine Proceedings of Recent Advances in Natural Language Processing (RANLP2013). Хисар, Болгария. стр. 172-178.
  4. ^ Зампьери, М.; де Аморим, Р. К. (2014) Между звуком и орфографией: сочетание фонетики и алгоритмов кластеризации для улучшения восстановления целевого слова. Труды 9-й Международной конференции по обработке естественного языка (PolTAL). Конспект лекций по информатике (LNCS). Springer. стр. 438-449.
  5. ^ Эрнест, Лес. «Первые три средства проверки орфографии» (PDF) . Стэнфордский университет. Архивировано из оригинала (PDF) 22 октября 2012 г. . Получено 10 октября 2011 г. .
  6. ^ Петерсон, Джеймс (декабрь 1980 г.). Компьютерные программы для обнаружения и исправления орфографических ошибок (PDF) . Получено 18.02.2011 .
  7. ^ Эрнест, Лес. Видимые наследия для Y3K (PDF) . Архивировано из оригинала (PDF) 2011-07-20 . Получено 18-02-2011 .
  8. ^ ab "Преподавательский состав и сотрудники Джорджтаунского университета: Центр языка, образования и развития". Архивировано из оригинала 2009-02-05 . Получено 2008-12-18 ., цитата: «Мария Мариани... была одной из шести лингвистов из Джорджтаунского университета, которые разработали первую систему проверки орфографии для корпорации IBM».
  9. Харви, Шарлотта Брюс (май–июнь 2010 г.). «Обучение компьютеров правописанию (некролог Генри Кучеры)». Журнал выпускников Brown . стр. 79.
  10. ^ "International Ispell". www.cs.hmc.edu . Получено 2023-02-19 .
  11. ^ "GNU Aspell". aspell.net . Получено 2023-02-19 .
  12. ^ "Ханспелл: О" . hunspell.github.io . Проверено 19 февраля 2023 г.
  13. ^ AbiWord/enchant, AbiWord, 2023-02-13 , получено 2023-02-19
  14. Реклама (январь 1981 г.). "Micro Computer Industries, Ltd" (PDF) . Compute! Magazine, выпуск 8, том 3, № 1. стр. 119.
  15. Реклама (ноябрь 1982 г.). «Конкурс по правописанию окончен». Журнал PC Magazine . стр. 165. Получено 21 октября 2013 г.
  16. ^ Дэвид Поуг (2009). Mac OS X Snow Leopard: Недостающее руководство .
  17. ^ Дэвид Поуг (2015). Переход на Mac: недостающее руководство. "O'Reilly Media, Inc.". ISBN 9781491948125.
  18. ^ "VisualTools VT-Speller". Computerworld . 21 февраля 1994 г. стр. 68.
  19. ^ "Просмотр 27 сентября 1993 г.". VT-SPELLER
  20. Питер Г. Эйткен (8 ноября 1994 г.). «Проверка орфографии в ваших приложениях». PC Magazine . стр. 299.
  21. ^ «Аспелл ​​и Ханспелл: История двух проверяющих орфографию». battlepenguin.com .
  22. ^ "Medical Spell Checker for Firefox and Thunderbird". e-MedTools. 2017. Архивировано из оригинала 2019-05-04 . Получено 2018-08-29 .
  23. ^ Quathamer, Dr. Tobias (2016). "Немецкие медицинские словари". Dr. Tobias Quathamer . Получено 29-08-2018 .
  24. ^ Фридман, Ричард А.; Д, М (2003). «СЛУЧАИ; Имеют ли значение орфография и чистописание? В медицине, вы уверены». The New York Times . Получено 29 августа 2018 г.
  25. ^ Бэнкс, Т. (2008). Трудности изучения иностранных языков и стратегии обучения. (стр. 29). Магистерская диссертация, Доминиканский университет Калифорнии. Получено 19 марта 2012 г.
  26. ^ Голдинг, Эндрю Р.; Рот, Дэн (1999). «Статья в журнале». Машинное обучение . 34. SpringerLink: 107–130. doi :10.1023/A:1007545901558. S2CID  12283016.
  27. Уолт Моссберг (4 января 2007 г.). «Обзор». Wall Street Journal . Получено 24 сентября 2010 г.
  28. ^ "Операционная система Google". googlesystem.blogspot.com. 29 мая 2009 г. Получено 25 сентября 2010 г. «Контекстно-зависимая проверка орфографии Google». 29 мая 2009 г. Получено 25 сентября 2010 г.
  • Norvig.com, «Как написать корректор орфографии», Питер Норвиг
  • BBK.ac.uk, «Проверка орфографии с помощью компьютера», Роджер Миттон
  • CBSNews.com, «Костыль проверки орфографии снижает корректность», Ллойд де Врис
  • История и текст «Кандидата на куриный сюрприз» Марка Экмана и Джерролда Х. Зара
Взято с "https://en.wikipedia.org/w/index.php?title=Проверка_орфографии&oldid=1251973394"