ОКР-А

Шрифт, разработанный для раннего компьютерного OCR
ОКР-А
КатегорияШрифт без засечек
Дизайнер(ы)Американские шрифтолитейщики
По заказуАмериканский национальный институт стандартов
Дата выпуска1968 [1]
ВариацииOCR-A расширенный
Образец

OCR-Aшрифт, выпущенный в 1966 году [2] и впервые реализованный в 1968 году. [3] Специальный шрифт был необходим на заре компьютерного оптического распознавания символов , когда возникла необходимость в шрифте, который мог бы распознаваться не только компьютерами того времени, но и людьми. [4] OCR-A использует простые, толстые штрихи для формирования узнаваемых символов. [5] Шрифт является моноширинным (фиксированной ширины), и для размещения глифов требовался принтер.0,254  см (0,10  дюйма) друг от друга, и читатель должен принять любой интервал между ними0,2286  см (0,09  дюйма) и0,4572  см (0,18  дюйма).

Стандартизация

Шрифт OCR-A был стандартизирован Американским национальным институтом стандартов (ANSI) как ANSI X3.17-1981. С тех пор X3.4 стал INCITS , а стандарт OCR-A теперь называется ISO 1073-1:1976 .

Реализации

В 1968 году компания American Type Founders выпустила OCR-A, один из первых шрифтов с оптическим распознаванием символов, который соответствовал критериям, установленным Бюро стандартов США. Дизайн прост, поэтому его может легко прочитать машина, но для человеческого глаза он более сложен для чтения. [3]

Когда металлические шрифты уступили место компьютерному набору, Тор Лиллквист использовал Metafont для описания шрифта OCR-A. [ когда? ] Это определение впоследствии было улучшено Ричардом Б. Уэйлсом. Их работа доступна в CTAN . [6]

Чтобы сделать бесплатную версию шрифта более доступной для пользователей Microsoft Windows, Джон Саутер преобразовал определения Metafont в TrueType с помощью potrace и FontForge в 2004 году . [7] В 2007 году Гюркан Сенгюн создал пакет Debian из этой реализации. [8] В 2008 году Люк Девройе исправил вертикальное позиционирование в реализации Джона Саутера и исправил название строчной буквы z. [9]

Независимо Мэтью Скала [10] использовал mftrace [11] для преобразования определений Metafont в формат TrueType в 2006 году. В 2011 году он выпустил новую версию, созданную путем переписывания определений Metafont для работы с METATYPE1 , генерируя контуры напрямую без промежуточного этапа трассировки. 27 сентября 2012 года он обновил свою реализацию до версии 0.2. [12]

В дополнение к этим бесплатным реализациям OCR-A, существуют также реализации, продаваемые несколькими поставщиками. В качестве шутки Тобиас Фрер-Джонс в 1995 году создал Estupido-Espezial, переработанный дизайн с росчерками и длинной s . Он был использован в разделе Rolling Stone, посвященном «технологиям» . [13] [14]

Компания Maxitype разработала шрифт OCR-X, основанный на шрифте OCR-A с функциями OpenType, инопланетными/технологическими тематическими дингбатами, доступный в шести вариантах начертания (тонкий, светлый, обычный, средний, жирный, черный). [15]

Использовать

OCR-A на немецком банковском чеке . Символы ⑂, ⑀ и ⑁ используются для разграничения определенных полей в машиночитаемой строке (показано здесь частично отредактировано).

Хотя технология оптического распознавания символов достигла такого уровня, что такие простые шрифты больше не нужны, [16] шрифт OCR-A остался в использовании. Его использование по-прежнему широко распространено при кодировании чеков по всему миру. Некоторые компании, занимающиеся сейфами, по-прежнему настаивают на том, чтобы номер счета и сумма задолженности на бланке возврата счета были напечатаны в OCR-A. [17] Кроме того, из-за его необычного вида его иногда используют в рекламе и в графических изображениях.

В частности, он используется для субтитров в фильмах и телесериалах, таких как «Черный список» , и для основных титров в «Притворщике» . Кроме того, OCR-A используется [ как? ] для фильмов «Багровый прилив» и «13 часов: Тайные солдаты Бенгази» . Он также использовался для логотипа, брендинга и маркетинговых материалов детской линии игрушек Hexbug .

Кодовые точки

Шрифт — это набор символов, или глифов . Чтобы компьютер мог использовать шрифт, каждому глифу должна быть назначена кодовая точка в наборе символов . Когда OCR-A стандартизировался, обычной кодировкой символов был Американский стандартный код для обмена информацией или ASCII. Не все глифы OCR-A вписывались в ASCII, и для пяти символов были альтернативные глифы, что могло указывать на необходимость во втором шрифте. Однако для удобства и эффективности все глифы должны были быть доступны в одном шрифте с использованием кодировки ASCII, при этом дополнительные символы должны были быть размещены в точках кодирования, которые в противном случае остались бы неиспользованными.

Современным потомком ASCII является Unicode , также известный как ISO 10646. Unicode содержит ASCII и имеет специальные положения для символов OCR, поэтому некоторые реализации OCR-A обращались к Unicode за руководством по назначению кодов символов.

Представление до появления стандарта Unicode

Стандарт ISO ISO 2033 :1983 и соответствующий японский промышленный стандарт JIS X 9010:1984 (первоначально JIS C 6229–1984) определяют кодировки символов для OCR-A, OCR-B и E -13B . Для OCR-A они определяют модифицированный 7-битный набор ASCII (также известный по своему номеру ISO-IR ISO-IR-91), включающий только заглавные буквы, цифры, подмножество знаков препинания и символов, а также некоторые дополнительные символы. [18] Коды, которые переопределены относительно ASCII, а не просто опущены, перечислены ниже:

ХарактерИзображениеРасположениеВ ASCII-кодеКомментарии
£Знак фунта0x23#Соответствует BS 4730, британскому варианту ISO 646. [19 ]
{Левая фигурная скобка0x28(Имя персонажа по-прежнему "LEFT PARENTHESIS", несмотря на то, что отображается фигурная скобка. Обычный код ASCII левой фигурной скобки 0x7B опущен. [18]
}Правая фигурная скобка0x29)Имя персонажа по-прежнему "ПРАВАЯ СКОБКА", несмотря на то, что отображается фигурная скобка. Обычный код правой скобки ASCII 0x7D опущен. [18]
OCR-крючок0x3C<
Председатель ОКР0x3E>
¥Знак Йены0x5С\Соответствует JIS X 0201. Включен в JIS X 9010, но исключен из ISO 2033. [18]
OCR-вилка0x5D]

Кроме того, длинная вертикальная отметка (Длинная вертикальная отметка) кодируется как 0x7C, что соответствует вертикальной черте ASCII (|). [18]

Специальные символы OCR-A в Unicode

Следующие символы были определены в целях контроля и теперь находятся в диапазоне Unicode «Оптическое распознавание символов» 2440–245F :

Выделенные кодовые точки OCR-A на основе ASCII и Unicode [20]
ИмяИзображениеТекстЮникод
OCR-крючокOCR-крючокU+2440
Председатель ОКРПредседатель ОКРU+2441
OCR-вилкаOCR-вилкаU+2442
OCR Перевернутая вилкаU+2443
Пряжка ремня OCRU+2444
Галстук-бабочка OCRU+2445

Пробел, цифры и буквы без ударений

OCR-A цифры
OCR-A заглавные буквы без ударений
OCR-A безударные строчные буквы

Все реализации OCR-A используют U+0020 для пробела, U+0030–U+0039 для десятичных цифр, U+0041–U+005A для безударных заглавных букв и U+0061–U+007A для безударных строчных букв.

Обычные персонажи

В дополнение к цифрам и неударенным буквам, многие символы OCR-A имеют очевидные кодовые точки в ASCII. Из тех, которые не имеют, большинство, включая все ударные буквы OCR-A, имеют очевидные кодовые точки в Unicode.

Дополнительные кодовые точки OCR-A на основе ASCII и Unicode
ИмяГлифЮникод
Восклицательный знакВосклицательный знакU+0021
КавычкаКавычкаU+0022
Знак числаЗнак числаU+0023
Знак доллараЗнак доллараU+0024
Знак процентаЗнак процентаU+0025
АмперсандАмперсандU+0026
АпострофАпострофU+0027
Левая скобкаЛевая скобкаU+0028
Правая скобкаПравая скобкаU+0029
ЗвездочкаЗвездочкаУ+002А
Знак плюсЗнак плюсU+002B
ЗапятаяЗапятаяU+002C
Дефис-МинусДефис-МинусU+002D
Точка (точка)Точка (точка)U+002E
Солидус (Слэш)Солидус (Слэш)U+002F
КолонКолонУ+003А
Точка с запятойТочка с запятойU+003B
Знак «меньше, чем»Знак «меньше, чем»U+003C
Знак равенстваЗнак равенстваU+003D
Знак «больше, чем»Знак «больше, чем»U+003E
Знак вопросаЗнак вопросаU+003F
Коммерческий ВКоммерческий ВU+0040
Левая квадратная скобкаЛевая квадратная скобкаU+005B
Обратная косая черта (обратный слеш)Обратный солидусU+005C
Правая квадратная скобкаПравая квадратная скобкаU+005D
Циркумфлексный акцентЦиркумфлексный акцентU+005E
Левая фигурная скобкаЛевая фигурная скобкаU+007B
Правая фигурная скобкаПравая фигурная скобкаU+007D
Знак фунта стерлингов (стерлинг)Знак фунтаУ+00А3
Знак ЙеныЗнак ЙеныУ+00А5
Латинская заглавная буква А с диерезойЛатинская заглавная буква А с диерезойU+00C4
Латинская заглавная буква A с кольцом сверхуЛатинская заглавная буква A с кольцом сверхуU+00C5
Латинская заглавная буква AEЛатинская заглавная буква AEU+00C6
Латинская заглавная буква N с тильдойЛатинская заглавная буква N с тильдойУ+00Д1
Латинская заглавная буква O с диерезойЛатинская заглавная буква O с диерезойУ+00Д6
Латинская заглавная буква O с чертойЛатинская заглавная буква O с чертойУ+00Д8
Латинская заглавная буква U с диерезойЛатинская заглавная буква U с диерезойU+00DC

Оставшиеся символы

Линотип [21] закодировал оставшиеся символы OCR-A следующим образом:

Дополнительные символы OCR-A
ИмяГлифЮникодИмя в Юникоде
Длинная вертикальная отметкаДлинная вертикальная отметкаU+007CВертикальная линия

Дополнительные символы

Шрифты, которые происходят от работы Тора Лиллквиста и Ричарда Б. Уэйлса, определяют четыре символа, не входящих в OCR-A, для заполнения набора символов ASCII. Эти формы используют тот же стиль, что и формы символов OCR-A. Они следующие:

Дополнительные символы ASCII
ИмяГлифЮникод
Низкая линияНизкая линияU+005F
Серьёзный акцентСерьёзный акцентU+0060
Вертикальная линияВертикальная линияU+007C
ТильдаТильдаU+007E

Линотип также определяет дополнительные символы. [22]

Исключения

Некоторые реализации не используют вышеуказанные назначения кодовых точек для некоторых символов.

PrecisionID

Реализация OCR-A PrecisionID имеет следующие нестандартные кодовые точки: [23]

  • OCR-крючок на U+007E
  • Председатель OCR в U+00C1
  • OCR-разветвление в точке U+00C2
  • Знак евро на U+0080

Barcodesoft

Реализация OCR-A в Barcodesoft имеет следующие нестандартные кодовые точки: [24] [25]

  • OCR-крючок на U+0060
  • Председатель OCR в U+007E
  • OCR-разветвление на U+005F
  • Длинная вертикальная метка на U+007C (согласно линотипу)
  • Стирание символа по адресу U+0008

Моровия

Реализация OCR-A в Morovia имеет следующие нестандартные кодовые точки: [26]

  • OCR Hook в U+007E (согласно PrecisionID)
  • Председатель OCR в U+00F0
  • OCR Fork в U+005F (согласно Barcodesoft)
  • Длинная вертикальная метка на U+007C (согласно линотипу)

IDАвтоматизация

Реализация OCR-A в IDAutomation имеет следующие нестандартные кодовые точки: [27]

  • OCR Hook в U+007E (согласно PrecisionID)
  • Председатель OCR в U+00C1 (согласно PrecisionID)
  • OCR-форк в U+00C2 (согласно PrecisionID)
  • Пряжка для ремня OCR на U+00C3

Продавцы стандартов шрифтов

  • Печатная версия ISO 1073-1:1976, распространяемая через ANSI, на Amazon.com
  • ISO 1073-1 также доступен в Techstreet, которая распространяет стандарты ANSI и ISO.

Смотрите также

Примечания

  1. ^ Предыстория шрифта OCR-A от Adobe
  2. ^ Национальный институт стандартов и технологий (1981). Американский национальный стандартный набор символов для оптического распознавания символов (OCR-A) (PDF) . ANSI X3.17-1981. Американский национальный институт стандартов, Inc. стр. 3. Набор символов OCR-A для оптического распознавания символов был впервые разработан в Соединенных Штатах в 1961 году только как числовой шрифт. В 1966 году был выпущен алфавитно-цифровой шрифт, содержащий 57 символов, включая существующий числовой шрифт, 4 абстрактных символа и только заглавные буквы. Пересмотренный стандарт был назван Американский национальный стандартный набор символов для оптического распознавания символов, ANSI X3.17-1966.
  3. ^ ab "OCR A". В 1968 году компания American Type Founders выпустила OCR-A, один из первых шрифтов с оптическим распознаванием символов, который соответствовал критериям, установленным Бюро стандартов США. Дизайн прост, поэтому его может читать машина, но его немного сложнее читать человеческому глазу. OCR-A соответствует стандарту 1981 года, установленному Американским национальным институтом стандартов (ANSI), X-3.17-1981 (размер I). Тот же дизайн указан и для немецкого стандарта DIN 66008. OCR-B был разработан в 1968 году Адрианом Фрутигером для Monotype. Этот дизайн расширяет возможности оптического считывателя, но его легче читать людям. Конструкция OCR-B соответствует стандарту ISO 1073/II-1976 (E) с исправлениями 1979 года (дизайн высокой печати, размер I). У OCR-A и OCR-B есть «альтернативные» версии, в которых вместо более ограниченного набора символов OCR используется стандартный набор символов ISO-Adobe.
  4. ^ Мотивация OCR-A от Microscan
  5. ^ "Предыстория OCR из Embedded Software Engineering". Архивировано из оригинала 2016-09-17 . Получено 2012-09-01 .
  6. ^ Источники MetaFont для OCR-A от CTAN
  7. ^ Шрифт OCR-A Джона Саутера 2004 года из этих источников MetaFont
  8. ^ Пакеты Debian fonts-ocr-a, основанные на проекте SourceForge Джона Саутера
  9. Отчет Люка Девроя об изменениях, которые он внес в реализацию OCR-A Джона Саутера
  10. ^ Домашняя страница Мэтью Скалы
  11. ^ Пакет mftrace Debian
  12. ^ Шрифт OCR-A Мэтью Скалы 2012 года из исходников MetaFont
  13. ^ Хёфлер, Джонатан. «Два дурака». Hoefler & Co. Получено 18 сентября 2021 г.
  14. ^ "Технология, осень '97". Rolling Stone . № 774. 1997-11-27. стр. 59.
  15. ^ "Шрифт OCR-X". Maxitype . Получено 24 сентября 2023 г. .
  16. ^ "История OCR". Журнал обработки данных . 12 : 46. 1970.
  17. ^ "Описание услуги сейфа, примечание "Счет содержит счет-фактуру и выписку с информацией о пациенте, содержащейся в сканируемой строке оптического распознавания символов (OCR). Строка OCR по внешнему виду похожа на ту, что можно найти в выписке по кредитной карте или телефонном счете."" (PDF) . Архивировано из оригинала (PDF) 2017-03-01 . Получено 2015-07-30 .
  18. ^ abcde ISO/TC97/SC2 (1985-08-01). Японский набор графических символов OCR-A (PDF) . ITSCJ/ IPSJ . ISO-IR -91.{{citation}}: CS1 maint: числовые имена: список авторов ( ссылка )
  19. ^ BSI (1975-12-01). Набор графических символов 7-битного кода данных Соединенного Королевства (PDF) . ITSCJ/ IPSJ . ISO-IR -4.
  20. ^ "Оптическое распознавание символов" (PDF) . Консорциум Unicode . Архивировано (PDF) из оригинала 4 января 2023 г. . Получено 4 января 2023 г. .
  21. ^ Шрифт OCR-A от Linotype: выберите «Таблицу символов», чтобы увидеть символы и их кодировку.
  22. ^ Шрифт OCR-A Extended от Linotype: выберите «Таблица символов», затем «Показать все».
  23. ^ Руководство пользователя PrecisionID для реализации PrecisionID шрифта OCR-A
  24. ^ Информационная страница по реализации штрих-кода шрифта OCR-A
  25. ^ Еще один источник информации о шрифтах штрихкодов
  26. ^ Информационная страница по реализации шрифта OCR-A в Morovia
  27. ^ Информационная страница по реализации шрифтов OCR-A и OCR-B в IDAutomation
  • Вводная статья о шрифтах OCR
  • Стандарт ссылки ANSI INCITS 17-1981 (R2002)
  • Справочная информация о работе ISO с использованием OCR-A
  • Таблицы кодов Unicode
  • Отображение IBM GCGID
Взято с "https://en.wikipedia.org/w/index.php?title=OCR-A&oldid=1271810603"