Сравнение программного обеспечения для оптического распознавания символов

Это сравнение программного обеспечения для оптического распознавания символов включает в себя:

  • OCR-движки, которые выполняют фактическую идентификацию символов
  • Программное обеспечение для анализа макета, которое разделяет отсканированные документы на зоны, подходящие для OCR
  • Графические интерфейсы для одного или нескольких OCR-модулей
  • Комплекты средств разработки программного обеспечения , которые используются для добавления возможностей OCR в другое программное обеспечение (например, приложения для обработки форм, системы управления изображениями документов, системы электронного обнаружения , решения для управления записями)
Сортируемая таблица
ИмяГод основанияПоследняя стабильная версияПоследний год выпускаЛицензияОнлайнОкнаMac OS XлинуксБСДандроидiOSЯзык программированияSDK ?ЯзыкиШрифтыФорматы выводаПримечания
ABBYY FineReader1989162022ЗапатентованныйДаДаДаНетДаДаДаС/С++Да192 [1]Все шрифтыDOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2 [2]ABBYY также поставляет SDK для встраиваемых и мобильных устройств. Professional, Corporate и Site License Editions для Windows, Express Edition для Mac. [3]
Программное обеспечение AnyDoc1989??ЗапатентованныйНетДаНетНетНет??VBScript???Работает со структурированными, полуструктурированными и неструктурированными документами.
Asprise OCR SDK1998152015ЗапатентованныйДаДаДаДаДа??Java, C#,VB.NET, C/C++/DelphiДа20+ [4]?Обычный текст, PDF с возможностью поиска, XML [5]Java, C#, VB.NET, C/C++/Delphi SDK для OCR и распознавания штрихкодов в Windows, Linux, Mac OS X и Unix. [6]
CuneiForm19961.12011BSD -вариантНетДаДаДаДа??С/С++Да28Любой печатный шрифтHTML, hOCR, нативный, RTF, TeX , TXT [7]Система корпоративного класса, может сохранять форматирование текста и распознавать сложные таблицы любой структуры
Э-акшараян2010ДаНетДаНет??14RTF, TXT, BRL
ГОКР20000,52 [8]2018GPLДа [9]ДаДаДаДа??С?20+?
Google Drive OCR или Google Cloud Vision2015ЗапатентованныйДаБраузерБраузерБраузерНеизвестный??НеизвестныйДа200+Все шрифтытекстЗапись в блоге Google [10] [11]
Обработка изображений документов Microsoft Office?Офис 20072007ЗапатентованныйНетДаНетНетНет??????Использует OmniPage [ требуется ссылка ]
Microsoft Office OneNote 20072011?2007ЗапатентованныйНетДаНетНетНет??????
OCRFeeder2009-030.8.52022GPLНетНетНетДаНет??Питон???Имеет полный пользовательский интерфейс и имеет командную строку для автоматических операций. Имеет свой собственный алгоритм сегментации, но использует общесистемные OCR-движки, такие как Tesseract или Ocrad
Окрад?0,29 [12]2024GPLДаНетДаДаДа??С++Далатинский алфавит?Командная строка
OCRopus20071.3.32017АпачиНетНетДаДаДа??Питон?Все языки, использующие латиницу (другие языки можно изучать)Обычная латиница и фрактура (другие письменности можно обучить)TXT, hOCR, [13] PDF [14]Подключаемая структура в активной разработке, используется для Google Books
OmniPage1970-е19.22015ЗапатентованныйДаДаДаДаНет??С/С++, С# [15]Да125 [16]Шрифты машинной и ручной печатиDOC/DOCX XLS/XLSX PPTX RTF PDF PDF/A PDF с возможностью поиска HTML Текст XML ePUB MP3Продукт Nuance Communications
Пума.НЕТ??2009БСДНетДаНетНетНет??С#Да28Любой печатный шрифт.NET OCR SDK на основе движка распознавания CuneiForm от Cognitive Technologies. Обертывает сервер Puma COM и предоставляет упрощенный API для приложений .NET
ReadSoft???ЗапатентованныйНетДаНетНетНет??????Сканируйте, считывайте и классифицируйте деловые документы, такие как счета-фактуры, формы и заказы на закупку, интегрированные с бизнес-процессами.
Скантрон???ЗапатентованныйНетДаНетНетНет??????Для работы с локализованными интерфейсами необходима соответствующая языковая поддержка.
SmartScore199110.5.82015ЗапатентованныйНетДаДаНетНет??????Для музыкальных партитур
Тессеракт19855.4.12024АпачиНетДаДаДаДа??С++, СДа100+ [17]Любой печатный шрифтТекст, ALTO , hOCR , [18] PDF, другие с различными пользовательскими интерфейсами [19] или APIСоздано Hewlett-Packard ; находится в стадии дальнейшей разработки Google [20]
ИмяГод основанияПоследняя стабильная версияГод выпускаЛицензияОнлайнОкнаMac OS XлинуксБСДандроидiOSЯзык программированияSDK?ЯзыкиШрифтыФорматы выводаПримечания

Оценка

Анализ точности и надежности пакетов OCR Google Docs OCR, Tesseract, ABBYY FineReader и Transym, проведенный в 2016 году и использовавший набор данных, включающий 1227 изображений из 15 различных категорий, пришел к выводу, что Google Docs OCR и ABBYY работают лучше других. [21]

Ссылки

  1. ^ "ABBYY FineReader 14: Технические характеристики". Finereader.abbyy.com . Получено 2017-02-23 .
  2. ^ "ABBYY FineReader 11: Технические характеристики". Finereader.abbyy.com . Получено 2013-09-12 .
  3. ^ "Top OCR Software". Ocrworld.com. 2010-03-30. Архивировано из оригинала 2017-02-23 . Получено 2013-09-12 .
  4. ^ "Возможности Asprise OCR SDK". asprise.com . Получено 2014-06-21 .
  5. ^ "Возможности библиотеки Asprise Java OCR". asprise.com . Получено 21.06.2014 .
  6. ^ "Asprise Java, C#/VB.NET OCR API". asprise.com. 2015-11-19 . Получено 2015-11-19 .
  7. ^ Страница руководства Debian для Cuneiform для Linux версии 1.1.0
  8. ^ "GOCR Homepage". wasd.urz.uni-magdeburg.de . Получено 2018-10-17 .
  9. ^ "GOCR". Jocr.sourceforge.net . Получено 2013-09-12 .
  10. ^ "Поддерживаемые языки". 11 февраля 2022 г.
  11. ^ Ashok Popat (4 сентября 2015 г.). "IEEE SPS: Оптическое распознавание символов для большинства языков мира". YouTube . Архивировано из оригинала 20.12.2021.
  12. ^ Диас, Антонио (2024-01-20). "GNU Ocrad 0.29 выпущен" (список рассылки). info-gnu.
  13. ^ OCRopus включает в себя инструмент ocropus-hocr, который создает hOCR из результатов распознавания.
  14. ^ В сочетании с hocr-tools
  15. ^ "OmniPage CSDK - OCR Document Capture Toolkit | Document Imaging & OCR". Nuance. Архивировано из оригинала 2010-08-24 . Получено 2013-09-12 .
  16. ^ "OmniPage Standard Document Conversion". Nuance. Архивировано из оригинала 2014-03-13 . Получено 2014-02-25 .
  17. ^ На основе количества файлов обучения языку для версии 3.04. Доступно на странице загрузки.
  18. ^ Использование объяснено в файле Readme и FAQ Tesseract.
  19. ^ Например, ODF с OCRFeeder
  20. ^ "GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (основной репозиторий)". GitHub . Получено 2018-11-05 .
  21. ^ Ассефи, Мехди (2016-12-01). "OCR как услуга: экспериментальная оценка Google Docs OCR, Tesseract, ABBYY FineReader и Transym". ResearchGate . Получено 2019-01-31 .
Retrieved from "https://en.wikipedia.org/w/index.php?title=Comparison_of_optical_character_recognition_software&oldid=1247964279"