LaTeXML

Программное обеспечение для конвертации LaTeX в XML и другие форматы
Конвертер LaTeX в XML/HTML/MathML
Оригинальный автор(ы)Брюс Р. Миллер
Первоначальный выпуск10 мая 2004 г. (20 лет назад) ( 2004-05-10 )
Стабильный релиз
0.8.8 / 29 февраля 2024 г. (11 месяцев назад) ( 2024-02-29 )
Репозиторий
  • github.com/brucemiller/LaTeXML
Написано вПерл
Операционная системаUnix-подобный , macOS , Windows
ТипКонвертер документов
ЛицензияОбщественное достояние
Веб-сайтdlmf.nist.gov/LaTeXML/

LaTeXML — это бесплатный пакет программного обеспечения, находящийся в общественном достоянии , который преобразует документы LaTeX в XML , HTML , EPUB , JATS и TEI . [1] [2] [3]

Рабочий процесс

Основной выходной формат LaTeXML — это XML-представление модели документа (La) TeX . Постпроцессор может преобразовывать эти XML-документы в другие структурированные форматы. Обычные варианты использования — создание HTML с математическими формулами в виде изображений или XHTML , HTML5 и EPUB с формулами в виде MathML . По сравнению с другими процессорами LaTeX-to-XML, LaTeXML стремится сохранять семантические структуры разметки LaTeX . Это делает его хорошей основой для семантических служб, таких как поиск Math.

Время преобразования варьируется от 30 миллисекунд для одной формулы (в демоне LaTeXML) до нескольких минут для документов размером с книгу.

История

LaTeXML был запущен в контексте Цифровой библиотеки математических функций в NIST , где документы LaTeX необходимо было подготовить для публикации в Интернете. Система активно разрабатывалась более десяти лет и привлекла небольшое, но преданное сообщество разработчиков и пользователей, центром которого был Брюс Миллер, автор оригинального проекта.

Текущая выпущенная версия — LaTeXML 0.8.8. Она была выпущена в феврале 2024 года, и разработка продолжается в публичном репозитории.

Известное использование

LaTeXML использовался для преобразования 90% (60% без ошибок) из 530 000 документов из arXiv в XML. [4] В результате этих постоянных усилий по расширению охвата LaTeXML поддерживает широкий спектр пакетов LaTeX. Конференция ACL 2014 использовала LaTeXML для преобразования представленных статей в XML. [5] Это стало продолжением существующей работы, которая пыталась преобразовать статьи ACL Anthology в высококачественную семантическую разметку для дальнейшего анализа. [6] С февраля 2013 года LaTeXML использовался для рендеринга веб-страниц на математическом сайте PlanetMath , созданном коллегами . С июля 2015 года он был принят Authorea для их расширенной поддержки LaTeX. [7] В 2018 году второй выпуск данных [8] проекта Gaia Европейского космического агентства был реализован с помощью LaTeXML.

В феврале 2022 года arXiv анонсировал экспериментальный сервис на основе LaTeXML, предлагающий 1,78 миллиона документов в формате HTML5. [9] Разработчик LaTeXML заявил об успешном преобразовании 74% arXiv, при этом 97% статей «по крайней мере частично просматриваются». С начала 2024 года этот эксперимент был перенесен на основные страницы статей arXiv. [10] [11]

Выполнение

Ядро LaTeXML — это переопределение алгоритма анализа и усвоения TeX на Perl в сочетании с настраиваемым XML-эмиттером. Для сохранения семантических структур в разметке LaTeX LaTeXML требуются XML-привязки для всех пакетов LaTeX с макроопределениями высокого уровня. В настоящее время дистрибутив LaTeXML предоставляет XML-привязки для более чем 200 часто используемых пакетов LaTeX, таких как AMSTeX , Babel [12] и PGF/TikZ (который имеет только экспериментальную поддержку).

Преобразование LaTeXML состоит из двух этапов:

  • первый анализирует LaTeX и преобразует его в документ XML, близкий к LaTeX , и
  • второй этап (постобработка) преобразует XML в один из стандартизированных структурированных форматов вывода.

В LaTeXML 0.8 добавлена ​​функциональность демона, которая обеспечивает множественные преобразования и простое встраивание в веб-сервисы.

LaTeXML 0.8.7 была первой версией, реализующей язык разметки « MathML Core» для математического синтаксиса, новый в MathML 4.

Смотрите также

Ссылки

  1. ^ "Программы чтения EPUB на базе Gecko и LaTeXML". Архивировано из оригинала 2014-08-22 . Получено 2020-02-21 .
  2. ^ «Инструменты для преобразования LaTeX в XML».
  3. ^ "Free Techno Blog: LaTeXML". Архивировано из оригинала 2015-05-11 . Получено 2014-02-11 .
  4. ^ Stamerjohanns, Heinrich; Kohlhase, Michael; Ginev, Deyan; David, Catalin; Miller, Bruce (2010). Преобразование больших коллекций научных публикаций в XML (PDF) . Математика в информатике . Т. 3, № 3. Birkhäuser. С.  299–307 .
  5. ^ «Публикация ACL 2014 — Статьи в формате XML».
  6. ^ Шефер, Ульрих; Рид, Джонатан; Оепен, Стефан (2012). На пути к корпусу антологии ACL с логической структурой документа: обзор задания ACL 2012 (PDF) . Специальный семинар ACL-2012 по повторному открытию 50 лет открытий. стр.  88–97 .
  7. ^ "Информационный бюллетень Authorea - июль 2015 г.: полный LaTeX, шаблоны и Эбола на Authorea". Authorea . Получено 18.08.2018 .
  8. ^ "Gaia Data Release 2Documentation release 1.1". gea.esac.esa.int . Получено 18.08.2018 .
  9. ^ "Статьи arXiv как адаптивные веб-страницы". arXiv . Получено 2022-02-23 .
  10. ^ "Обновление доступности: arXiv теперь предлагает статьи в формате HTML". arXiv . Получено 2024-01-03 .
  11. ^ "Инструмент NIST упростит просмотр онлайн-научных работ, насыщенных математикой" . Получено 03.01.2024 .
  12. ^ «LaTeXML: Локализация с Babel».
  • Официальная домашняя страница LaTeXML
  • Исходный код LaTeXML
  • Веб-сервер LaTeXML, службы и демонстрации
Получено с "https://en.wikipedia.org/w/index.php?title=LaTeXML&oldid=1215843531"