Оригинальный автор(ы) | Брюс Р. Миллер |
---|---|
Первоначальный выпуск | 10 мая 2004 г. ( 2004-05-10 ) |
Стабильный релиз | 0.8.8 / 29 февраля 2024 г. ( 2024-02-29 ) |
Репозиторий |
|
Написано в | Перл |
Операционная система | Unix-подобный , macOS , Windows |
Тип | Конвертер документов |
Лицензия | Общественное достояние |
Веб-сайт | dlmf.nist.gov/LaTeXML/ |
LaTeXML — это бесплатный пакет программного обеспечения, находящийся в общественном достоянии , который преобразует документы LaTeX в XML , HTML , EPUB , JATS и TEI . [1] [2] [3]
Основной выходной формат LaTeXML — это XML-представление модели документа (La) TeX . Постпроцессор может преобразовывать эти XML-документы в другие структурированные форматы. Обычные варианты использования — создание HTML с математическими формулами в виде изображений или XHTML , HTML5 и EPUB с формулами в виде MathML . По сравнению с другими процессорами LaTeX-to-XML, LaTeXML стремится сохранять семантические структуры разметки LaTeX . Это делает его хорошей основой для семантических служб, таких как поиск Math.
Время преобразования варьируется от 30 миллисекунд для одной формулы (в демоне LaTeXML) до нескольких минут для документов размером с книгу.
LaTeXML был запущен в контексте Цифровой библиотеки математических функций в NIST , где документы LaTeX необходимо было подготовить для публикации в Интернете. Система активно разрабатывалась более десяти лет и привлекла небольшое, но преданное сообщество разработчиков и пользователей, центром которого был Брюс Миллер, автор оригинального проекта.
Текущая выпущенная версия — LaTeXML 0.8.8. Она была выпущена в феврале 2024 года, и разработка продолжается в публичном репозитории.
LaTeXML использовался для преобразования 90% (60% без ошибок) из 530 000 документов из arXiv в XML. [4] В результате этих постоянных усилий по расширению охвата LaTeXML поддерживает широкий спектр пакетов LaTeX. Конференция ACL 2014 использовала LaTeXML для преобразования представленных статей в XML. [5] Это стало продолжением существующей работы, которая пыталась преобразовать статьи ACL Anthology в высококачественную семантическую разметку для дальнейшего анализа. [6] С февраля 2013 года LaTeXML использовался для рендеринга веб-страниц на математическом сайте PlanetMath , созданном коллегами . С июля 2015 года он был принят Authorea для их расширенной поддержки LaTeX. [7] В 2018 году второй выпуск данных [8] проекта Gaia Европейского космического агентства был реализован с помощью LaTeXML.
В феврале 2022 года arXiv анонсировал экспериментальный сервис на основе LaTeXML, предлагающий 1,78 миллиона документов в формате HTML5. [9] Разработчик LaTeXML заявил об успешном преобразовании 74% arXiv, при этом 97% статей «по крайней мере частично просматриваются». С начала 2024 года этот эксперимент был перенесен на основные страницы статей arXiv. [10] [11]
Ядро LaTeXML — это переопределение алгоритма анализа и усвоения TeX на Perl в сочетании с настраиваемым XML-эмиттером. Для сохранения семантических структур в разметке LaTeX LaTeXML требуются XML-привязки для всех пакетов LaTeX с макроопределениями высокого уровня. В настоящее время дистрибутив LaTeXML предоставляет XML-привязки для более чем 200 часто используемых пакетов LaTeX, таких как AMSTeX , Babel [12] и PGF/TikZ (который имеет только экспериментальную поддержку).
Преобразование LaTeXML состоит из двух этапов:
В LaTeXML 0.8 добавлена функциональность демона, которая обеспечивает множественные преобразования и простое встраивание в веб-сервисы.
LaTeXML 0.8.7 была первой версией, реализующей язык разметки « MathML Core» для математического синтаксиса, новый в MathML 4.