MA trixware RE search Collection ( MAREC ) — это стандартизированный корпус патентных данных, доступный для исследовательских целей. MAREC стремится представлять патентные документы на нескольких языках, чтобы отвечать на конкретные исследовательские вопросы. [1] [2] Он состоит из 19 миллионов патентных документов на разных языках, нормализованных по строго определенной схеме XML . [3]
MAREC предназначен в качестве исходного материала для исследований в таких областях, как поиск информации , обработка естественного языка или машинный перевод , которые требуют больших объемов сложных документов. [4] Коллекция содержит документы на 19 языках, большинство из которых — английский, немецкий и французский, и около половины документов включают полные тексты.
В MAREC документы из разных стран и источников нормализуются в общий формат XML с единой схемой нумерации патентов и форматом цитирования. Стандартизированные поля включают даты, страны, языки, ссылки, имена лиц и компаний, а также предметные классификации, такие как коды МПК . [5]
MAREC — это сопоставимый корпус, в котором многие документы доступны в похожих версиях на других языках. Сопоставимый корпус можно определить как состоящий из текстов, которые разделяют схожие темы — новостные тексты из одного и того же периода времени в разных странах, в то время как параллельный корпус определяется как коллекция документов с выровненными переводами с исходного на целевой язык. [6] Поскольку патентный документ ссылается на одно и то же «изобретение» или «концепцию идеи», текст является переводом изобретения, но он не обязательно должен быть прямым переводом самого текста — части текста могли быть удалены или добавлены для пояснения. [7]
19 386 697 XML-файлов имеют общий размер 621 ГБ и размещены в Information Retrieval Facility . Доступ и поддержка бесплатны для исследовательских целей.