МАРЕК

MA trixware RE search Collection ( MAREC ) — это стандартизированный корпус патентных данных, доступный для исследовательских целей. MAREC стремится представлять патентные документы на нескольких языках, чтобы отвечать на конкретные исследовательские вопросы. [1] [2] Он состоит из 19 миллионов патентных документов на разных языках, нормализованных по строго определенной схеме XML . [3]

MAREC предназначен в качестве исходного материала для исследований в таких областях, как поиск информации , обработка естественного языка или машинный перевод , которые требуют больших объемов сложных документов. [4] Коллекция содержит документы на 19 языках, большинство из которых — английский, немецкий и французский, и около половины документов включают полные тексты.

В MAREC документы из разных стран и источников нормализуются в общий формат XML с единой схемой нумерации патентов и форматом цитирования. Стандартизированные поля включают даты, страны, языки, ссылки, имена лиц и компаний, а также предметные классификации, такие как коды МПК . [5]

MAREC — это сопоставимый корпус, в котором многие документы доступны в похожих версиях на других языках. Сопоставимый корпус можно определить как состоящий из текстов, которые разделяют схожие темы — новостные тексты из одного и того же периода времени в разных странах, в то время как параллельный корпус определяется как коллекция документов с выровненными переводами с исходного на целевой язык. [6] Поскольку патентный документ ссылается на одно и то же «изобретение» или «концепцию идеи», текст является переводом изобретения, но он не обязательно должен быть прямым переводом самого текста — части текста могли быть удалены или добавлены для пояснения. [7]

19 386 697 XML-файлов имеют общий размер 621 ГБ и размещены в Information Retrieval Facility . Доступ и поддержка бесплатны для исследовательских целей.

Варианты использования

  • MAREC используется в проекте Patent Language Translations Online (PLuTO).

Ссылки

  1. ^ Мерц К., (2003) Инструмент запросов к корпусу для синтаксически аннотированной корпусной дипломной работы, Цюрихский университет, кафедра компьютерной лингвистики, Швейцария
  2. ^ Бибер Д., Конрад С. и Реппен Р. (2000) Корпусная лингвистика: исследование структуры и использования языка. Cambridge University Press, 2-е издание
  3. ^ "MAREC, Венский технический университет". www.ifs.tuwien.ac.at . Получено 1 декабря 2020 г. .
  4. ^ Мэннинг, К. Д. и Шютце, Х. (2002) Основы статистической обработки естественного языка Кембридж, Массачусетс, Массачусетский технологический институт (MIT) ISBN 0-262-13360-1 . 
  5. ^ Европейское патентное ведомство (2009) Руководство по экспертизе в Европейском патентном ведомстве, опубликовано Европейским патентным ведомством, Германия (апрель 2009 г.)
  6. ^ Ярвелин А., Талвенсаари Т., Ярвелин Анни, (2008) Методы, основанные на данных, для улучшения производительности одно- и кросс-языковой IR в шумных средах, Труды второго семинара по аналитике для шумных неструктурированных текстовых данных, (Сингапур)
  7. ^ Талеб, А.; Легран, Дж.; Такаче, Х.; Таха, С.; Прувост, Дж. (2017). «Исследование продукции липидов испытывающей азотное голодание Parachlorella kessleri при непрерывном освещении и циклах день/ночь для применения в биодизеле» (PDF) . Журнал прикладной физиологии . 30 (2): 761– 772. doi :10.1007/s10811-017-1286-0. S2CID  13925039.
  • Руководство пользователя и статистика
  • Информационно-поисковая служба Архивировано 22.05.2008 на Wayback Machine
Взято с "https://en.wikipedia.org/w/index.php?title=MAREC&oldid=1268141815"