Корпус Хамшахри

Логотип Корпуса Хамшахри

Корпус Хамшахри ( персидский : پیکره همشهری ) — это большой персидский корпус, основанный на иранской газете Hamshahri , одной из первых онлайн-газет на персидском языке в Иране. Первоначально он был собран и составлен Эхсаном Дарруди в DBRG Group [1] Тегеранского университета . Позже группа под руководством Абольфазла АлеАхмада [2] дополнила этот корпус и создала первую коллекцию персидских текстов, пригодную для задач оценки поиска информации .

Этот корпус был создан путем сканирования новостных статей с веб-сайта Hamshahri и обработки HTML-страниц с целью создания стандартного текстового корпуса для современных экспериментов по поиску информации.

Версия 1.0

Коллекция содержит более 160 000 статей, охватывающих следующие тематические категории: политика, городские новости, экономика, репортажи, редакционные статьи, литература, наука, общество, зарубежные новости, спорт и т. д. Размер документов варьируется от коротких новостей (менее 1 КБ) до довольно длинных статей (например, 140 КБ), средний размер составляет 1,8 КБ.

Корпус доступен для скачивания в нескольких форматах: [2]

  • Тегированный текст: 560 МБ
  • В таблицах SQL Server 2000: 712 МБ

Версия 2.0

Вторая версия корпуса Хамшахри была выпущена 20 октября 2008 года. Она предлагает несколько новых функций и улучшений:

  • Еще новости: 323 616 текстовых историй в 3206 файлах XML (по одному файлу на каждый день)
  • Увеличенный временной промежуток: с 22 июня 1996 г. по 13 мая 2007 г.
  • Больше по размеру: 1,42 ГБ в несжатом виде
  • Стандартный контейнер: Unicode XML
  • Включенные изображения: изображения были извлечены из новостей и сохранены (доступны в дополнительном пакете), что делает их пригодными для задач по поиску изображений.
  • Категоризированные новости: новостные сюжеты были категоризированы полуавтоматически (подходит для задач категоризации и классификации текста ).

Корпус доступен для скачивания в формате XML.

Смотрите также

Ссылки

  1. ^ Архив новостей DBRG 15.05.2017 в Wayback Machine Database Research Group
  2. ^ ab Hamshahri Архивировано 14.05.2017 в Wayback Machine Database Research Group
  • Домашняя страница корпуса Хамшахри Архивировано 14.05.2017 на Wayback Machine
  • Домашняя страница коллекции irBlogs


Взято с "https://en.wikipedia.org/w/index.php?title=Корпус_Хамшахри&oldid=1253942900"