Корпус Хамшахри ( персидский : پیکره همشهری ) — это большой персидский корпус, основанный на иранской газете Hamshahri , одной из первых онлайн-газет на персидском языке в Иране. Первоначально он был собран и составлен Эхсаном Дарруди в DBRG Group [1] Тегеранского университета . Позже группа под руководством Абольфазла АлеАхмада [2] дополнила этот корпус и создала первую коллекцию персидских текстов, пригодную для задач оценки поиска информации .
Этот корпус был создан путем сканирования новостных статей с веб-сайта Hamshahri и обработки HTML-страниц с целью создания стандартного текстового корпуса для современных экспериментов по поиску информации.
Коллекция содержит более 160 000 статей, охватывающих следующие тематические категории: политика, городские новости, экономика, репортажи, редакционные статьи, литература, наука, общество, зарубежные новости, спорт и т. д. Размер документов варьируется от коротких новостей (менее 1 КБ) до довольно длинных статей (например, 140 КБ), средний размер составляет 1,8 КБ.
Корпус доступен для скачивания в нескольких форматах: [2]
Вторая версия корпуса Хамшахри была выпущена 20 октября 2008 года. Она предлагает несколько новых функций и улучшений:
Корпус доступен для скачивания в формате XML.