Тегеранский монолингвистический корпус

Тегеранский монолингвальный корпус (TMC) — это крупномасштабный персидский монолингвальный корпус. TMC подходит для моделирования языка и соответствующих исследовательских областей в области обработки естественного языка .

Корпус извлечен из Hamshahri Corpus и сайта информационного агентства ISNA . Качество Hamshahri corpus улучшено для целей моделирования языка с помощью серии шагов токенизации и проверки орфографии.

TMC содержит более 250 миллионов слов. Общее количество уникальных слов (с частотой два и более) корпуса составляет около 300 тысяч, что относительно неплохо для такого высокофлективного языка, как персидский.

TMC создан Лабораторией обработки естественного языка Тегеранского университета . Корпус доступен для бесплатного использования в исследовательских целях после получения разрешения от агрегатора корпусов.

Смотрите также

Внешние ссылки

Страница описания TMC