Словенский национальный корпус FidaPLUS — это корпус словенского языка , содержащий 621 миллион слов (токенов) , собранных из избранных текстов на словенском языке разных жанров и стилей, в основном из книг и газет. [1]
База данных FidaPLUS представляет собой обновление старого корпуса (FIDA), который был разработан в период с 1997 по 2000 год, с добавлением текстов, опубликованных до 2006 года, и является результатом прикладного исследовательского проекта факультета искусств, факультета социальных наук, Люблянского университета и кафедры технологий знаний Института Йожефа Стефана . [2]
Корпус доступен через менеджер корпусов Sketch Engine . [3] Эта версия корпуса FidaPLUS содержит наброски слов — автоматический обзор грамматического и словосочетательного поведения слов, полученный из корпуса.
Год издания | Количество слов | Процент |
---|---|---|
1979 - 1990 | 262.708 | 0,04% |
1991 | 1.487.895 | 0,24% |
1992 | 2.256.692 | 0,36% |
1993 | 3.208.687 | 0,52% |
1994 | 7.534.689 | 1,21% |
1995 | 7.433.897 | 1,2% |
1996 | 16.913.916 | 2.27% |
1997 | 31.589.250 | 5.09% |
1998 | 43.512.041 | 7.01% |
1999 | 54.711.630 | 8.81% |
2000 | 57.677.534 | 9,29% |
2001 | 74.720.532 | 12.03% |
2002 | 72.802.484 | 11,72% |
2003 | 82.897.097 | 13,35% |
2004 | 67.041.167 | 10,79% |
2005 | 39.086.695 | 6.29% |
2006 | 44.526.825 | 7.17% |
Н/Д | 13.486.261 | 2,17% |