ISO 639-3:2007 , Коды для представления названий языков – Часть 3: Код Alpha-3 для всестороннего охвата языков , является международным стандартом для языковых кодов в серии ISO 639. Он определяет трехбуквенные коды для идентификации языков. Стандарт был опубликован Международной организацией по стандартизации (ISO) 1 февраля 2007 года. [1]
ISO 639-3 расширяет коды ISO 639-2 alpha-3 с целью охватить все известные естественные языки . Расширенный охват языков был основан в первую очередь на языковых кодах, используемых в Ethnologue (тома 10–14), опубликованном SIL International , который в настоящее время является регистрирующим органом для ISO 639-3. [2] Он предоставляет перечень языков настолько полный, насколько это возможно, включая живые и вымершие, древние и искусственные, основные и второстепенные, письменные и бесписьменные. [1] Однако он не включает реконструированные языки , такие как праиндоевропейский . [3]
ISO 639-3 предназначен для использования в качестве кодов метаданных в широком спектре приложений. Он широко используется в компьютерных и информационных системах, таких как Интернет, в которых необходимо поддерживать множество языков. В архивах и других хранилищах информации он используется в системах каталогизации, указывая, на каком языке или о каком языке ресурс. Коды также часто используются в лингвистической литературе и в других местах, чтобы компенсировать тот факт, что названия языков могут быть неясными или двусмысленными.
Найти язык |
---|
Введите код ISO 639-3, чтобы найти соответствующую языковую статью. |
ISO 639-3 включает все языки в ISO 639-1 и все отдельные языки в ISO 639-2 . ISO 639-1 и ISO 639-2 сосредоточены на основных языках, наиболее часто представленных в общем объеме мировой литературы. Поскольку ISO 639-2 также включает языковые коллекции, а Часть 3 — нет, ISO 639-3 не является надмножеством ISO 639-2. Там, где в ISO 639-2 существуют коды B и T , ISO 639-3 использует T-коды.
Язык | 639-1 | 639-2 (Б/Т) | тип 639-3 | 639-3 код |
---|---|---|---|---|
Английский | ru | англ | индивидуальный | англ |
Французский | фр | фр/фр | индивидуальный | фра |
немецкий | де | немецкий/немецкий | индивидуальный | деу |
арабский | ар | ара | макрос | ара |
Стандартный арабский | индивидуальный | арб | ||
Масри | индивидуальный | арз | ||
Шами | индивидуальный | БПК | ||
арабский язык | индивидуальный | асм | ||
китайский | ж | чи/чжо [4] [5] | макрос | чжо |
Мандарин | индивидуальный | смн | ||
кантонский | индивидуальный | юэ | ||
Южный Мин | индивидуальный | нан | ||
Центральный тайский | й | та | индивидуальный | та |
Южный Таиланд | индивидуальный | су | ||
Северный Таиланд | индивидуальный | кивок | ||
Лю | индивидуальный | хб | ||
Лаосский / Исанский | вот | лаосский | индивидуальный | лаосский/ттс |
Фу Тай | индивидуальный | фт |
По состоянию на 23 января 2023 года [обновлять]стандарт содержит 7916 записей. [6] Перечень языков основан на ряде источников, включая: отдельные языки, содержащиеся в 639-2, современные языки из Ethnologue , исторические варианты, древние языки и искусственные языки из Linguist List , [7] а также языки, рекомендованные в течение ежегодного периода общественного обсуждения.
Файлы данных, пригодные для машинного считывания, предоставляются регистрационным органом. [6] Сопоставление ISO 639-1 или ISO 639-2 с ISO 639-3 может быть выполнено с использованием этих файлов данных.
ISO 639-3 предназначен для принятия различий на основе критериев, которые не являются полностью объективными. [8] Он не предназначен для документирования или предоставления идентификаторов для диалектов или других подъязыковых вариаций. [9] Тем не менее, суждения относительно различий между языками могут быть субъективными, особенно в случае языковых разновидностей без устоявшихся литературных традиций, использования в образовании или средствах массовой информации или других факторов, которые способствуют языковой конвенционализации. Поэтому стандарт не следует рассматривать как авторитетное заявление о том, какие отдельные языки существуют в мире (по поводу чего в некоторых случаях могут быть существенные разногласия), а скорее просто как один из полезных способов точной идентификации различных языковых разновидностей.
Поскольку код состоит из трех букв алфавита, верхняя граница для числа языков, которые могут быть представлены, составляет 26 × 26 × 26 = 17 576. Поскольку ISO 639-2 определяет специальные коды (4), зарезервированный диапазон (520) и коды только для B (22), 546 кодов не могут использоваться в части 3. Следовательно, более строгая верхняя граница составляет 17 576 − 546 = 17 030.
Верхняя граница становится еще строже, если вычесть языковые коллекции, определенные в 639-2, и те, которые еще не определены в ISO 639-5 .
В ISO 639-2 указано 58 языков, которые в целях стандарта считаются «макроязыками» в ISO 639-3. [10]
Некоторые из этих макроязыков не имели отдельного языка, как определено ISO 639-3 в кодовом наборе ISO 639-2, например, 'ara' (общий арабский). Другие, такие как 'nor' (норвежский), имели свои две отдельные части ('nno' ( нюнорск ), 'nob' ( букмол )) уже в ISO 639-2.
Это означает, что некоторые языки (например, «арб», стандартный арабский язык), которые в стандарте ISO 639-2 считались диалектами одного языка («ара»), в настоящее время в стандарте ISO 639-3 в определенных контекстах считаются отдельными языками.
Это попытка рассмотреть разновидности, которые могут лингвистически отличаться друг от друга, но рассматриваются их носителями как две формы одного и того же языка, например, в случаях диглоссии .
Например:
Полный список доступен на веб-сайте регистратора ISO 639-3. [11]
«Коллективный элемент кода языка — это идентификатор, представляющий группу отдельных языков, которые не считаются одним языком ни в каком контексте использования». [12] Эти коды не представляют в точности конкретный язык или макроязык.
Хотя ISO 639-2 включает трехбуквенные идентификаторы для коллективных языков, эти коды исключены из ISO 639-3. Следовательно, ISO 639-3 не является надмножеством ISO 639-2.
ISO 639-5 определяет трехбуквенные коллективные коды для языковых семей и групп, включая коллективные коды языков из ISO 639-2.
Четыре кода отведены в ISO 639-2 и ISO 639-3 для случаев, когда ни один из конкретных кодов не подходит. Они предназначены в первую очередь для приложений, таких как базы данных, где требуется код ISO независимо от того, существует ли он.
mis
(некодированные языки, первоначально сокращение от «разные») предназначен для языков, которые (еще) не включены в стандарт ISO.mul
(несколько языков) предназначен для случаев, когда данные включают более одного языка и (например) для базы данных требуется один код ISO.und
(неопределенный) предназначен для случаев, когда язык в данных не был идентифицирован, например, когда он неправильно помечен или никогда не был помечен. Он не предназначен для случаев, таких как Trojan , где неподтвержденному языку было дано имя.zxx
(нет лингвистического содержания / неприменимо) предназначено для данных, которые вообще не являются языком, например, для звуков животных. [13]Кроме того, 520 кодов в диапазоне qaa
– qtz
«зарезервированы для локального использования». Например, Ребекка Беттанкур присваивает код искусственным языкам , а новые назначения производятся по запросу. [14] Linguist List использует их для вымерших языков . Linguist List присвоил одному из них общее значение: qnp
, неназванный праязык. Это используется для предлагаемых промежуточных узлов в генеалогическом древе, которые не имеют названия.
Таблица кодов для ISO 639-3 открыта для изменений. Чтобы защитить стабильность существующего использования, разрешенные изменения ограничены: [15]
Код, присвоенный языку, не изменяется, если только не происходит также изменение его обозначения. [16]
Изменения вносятся ежегодно. Каждому запросу дается минимальный срок в три месяца для публичного рассмотрения.
На веб-сайте ISO 639-3 есть страницы, описывающие «области денотации» [17] (типы лангоидов) и типы языков [18] , которые объясняют, какие концепции находятся в области кодирования и какие критерии должны быть соблюдены. Например, искусственные языки могут быть закодированы, но только если они предназначены для человеческого общения и имеют корпус литературы, что предотвращает запросы на идиосинкразические изобретения.
Регистрационный орган документирует на своем веб-сайте инструкции, содержащиеся в тексте стандарта ISO 639-3, относительно того, как следует поддерживать кодовые таблицы. [19] Он также документирует процессы, используемые для получения и обработки запросов на изменение. [20]
Предоставляется форма запроса на изменение, а также есть вторая форма для сбора информации о предлагаемых дополнениях. Любая сторона может подать запрос на изменение. После подачи запрос сначала проверяется регистрирующим органом на полноту.
При получении полностью документированного запроса он добавляется в опубликованный индекс запросов на изменение. Кроме того, объявления отправляются в общий список обсуждений LINGUIST в Linguist List и другие списки, которые регистрирующий орган может счесть релевантными, приглашая общественность к рассмотрению и внесению вклада в запрошенное изменение. Любой владелец списка или физическое лицо может запросить уведомления о запросах на изменение для определенных регионов или языковых семей. Полученные комментарии публикуются для ознакомления других сторон. На основе консенсуса в полученных комментариях запрос на изменение может быть отозван или повышен до «статуса кандидата».
За три месяца до окончания ежегодного цикла обзора (обычно в сентябре) в список обсуждения LINGUIST и другие списки отправляется объявление относительно запросов на изменение статуса кандидата. Все запросы остаются открытыми для обзора и комментариев до конца ежегодного цикла обзора.
Решения объявляются в конце ежегодного цикла обзора (обычно в январе). В это время запросы могут быть приняты полностью или частично, изменены и перенесены в следующий цикл обзора или отклонены. Отклонения часто включают предложения о том, как изменить предложения для повторной подачи. Публичный архив каждого запроса на изменение сохраняется вместе с принятыми решениями и обоснованием решений. [21]
Лингвисты Мори, Пост и Фридман высказывают различные критические замечания в адрес ISO 639, и в частности ISO 639-3: [16]
jnj
, от уничижительного "Janejero". Поэтому носители языка могут счесть эти коды оскорбительными. Однако коды можно изменить, отправив запрос на веб-сайте SIL.Мартин Хаспельмат согласен с четырьмя из этих пунктов, но не с пунктом об изменении языка. [22] Он не согласен, потому что любое описание языка требует его идентификации, и мы можем легко определить различные стадии языка. Он предполагает, что лингвисты могут предпочесть использовать кодификацию, которая сделана на уровне лангоида, поскольку «лингвистам редко важно, говорят ли они о языке, диалекте или тесно связанной семье языков». Он также сомневается в целесообразности стандарта ISO для идентификации языка, поскольку ISO является промышленной организацией, в то время как он рассматривает документацию и номенклатуру языка как научное начинание. Он ссылается на изначальную потребность в стандартизированных идентификаторах языка как на «экономическую значимость перевода и локализации программного обеспечения », для чего были установлены стандарты ISO 639-1 и 639-2. Однако он выражает сомнения относительно необходимости для отрасли всеобъемлющего охвата, предоставляемого стандартом ISO 639-3, поскольку он охватывает «малоизвестные языки небольших сообществ, которые никогда или почти не используются в письменной форме и которые часто находятся под угрозой исчезновения».