ИСО 639-3

Международный стандарт трехбуквенных кодов, идентифицирующих языки

ISO 639-3:2007 , Коды для представления названий языков – Часть 3: Код Alpha-3 для всестороннего охвата языков , является международным стандартом для языковых кодов в серии ISO 639. Он определяет трехбуквенные коды для идентификации языков. Стандарт был опубликован Международной организацией по стандартизации (ISO) 1 февраля 2007 года. [1]

ISO 639-3 расширяет коды ISO 639-2 alpha-3 с целью охватить все известные естественные языки . Расширенный охват языков был основан в первую очередь на языковых кодах, используемых в Ethnologue (тома 10–14), опубликованном SIL International , который в настоящее время является регистрирующим органом для ISO 639-3. [2] Он предоставляет перечень языков настолько полный, насколько это возможно, включая живые и вымершие, древние и искусственные, основные и второстепенные, письменные и бесписьменные. [1] Однако он не включает реконструированные языки , такие как праиндоевропейский . [3]

ISO 639-3 предназначен для использования в качестве кодов метаданных в широком спектре приложений. Он широко используется в компьютерных и информационных системах, таких как Интернет, в которых необходимо поддерживать множество языков. В архивах и других хранилищах информации он используется в системах каталогизации, указывая, на каком языке или о каком языке ресурс. Коды также часто используются в лингвистической литературе и в других местах, чтобы компенсировать тот факт, что названия языков могут быть неясными или двусмысленными.

Найти язык
Введите код ISO 639-3, чтобы найти соответствующую языковую статью.

Коды языков

ISO 639-3 включает все языки в ISO 639-1 и все отдельные языки в ISO 639-2 . ISO 639-1 и ISO 639-2 сосредоточены на основных языках, наиболее часто представленных в общем объеме мировой литературы. Поскольку ISO 639-2 также включает языковые коллекции, а Часть 3 — нет, ISO 639-3 не является надмножеством ISO 639-2. Там, где в ISO 639-2 существуют коды B и T , ISO 639-3 использует T-коды.

Примеры кодов языков ISO
Язык639-1639-2 (Б/Т)тип 639-3639-3 код
Английскийruанглиндивидуальныйангл
Французскийфрфр/фриндивидуальныйфра
немецкийденемецкий/немецкийиндивидуальныйдеу
арабскийарарамакросара
Стандартный арабскийиндивидуальныйарб
Масрииндивидуальныйарз
ШамииндивидуальныйБПК
арабский языкиндивидуальныйасм
китайскийжчи/чжо [4] [5]макросчжо
Мандарининдивидуальныйсмн
кантонскийиндивидуальныйюэ
Южный Мининдивидуальныйнан
Центральный тайскиййтаиндивидуальныйта
Южный Таиландиндивидуальныйсу
Северный Таиландиндивидуальныйкивок
Люиндивидуальныйхб
Лаосский / Исанскийвотлаосскийиндивидуальныйлаосский/ттс
Фу Тайиндивидуальныйфт

По состоянию на 23 января 2023 года [обновлять]стандарт содержит 7916 записей. [6] Перечень языков основан на ряде источников, включая: отдельные языки, содержащиеся в 639-2, современные языки из Ethnologue , исторические варианты, древние языки и искусственные языки из Linguist List , [7] а также языки, рекомендованные в течение ежегодного периода общественного обсуждения.

Файлы данных, пригодные для машинного считывания, предоставляются регистрационным органом. [6] Сопоставление ISO 639-1 или ISO 639-2 с ISO 639-3 может быть выполнено с использованием этих файлов данных.

ISO 639-3 предназначен для принятия различий на основе критериев, которые не являются полностью объективными. [8] Он не предназначен для документирования или предоставления идентификаторов для диалектов или других подъязыковых вариаций. [9] Тем не менее, суждения относительно различий между языками могут быть субъективными, особенно в случае языковых разновидностей без устоявшихся литературных традиций, использования в образовании или средствах массовой информации или других факторов, которые способствуют языковой конвенционализации. Поэтому стандарт не следует рассматривать как авторитетное заявление о том, какие отдельные языки существуют в мире (по поводу чего в некоторых случаях могут быть существенные разногласия), а скорее просто как один из полезных способов точной идентификации различных языковых разновидностей.

Кодовое пространство

Поскольку код состоит из трех букв алфавита, верхняя граница для числа языков, которые могут быть представлены, составляет 26 × 26 × 26 = 17 576. Поскольку ISO 639-2 определяет специальные коды (4), зарезервированный диапазон (520) и коды только для B (22), 546 кодов не могут использоваться в части 3. Следовательно, более строгая верхняя граница составляет 17 576 − 546 = 17 030.

Верхняя граница становится еще строже, если вычесть языковые коллекции, определенные в 639-2, и те, которые еще не определены в ISO 639-5 .

Макроязыки

В ISO 639-2 указано 58 языков, которые в целях стандарта считаются «макроязыками» в ISO 639-3. [10]

Некоторые из этих макроязыков не имели отдельного языка, как определено ISO 639-3 в кодовом наборе ISO 639-2, например, 'ara' (общий арабский). Другие, такие как 'nor' (норвежский), имели свои две отдельные части ('nno' ( нюнорск ), 'nob' ( букмол )) уже в ISO 639-2.

Это означает, что некоторые языки (например, «арб», стандартный арабский язык), которые в стандарте ISO 639-2 считались диалектами одного языка («ара»), в настоящее время в стандарте ISO 639-3 в определенных контекстах считаются отдельными языками.

Это попытка рассмотреть разновидности, которые могут лингвистически отличаться друг от друга, но рассматриваются их носителями как две формы одного и того же языка, например, в случаях диглоссии .

Например:

  • ara | ISO 639-3 (общий арабский, 639-2)
  • arb | ISO 639-3 (Стандартный арабский, 639-3)

Полный список доступен на веб-сайте регистратора ISO 639-3. [11]

Коллективные языки

«Коллективный элемент кода языка — это идентификатор, представляющий группу отдельных языков, которые не считаются одним языком ни в каком контексте использования». [12] Эти коды не представляют в точности конкретный язык или макроязык.

Хотя ISO 639-2 включает трехбуквенные идентификаторы для коллективных языков, эти коды исключены из ISO 639-3. Следовательно, ISO 639-3 не является надмножеством ISO 639-2.

ISO 639-5 определяет трехбуквенные коллективные коды для языковых семей и групп, включая коллективные коды языков из ISO 639-2.

Специальные коды

Четыре кода отведены в ISO 639-2 и ISO 639-3 для случаев, когда ни один из конкретных кодов не подходит. Они предназначены в первую очередь для приложений, таких как базы данных, где требуется код ISO независимо от того, существует ли он.

  • mis(некодированные языки, первоначально сокращение от «разные») предназначен для языков, которые (еще) не включены в стандарт ISO.
  • mul(несколько языков) предназначен для случаев, когда данные включают более одного языка и (например) для базы данных требуется один код ISO.
  • und(неопределенный) предназначен для случаев, когда язык в данных не был идентифицирован, например, когда он неправильно помечен или никогда не был помечен. Он не предназначен для случаев, таких как Trojan , где неподтвержденному языку было дано имя.
  • zxx(нет лингвистического содержания / неприменимо) предназначено для данных, которые вообще не являются языком, например, для звуков животных. [13]

Кроме того, 520 кодов в диапазоне qaaqtz«зарезервированы для локального использования». Например, Ребекка Беттанкур присваивает код искусственным языкам , а новые назначения производятся по запросу. [14] Linguist List использует их для вымерших языков . Linguist List присвоил одному из них общее значение: qnp, неназванный праязык. Это используется для предлагаемых промежуточных узлов в генеалогическом древе, которые не имеют названия.

Процессы обслуживания

Таблица кодов для ISO 639-3 открыта для изменений. Чтобы защитить стабильность существующего использования, разрешенные изменения ограничены: [15]

  • изменения в справочной информации для записи (включая названия или категории по типу и области действия),
  • добавление новых записей,
  • прекращение использования записей, которые являются дубликатами или поддельными,
  • объединение одной или нескольких записей в другую запись, и
  • разделение существующей языковой записи на несколько новых языковых записей.

Код, присвоенный языку, не изменяется, если только не происходит также изменение его обозначения. [16]

Изменения вносятся ежегодно. Каждому запросу дается минимальный срок в три месяца для публичного рассмотрения.

На веб-сайте ISO 639-3 есть страницы, описывающие «области денотации» [17] (типы лангоидов) и типы языков [18] , которые объясняют, какие концепции находятся в области кодирования и какие критерии должны быть соблюдены. Например, искусственные языки могут быть закодированы, но только если они предназначены для человеческого общения и имеют корпус литературы, что предотвращает запросы на идиосинкразические изобретения.

Регистрационный орган документирует на своем веб-сайте инструкции, содержащиеся в тексте стандарта ISO 639-3, относительно того, как следует поддерживать кодовые таблицы. [19] Он также документирует процессы, используемые для получения и обработки запросов на изменение. [20]

Предоставляется форма запроса на изменение, а также есть вторая форма для сбора информации о предлагаемых дополнениях. Любая сторона может подать запрос на изменение. После подачи запрос сначала проверяется регистрирующим органом на полноту.

При получении полностью документированного запроса он добавляется в опубликованный индекс запросов на изменение. Кроме того, объявления отправляются в общий список обсуждений LINGUIST в Linguist List и другие списки, которые регистрирующий орган может счесть релевантными, приглашая общественность к рассмотрению и внесению вклада в запрошенное изменение. Любой владелец списка или физическое лицо может запросить уведомления о запросах на изменение для определенных регионов или языковых семей. Полученные комментарии публикуются для ознакомления других сторон. На основе консенсуса в полученных комментариях запрос на изменение может быть отозван или повышен до «статуса кандидата».

За три месяца до окончания ежегодного цикла обзора (обычно в сентябре) в список обсуждения LINGUIST и другие списки отправляется объявление относительно запросов на изменение статуса кандидата. Все запросы остаются открытыми для обзора и комментариев до конца ежегодного цикла обзора.

Решения объявляются в конце ежегодного цикла обзора (обычно в январе). В это время запросы могут быть приняты полностью или частично, изменены и перенесены в следующий цикл обзора или отклонены. Отклонения часто включают предложения о том, как изменить предложения для повторной подачи. Публичный архив каждого запроса на изменение сохраняется вместе с принятыми решениями и обоснованием решений. [21]

Критика

Лингвисты Мори, Пост и Фридман высказывают различные критические замечания в адрес ISO 639, и в частности ISO 639-3: [16]

  • Сами трехбуквенные коды проблематичны, поскольку, хотя официально они являются произвольными техническими метками, они часто происходят от мнемонических сокращений названий языков, некоторые из которых являются уничижительными. Например, Yemsa был присвоен код jnj, от уничижительного "Janejero". Поэтому носители языка могут счесть эти коды оскорбительными. Однако коды можно изменить, отправив запрос на веб-сайте SIL.
  • Администрирование стандарта проблематично, поскольку SIL является миссионерской организацией с недостаточной прозрачностью и подотчетностью. Решения о том, что заслуживает кодирования в качестве языка, принимаются внутри. Хотя внешний вклад может приветствоваться или нет, сами решения непрозрачны, и многие лингвисты отказались от попыток улучшить стандарт.
  • Постоянная идентификация языка несовместима с изменением языка.
  • Языки и диалекты часто невозможно строго различать, и диалектные континуумы ​​могут подразделяться многими способами, тогда как стандарт отдает предпочтение одному выбору. Такие различия часто основаны на социальных и политических факторах.
  • ISO 639-3 может быть неправильно понят и неправильно использован органами, которые принимают решения относительно идентичности и языка людей, отменяя право говорящих идентифицировать себя или идентифицировать себя с их речевым разнообразием. Хотя SIL чувствителен к таким вопросам, эта проблема заложена в природе установленного стандарта, который может использоваться (или неправильно использоваться) способами, которые ISO и SIL не предполагают.

Мартин Хаспельмат согласен с четырьмя из этих пунктов, но не с пунктом об изменении языка. [22] Он не согласен, потому что любое описание языка требует его идентификации, и мы можем легко определить различные стадии языка. Он предполагает, что лингвисты могут предпочесть использовать кодификацию, которая сделана на уровне лангоида, поскольку «лингвистам редко важно, говорят ли они о языке, диалекте или тесно связанной семье языков». Он также сомневается в целесообразности стандарта ISO для идентификации языка, поскольку ISO является промышленной организацией, в то время как он рассматривает документацию и номенклатуру языка как научное начинание. Он ссылается на изначальную потребность в стандартизированных идентификаторах языка как на «экономическую значимость перевода и локализации программного обеспечения », для чего были установлены стандарты ISO 639-1 и 639-2. Однако он выражает сомнения относительно необходимости для отрасли всеобъемлющего охвата, предоставляемого стандартом ISO 639-3, поскольку он охватывает «малоизвестные языки небольших сообществ, которые никогда или почти не используются в письменной форме и которые часто находятся под угрозой исчезновения».

Использование

  • Этнолог
  • Список лингвистов
  • OLAC : Сообщество архивов открытых языков [23]
  • Microsoft Windows 8 : [24] Поддерживает все коды ISO 639-3 на момент выпуска.
  • Фонд Викимедиа: Новые языковые проекты (например, Википедии на новых языках) должны иметь идентификатор ISO 639-1, -2 или -3. [25]
  • Другие стандарты, основанные на ISO 639-3:
    • Языковые теги , определенные Инженерной группой Интернета (IETF), как описано в:
      • BCP 47: Лучшая текущая практика 47 , [26] которая включает RFC 5646
      • RFC 5646, который заменил RFC 4646, который заменил RFC 3066. (Поэтому все стандарты, зависящие от любого из этих 3 стандартов IETF, теперь используют ISO 639-3.)
    • Стандарт ePub 3.0 для языковых метаданных [27] использует элементы метаданных Dublin Core. Эти элементы языковых метаданных в ePub должны содержать допустимые коды RFC 5646 для языков. [27] RFC5646 указывает на ISO 639-3 для языков без более коротких кодов IANA.
    • Инициатива метаданных Dublin Core : термин метаданных DCMI [28] для языка, согласно RFC 4646 IETF (теперь заменен RFC 5646).
    • Управление по присвоению номеров в Интернете (IANA) Усилия W3C по интернационализации рекомендуют использовать Реестр языковых субтегов IANA для выбора кодов языков. [29] Реестр языковых субтегов IANA [30] зависит от кодов ISO 639-3 для языков, которые ранее не имели кодов в других частях стандарта ISO 639.
    • HTML5: [31] через BCP 47 IETF.
    • XML: [32] через BCP 47 IETF.
    • SVG: [33] через BCP 47 IETF.
    • Коды библиотеки MODS : [34] Включает в себя RFC 3066 IETF (теперь заменен RFC 5646).
    • Инициатива по кодированию текста (TEI): [35] через BCP 47 IETF.
    • Структура лексической разметки : спецификация ISO для представления машиночитаемых словарей.
    • Репозиторий общих локальных данных Unicode : использует несколько сотен кодов из ISO 639-3, не включенных в ISO 639-2.

Ссылки

  1. ^ ab "ISO 639-3 status and abstract". Международная организация по стандартизации. 20 июля 2010 г. Архивировано из оригинала 14 января 2012 г. Получено 14 июня 2012 г.
  2. ^ "Агентства по техническому обслуживанию и органы регистрации". ISO. Архивировано из оригинала 8 октября 2012 года . Получено 12 января 2014 года .
  3. ^ "Типы отдельных языков – Древние языки". SIL International . Архивировано из оригинала 12 июня 2018 года . Получено 11 июня 2018 года .
  4. ^ "Отчет Ethnologue для кода ISO 639: zho". Ethnologue . Архивировано из оригинала 12 сентября 2014 года.
  5. ^ "ISO 639-3". SIL International . Архивировано из оригинала 24 февраля 2013 года . Получено 12 сентября 2014 года .
  6. ^ ab "ISO 639-3 Code Set". SIL International . 18 февраля 2021 г. Архивировано из оригинала 1 апреля 2018 г. Получено 7 апреля 2021 г.
  7. ^ "ISO 639-3". SIL International . Архивировано из оригинала 15 мая 2014 года . Получено 18 мая 2014 года .
  8. ^ "Область обозначения: отдельные языки". SIL International . Архивировано из оригинала 20 октября 2014 года . Получено 18 мая 2014 года .
  9. ^ "Область обозначения: диалекты". SIL International . Архивировано из оригинала 20 октября 2014 года . Получено 18 мая 2014 года .
  10. ^ "Область обозначения: Макроязыки". SIL International . Архивировано из оригинала 8 февраля 2013 года . Получено 14 июня 2012 года .
  11. ^ "Macrolanguage Mappings". SIL International . Архивировано из оригинала 11 октября 2020 г. Получено 2 ноября 2021 г.
  12. ^ "Область обозначения: Коллективные языки". SIL International . Архивировано из оригинала 8 февраля 2013 года . Получено 14 июня 2012 года .
  13. ^ "Полевые записи голосов мартышек-верветок". Linguistic Data Consortium . Архивировано из оригинала 15 января 2023 года . Получено 15 января 2023 года .
  14. ^ Беттанкур, Ребекка. "ConLang Code Registry". KreativeKorp . Архивировано из оригинала 8 октября 2023 г. Получено 12 марта 2021 г.
  15. ^ "Отправка запросов на изменение ISO 639-3: типы изменений". SIL International . Архивировано из оригинала 2 февраля 2016 года . Получено 21 мая 2014 года .
  16. ^ ab Morey, Stephen; Post, Mark W.; Friedman, Victor A. (2013). Языковые коды ISO 639: преждевременная, в конечном итоге недостижимая и, возможно, разрушительная стандартизация. Конференция PARADISEC RRR. Архивировано из оригинала 23 февраля 2016 г. Получено 3 ноября 2015 г.
  17. ^ "Область обозначения идентификаторов языка". SIL International . Архивировано из оригинала 20 октября 2014 года . Получено 18 мая 2014 года .
  18. ^ "Типы языков". SIL International . Архивировано из оригинала 23 февраля 2016 года . Получено 21 мая 2014 года .
  19. ^ "ISO 639-3 Change Management". SIL International . Архивировано из оригинала 14 мая 2016 года . Получено 18 мая 2014 года .
  20. ^ "Отправка запросов на изменение ISO 639-3". SIL International . Архивировано из оригинала 2 февраля 2016 года . Получено 21 мая 2014 года .
  21. ^ "ISO 639-3 Change Request Index". SIL International . Архивировано из оригинала 29 января 2016 года . Получено 20 мая 2014 года .
  22. ^ Haspelmath, Martin (4 декабря 2013 г.). «Можно ли стандартизировать языковую идентичность? О критике стандарта ISO 639-3 Мори и др.». Комментарий Diversity Linguistics . doi :10.58079/nsst. Архивировано из оригинала 19 апреля 2014 г. Получено 18 апреля 2014 г.
  23. ^ "OLAC Language Extension". language-archives.org . Архивировано из оригинала 16 мая 2015 . Получено 3 августа 2015 .
  24. ^ «Более 7000 языков, всего 1 Windows». Microsoft. 5 февраля 2014 г. Архивировано из оригинала 3 марта 2024 г. Получено 3 марта 2024 г.
  25. ^ "Политика предложения языка". wikimedia.org . Архивировано из оригинала 13 июля 2015 . Получено 3 августа 2015 .
  26. ^ "BCP 47 – Теги для идентификации языков". ietf.org . Архивировано из оригинала 9 марта 2018 г. Получено 3 августа 2015 г.
  27. ^ ab "EPUB Publications 3.0". idpf.org . Архивировано из оригинала 2 августа 2015 г. Получено 3 августа 2015 г.
  28. ^ "DCMI Metadata Terms". purl.org . Архивировано из оригинала 7 декабря 2023 г. Получено 3 августа 2015 г.
  29. ^ "Двухбуквенные или трехбуквенные коды языков ISO". W3C . Архивировано из оригинала 8 августа 2015 г. Получено 3 августа 2015 г.
  30. ^ "Language Registry". Internet Assigned Numbers Authority. Архивировано из оригинала 12 ноября 2017 года . Получено 12 августа 2015 года .
  31. ^ "Семантика, структура и API HTML-документов — HTML5". W3C . Архивировано из оригинала 6 июня 2015 г. Получено 3 августа 2015 г.
  32. ^ "Extensible Markup Language (XML) 1.0 (пятое издание)". W3C . Архивировано из оригинала 25 декабря 2021 г. . Получено 3 сентября 2022 г. .
  33. ^ "Масштабируемая векторная графика (SVG) 2". W3C . Получено 3 сентября 2022 г. .
  34. ^ "Elements – MODS User Guidelines: Metadata Object Description Schema: MODS". Библиотека Конгресса . Архивировано из оригинала 22 августа 2015 г. Получено 3 августа 2015 г.
  35. ^ "TEI element language". Text Encoding Initiative . Архивировано из оригинала 14 сентября 2015 года . Получено 3 августа 2015 года .

Дальнейшее чтение

  • Аристар, Энтони (2006). "Стандартизированные языковые коды ISO и Ethnologue" (PDF) . Бюллетень SSILA . 247 . Архивировано из оригинала (PDF) 20 мая 2014 г.
  • Добрин, Лиз М.; Гуд, Джефф (2009). «Практическое развитие языка: чья миссия?» (PDF) . Язык . 85 (3): 619–629. doi :10.1353/lan.0.0152. S2CID  144749106.
  • Эппс, Пейшенс (2006). «В противовес принятию языковых кодов Ethnologue для ISO 639-3» (PDF) . Бюллетень SSILA . 246 . Архивировано из оригинала (PDF) 20 мая 2014 г.
  • Голла, Виктор, ред. (2006). "Заявление SSILA о языковых кодах ISO 639-3" (PDF) . Бюллетень SSILA . 249 . Архивировано из оригинала (PDF) 20 мая 2014 г.
  • Гуд, Джефф; Сайсоу, Майкл (2013). «Лангоид, докулект и глоссони: формализация понятия «язык»". Документация и сохранение языка . 7 : 331–359. hdl :10125/4606.
  • Регистрационный орган ISO 639-3
  • Часто задаваемые вопросы на сайте Библиотеки Конгресса США
  • Ожидающие рассмотрения заявки на ISO 639-3
  • Список лингвистов - Список древних и вымерших языков
  • объяснение Говарда Юльстада
Взято с "https://en.wikipedia.org/w/index.php?title=ISO_639-3&oldid=1252144541"