Модзикё

Схема кодировки символов
Модзикё
Конджаку Модзикё
今昔文字鏡
Разработчик(и)Тадахиса Исикава
(石川忠久)
Токио Фуруя
(古家時雄)
Институт Модзикё
(文字鏡研究会)
Первоначальный выпуск1.0 / Июль 1997 г .; 27 лет назад ( 1997-07 )
Окончательный релиз
4.0 / 15 декабря 2018 г. ; 6 лет назад ( 2018-12-15 )
Операционная системаМайкрософт Виндоус
Размер51 МБ
Доступно вяпонский
ТипНабор символов в комплекте со шрифтами и таблицей символов
ЛицензияЗапатентованный
Веб-сайтmojikyo.org

Mojikyō (яп.文字鏡), также известный под своим полным названием Konjaku Mojikyō (今昔文字鏡, букв. ' зеркало прошлого и настоящего иероглифов ' )— этокодировки символовсозданная для предоставления полного индекса иероглифов, используемых вкитайской,японской,корейской,вьетнамской Тю Номи других исторических китайскихлогографическихсистемах письма. Институт Mojikyō(文字鏡研究会, Mojikyō Kenkyūkai ) , опубликовавший набор символов, также опубликовалкомпьютерное программное обеспечениеикомпьютерные шрифтыдля его сопровождения. Институт Mojikyō, возглавляемый Тадахисой Исикавой(石川忠久),[1]изначально распространял свой набор символов и связанное с ним программное обеспечение и данные накомпакт-дисках,продаваемых вмагазинахKinokuniya[2]

Концепция была разработана в 1996 году, [3] первая версия CD-ROM была выпущена в июле 1997 года. [4] Некоторое время Институт Модзикё также предлагал веб-подписку под названием « Модзикё ВЕБ» (文字鏡WEB ), которая имела более современные символы. [5]

По состоянию на сентябрь 2006 года [обновлять]Mojikyō кодировал 174 975 символов. [6] Из них 150 366 символов (≈86%) принадлежали к расширенной китайско-японско-корейско-вьетнамской (CJKV) [примечание 2] семье. [5] Многие из символов Mojikyō считаются устаревшими или малоизвестными и не кодируются никакими другими наборами символов, включая наиболее широко используемый международный стандарт кодирования текста Unicode .

Первоначально платный проприетарный программный продукт, с 2015 года Институт Mojikyō начал загружать свои последние релизы в Internet Archive как бесплатное программное обеспечение , [7] в память об одном из своих разработчиков, Токио Фуруе (古家時雄) , который умер в том же году. [3] 15 декабря 2018 года была выпущена версия 4.0. На следующий день Исикава объявил, что без Фуруи это будет последний релиз Mojikyō . [3]

Помещение

Кодировка Mojikyō была создана для предоставления полного индекса символов, используемых в китайской , японской , корейской системах письма и вьетнамских логографических письмах чу-ном . Она также кодирует большое количество символов в древних письмах, таких как письмо оракула , письмо печати и санскрит ( Siddhaṃ ). Для многих символов это единственная кодировка символов для их кодирования, и ее данные часто используются в качестве отправной точки для предложений Unicode . [8] [9] Однако Mojikyō имеет гораздо более свободные стандарты кодирования, чем Unicode, что приводит к тому, что Mojikyō имеет много закодированных глифов сомнительного или даже непреднамеренно вымышленного происхождения. [10] [11] Таким образом, хотя многие символы Mojikyō, не входящие в Unicode , подходят для добавления в Unicode, не все из них могут стать символами Unicode из-за различных стандартов доказательств, требуемых каждым из них.

Состав

Шрифты Mojikyō (文字鏡フォント) — это шрифты TrueType , которые поставляются в ZIP-файле и имеют размер около 2–5 мегабайт ; разные шрифты содержат разное количество символов. [примечание 3] Также включен исполняемый файл Windows , который реализует графическую карту символов , « Таблицу символов Mojikyō » (文字鏡MAP ), MOCHRMAP.EXE . [примечание 4] [примечание 5] MOCHRMAP.EXE позволяет пользователям просматривать шрифты Mojikyō , а также копировать и вставлять символы вместо того, чтобы вводить их на клавиатуре. В отличие от обычной карты символов Windows или KCharSelect , которые оба поддерживают шрифты TrueType, MOCHRMAP.EXE отображает пронумерованный слот кодировки Mojikyō запрошенного символа. [12] [примечание 6] Для работы MOCHRMAP.EXE должны быть установлены все шрифты Mojikyō . [примечание 7]

Кодирование

При ссылке на символ, закодированный в Mojikyō , часто используется формат MJXXXXXX, аналогичный формату U+XXXX, используемому для Unicode. Например, hentaigana U+1B008 𛀈 HENTAIGANA LETTER I-3 имеет кодировку Mojikyō MJ090007 и кодировку Unicode U+1B008. [13] Однако разница заключается в том, что кодировки Mojikyō, отображаемые таким образом, являются десятичными , в то время как кодировка U+ Unicode является шестнадцатеричной .

С самых первых дней Unicode Mojikyō как влиял на стандарт, так и сам находился под его влиянием. Глифы, происходящие от Mojikyō, впервые появляются в предложении Ideographic Rapporteur Group (IRG), [примечание 8], которая отвечает за поддержание всех блоков CJK в Unicode, [14] [15] 18 апреля 2002 года. [16] В мае 2007 года Mojikyō сыграл второстепенную роль в серии успешных предложений по кодированию тангутского письма в Unicode; [17] [примечание 9] К октябрю 2002 года Mojikyō уже имел в своей кодировке 6000 тангутских символов. [6]

В базе данных Unihan стандарта Unicode Модзикё называется «Японской коллекцией КОКУДЗИ » (日本国字集), [18] сокращенно «JK». [19] [20] Например, U+2B679 𫙹 CJK UNIFIED IDEOGRAPH-2B679 , [примечание 10] иероглиф, читаемый по-японски как burizādo (ブリザード, букв. « метель » ) , имеет J-Source [примечание 11], равный JK-66038. Все символы Юникода с J-источником с префиксом JK происходят из Модзикё . [21] [примечание 12] По словам Кена Лунде , эксперта по кодировкам символов и восточноазиатским языкам , по состоянию на Unicode 13.0, 782 идеограммы в Unicode происходят из Mojikyō , разделенные примерно поровну между двумя блоками : CJK Unified Ideographs Extension C с 367 и CJK Unified Ideographs Extension E с 415. [20] [22] Не все символы Unicode с происхождением из Mojikyō (J-источники с префиксом JK) имеют тот же репрезентативный глиф в кодовой таблице , что и в шрифте Mojikyō ; [примечание 13] некоторые символы имели измененную форму перед окончательным кодированием, поскольку расследование показало, что формы, назначенные Институтом Mojikyō, были неправильными. [11] [примечание 14]

Блоки

По состоянию на сентябрь 2006 года [обновлять]он кодировал 174 975 символов. [6] Из них 150 366 символов тогда принадлежали к расширенному семейству CJKV [примечание 2] . [5] Многие из кодированных символов считаются устаревшими или иным образом малоизвестными и не кодируются никаким другим набором символов, включая международный стандарт Unicode. Каждый символ Mojikyō имеет уникальный номер, и символы организованы в блоки.

Mojikyō помещает символы CJKV в различные блоки в соответствии с их традиционным радикалом Канси . Обычные радикалы, содержащие особенно большое количество символов, такие как радикалы 9 () и 162 ( ), далее разделяются по порядку штрихов. [примечание 15]

Никакого объединения.

В отличие от Unicode, Mojikyō намеренно избегает унификации Хань ; не делается никаких попыток сделать кодировку компактной, и не делается попыток сохранить все общие символы ниже U+FFFF, как в Unicode. [ необходима ссылка ]

С другой стороны, Unicode сортирует свои CJK по блокам в зависимости от их распространенности: наиболее распространенные обычно помещаются в базовую многоязычную плоскость [примечание 14], а те, которые редки или малоизвестны, помещаются в дополнительные плоскости [ требуется ссылка ] .

Например, в коде Radical 9 есть два символа, тогда как в Unicode есть один: MJ054435 () и MJ059031 (), оба представлены в Unicode как U+4EE4CJK UNIFIED IDEOGRAPH-4EE4 . [ необходима ссылка ]

Лицензия

Mojikyō — это проприетарное программное обеспечение с ограничительной лицензией. Первоначально Mojikyō Institute пытался предотвратить использование своих данных символов и угрожал тем, кто публиковал таблицы преобразования в его набор символов и из него. В июле 2010 года Mojikyō Institute отказался от своих юридических усилий, чтобы помешать хотя бы одному японскому пользователю публиковать таблицы преобразования или преобразовывать символы, закодированные в Mojikyō, в Unicode или другие наборы символов. [23] Простые данные, иногда включающие формы букв, считаются во многих юрисдикциях общей собственностью , поскольку они не соответствуют порогу оригинальности . [примечание 16]

Однако из-за этого наследия GlyphWiki  [яп.] запретила данные Mojikyō с 2020 года. [24]

Собранные системы письма

Жизнь

Мертвый или устаревший

Смотрите также

Ссылки

  1. ^ "今昔文字鏡について" [О Модзикё]. Институт Модзикё (на японском языке). Архивировано из оригинала 3 февраля 2001 года . Проверено 6 июля 2020 г.
  2. ^ ようこそ、今昔文字鏡の世界へ! [Добро пожаловать в мир Модзикё !] (на японском языке). Кинокуния КК. Архивировано из оригинала 4 марта 2005 года . Проверено 5 июля 2020 г.
  3. ^ abc Исикава, Тадахиса (август 2015 г.). «古家時雄君を悼む» [Токио Фуруя, мы скорбим о твоей смерти]. Институт Модзикё (на японском языке) . Проверено 8 июля 2020 г.
  4. ^ Конджаку Модзикё 今昔文字鏡 (на японском языке), июль 1997 г., ISBN 9784314900034
  5. ^ abc 今昔文字鏡とは [О Модзикё] (на японском языке). Кинокуния КК. Архивировано из оригинала 27 апреля 2010 года . Проверено 5 июля 2020 г.
  6. ^ abc 今昔文字鏡とは [Что такое Модзикё ?] (на японском языке). Кинокуния КК. Архивировано из оригинала 5 февраля 2005 года . Проверено 5 июля 2020 г.
  7. ^ "Поиск: создатель:"Институт MOJIKYO"". Архив Интернета . Получено 6 июля 2020 г.
  8. ^ Takada, Tomokazu; Yada, Tsutomu; Saito, Tatsuya (18 сентября 2015 г.). Предложение по хентайгане (PDF) . Перевод: Kobayashi, Tatsuo ; Kobayashi, Daniel. Information Processing Society of Japan . L2/15-239 . Получено 5 июля 2020 г. – через Unicode Consortium .
  9. ^ Хиура, Хидеки; Кобаяши, Тацуо ; и др. (31 октября 2003 г.). Селектор вариаций идеограмм и идентификатор коллекции вариаций. Открытая инициатива по интернационализации. L2/03-413 . Получено 5 июля 2020 г. – через Unicode Consortium .
  10. ^ Такада, Томокадзу [高田智和]; Ода, Тецудзи [織田哲治]; и др. (26 августа 2013 г.). 平成25年度第3回文字情報検討サブワーキンググループ議事録 [Протокол заседания третьей рабочей подгруппы по проверке информации о персонажах 2013 года ( Хэйсэй 25)] (PDF) . Агентство по продвижению информационных технологий, правительство Японии (на японском языке). п. 2 . Проверено 6 июля 2020 г. N36981).おらず、提案内容についても疑問があるとのことであった。[Согласно в интервью с представителем Института Модзикё, шрифт Модзикё используется в WG2 N36981, предложенном Нидерландами, но сам Институт Модзикё не участвует в этом предложении; Кроме того, у него есть сомнения относительно некоторых положений этого предложения.]
  11. ^ Аб Сузуки, Тошия [鈴木俊哉] (30 июля 2009 г.). 統合漢字に申請された「殷周金文集成引得」図形文字の調査 [Исследование глифов, собранных из «Индекса коллекции надписей периода Инь-Чжоу», для отправки в CJK Единые идеограммы. Технический отчет IPSJ SIG (на японском языке). 2009-ДД-72(7). Общество обработки информации Японии : 2 - через Интернет-архив .しかし、拡張Cの標準化作業が8年の長期にわたり、また事後的に用例が必須とされたため、正式に公布された拡張C漢字の典拠は当初の典拠とはかなり異なるものとなっている。たとえば日本では当初は文字鏡研究会によって選定された1000文字程度の漢字を申請していた[。] [...]典拠用例確認は文字鏡とは独立に行なわれたため、字形が文字鏡漢字から変更されたものも多い。[Как Усилия по стандартизации CJK Unified Ideographs Extension C продолжались восемь долгих лет, и примеры кандзи были запрошены после их кодирования, официально обнародованный стандарт кандзи Extension C сильно отличается от исходного стандарта. Например, мы, правительство Японии, изначально подали заявку на около 1000 кандзи, отобранных Институтом Модзикё[.] [...] Поскольку проверка кандзи проводилась независимо от Института Модзикё, формы символов часто отличались от версии Модзикё того же самого кода.]
  12. Исикава, Тадахиса (25 мая 1999 г.). «パソコン悠悠漢字術 今昔文字鏡徹底活用» [Кандзи на вашем ПК, Made Easy — Полное руководство по модзикё]. Институт Модзикё . Проверено 6 июля 2020 г.
  13. ^ MJ文字情報一覧表 [Таблица кодировок символов MJ] (на японском языке). Агентство продвижения информационных технологий. Архивировано из оригинала 29 сентября 2018 года . Проверено 5 июля 2020 г.
  14. ^ "Приложение к стандарту Unicode № 45: Идеограммы U-source". Стандарт Unicode . Консорциум Unicode.
  15. ^ "Приложение E: История объединения Хань" (PDF) . Стандарт Unicode . Консорциум Unicode. Март 2020 г.
  16. ^ "CJK Extension C1 From Japan". Ideographic Rapporteur Group . IRG#19 N895 – через Департамент компьютерных наук и инженерии Китайского университета Гонконга . N895-Japan_C1
  17. ^ Кук, Ричард (9 мая 2007 г.). Предложение по кодированию тангутских символов в UCS Plane 1 (PDF) . UC Berkeley Script Encoding Initiative. стр. 4. L2/07-143 – через Unicode Consortium .
  18. ^ Дженкинс, Джон Х.; Кук, Ричард; Ланде, Кен, ред. (5 марта 2020 г.), «kIRG JSource», Приложение к стандарту Unicode № 38, Консорциум Unicode
  19. Кобаяси, Тацуо (3 декабря 2001 г.). «Список японских идеограмм, которые могут быть предложены в расширении C». ISO/IEC JTC1/SC2/WG2/IRG N853.
  20. ^ аб Кен Лунде [@ken_lunde] (6 июля 2020 г.). «В частности, все 782 идеограммы с префиксом JK действительно взяты из 今昔文字鏡 согласно IRG N862. Большинство из них были закодированы в #ExtensionC, а отставшие - в #ExtensionE». ( Твиттер ) . Проверено 6 июля 2020 г. - через Twitter .
  21. ^ Кен Лунде [@ken_lunde] (6 июля 2020 г.). «Идеограммы J-Source с префиксом JK произошли от 今昔文字鏡, которые находятся в расширениях C и E (упоминание о расширении D было просто тем, что то, что стало расширением E, изначально планировалось стать расширением D)» ( Твит ). Архивировано из оригинала 7 июля 2020 г. Получено 6 июля 2020 г. – через Twitter .
  22. ^ Кен Лунде [@ken_lunde] (6 июля 2020 г.). «367 идеографов с префиксом JK находятся в расширении C, а оставшиеся 415 — в расширении E». ( Твит ) . Получено 6 июля 2020 г. – через Twitter .
  23. ^ "終戦宣言" [Объявление: Война окончена]. Перевод на русский язык:[ Школа изучения кандзи Сэйватэя ] (на японском языке) (ред. 28 января 2016 г.). 21 июля 2010 г. Получено 7 июля 2020 г.
  24. ^ «データ・記事のライセンス» [Лицензия на наши данные и статьи]. GlyphWiki (изд. 9 июня 2010 г.) . Проверено 6 июля 2020 г. .今昔文字鏡およびその関連製品、データは、そのライセンス上グリフウィキには用いることができません。文字鏡番号(独自部分)および文字鏡のフォントに収録されているグリフそのもの、およびそれを参照、利用して作成していると判断できる情報は、グリフウィキに登録する際の典拠とすることはできませんので、ご協力をお願いいたします。 [ Konjaku Mojikyō и связанные с ним продукты и связанные с ними данные лицензированы таким образом, что они несовместимы с нашей вышеуказанной лицензией GlyphWiki. Ни номер слота кодировки Mojikyō , ни внешний вид самого глифа в шрифтах Mojikyō , ни какая-либо информация, которая может быть оценена как собранная путем ссылки на продукт Mojikyō , не может быть использована при вводе данных в GlyphWiki. Мы категорически не можем принимать данные Mojikyō . Пожалуйста, сотрудничайте с нами.]

Примечания

  1. ^ Пока что кодировка Unicode отсутствует , поэтому здесь она аппроксимируется с помощью CSS и U+30BBБУКВА КАТАКАНА SE .
  2. ^ ab В корейском языке упоминаются ханджа . Для вьетнамского языка — Чу Ном .
  3. ^ Загрузите файл MojikyoCmap400ALL49TTF.7z с официального сайта
  4. ^ Английское название взято из заголовка окна, открывающегося при запуске исполняемого файла; японское название взято из значка исполняемого файла.
  5. ^ Также называется «Mojikyō Cmap».
  6. ^ Смотрите скриншоты на официальном сайте
  7. ^ В каталог системных шрифтов C:\Windows\Fonts .
  8. С 2019 года IRG была переименована в Ideographic Research Group.
  9. ^ История кодирования тангутского письма довольно сложна, см. Тангут (блок Unicode) § История для полного списка всех связанных предложений и временной шкалы.
  10. ^ Идеографическое описание последовательности : ⿰魚嵐
  11. ^ Это имя столбца в базе данных Unihan ; ⟨J⟩ здесь — сокращение от "Japanese glyph source". Полное имя столбца — kIRG_JSource. В Han unification таких источников девять. Полный список и дополнительную информацию см. в §3.1 UAX#38.
  12. ^ Существуют и другие префиксы J-Source, например J4, означающие, что символ происходит из JIS X 0213:2004 .
  13. ^ То есть глиф, состоящий из тех же радикалов в тех же позициях.
  14. ^ ab Ошибки в больших коллекциях идеограмм, конечно, не редкость. Такие ошибки даже случайно случаются в хорошо финансируемых коллекциях, созданных правительством, таких как знаменитые кандзи из неизвестных источников в стандарте кодировки двухбайтовых символов JIS X 0208 Японского комитета по промышленным стандартам . Все эти ошибочные кандзи JIS X 0208 ( символы-призраки ,幽霊文字; например,) попали в Unicode, несмотря на то, что не являются «настоящими» кандзи.
  15. ^ Для доказательства см. список в Карте символов Mojikyō, MOCHRMAP.EXE .
  16. ^ См. также: фиктивная запись ; улица-ловушка .
  • Официальный сайт
Взято с "https://en.wikipedia.org/w/index.php?title=Mojikyō&oldid=1259216505"