Из-за необходимости работать с размерами данных от очень маленьких до очень больших, единицы информации охватывают широкий диапазон размеров данных. Единицы определяются как кратные меньшей единицы, за исключением наименьшей единицы, которая основана на соглашении и конструкции оборудования. Префиксы множителей используются для описания относительно больших размеров.
Для двоичного оборудования , безусловно, самого распространенного оборудования на сегодняшний день, наименьшей единицей является бит , портманто от binary digit, [1] , которое представляет значение, которое является одним из двух возможных значений; обычно отображается как 0 и 1. Полубайт , 4 бита, представляет значение одной шестнадцатеричной цифры. Байт , 8 бит, 2 полубайта, возможно, является наиболее известной и используемой базовой единицей для описания размера данных. Слово — это размер, который изменяется и имеет особое значение для конкретного аппаратного контекста. На современном оборудовании слово обычно составляет 2, 4 или 8 байтов, но размер существенно различается на старом оборудовании. Большие размеры могут быть выражены как кратные базовой единице с помощью метрических префиксов СИ (степени десяти) или более новых и, как правило, более точных двоичных префиксов МЭК (степени двух).
В 1928 году Ральф Хартли сформулировал фундаментальный принцип хранения [2] , который был дополнительно формализован Клодом Шенноном в 1945 году: информация, которая может быть сохранена в системе, пропорциональна логарифму N возможных состояний этой системы, обозначаемому как log b N . Изменение основания логарифма с b на другое число c приводит к умножению значения логарифма на фиксированную константу, а именно log c N = (log c b ) log b N . Таким образом, выбор основания b определяет единицу измерения информации. В частности, если b — положительное целое число, то единицей является количество информации, которое может быть сохранено в системе с b возможными состояниями.
Когда b равно 2, единицей является шеннон , равный информационному содержанию одного «бита». Например, система с 8 возможными состояниями может хранить до log 2 8 = 3 бит информации. Другие названные единицы включают:
Основание b = 3
единица называется « трит » и равна log 2 3 (≈ 1,585) бит. [3]
Основание b = 10
единица называется десятичной цифрой , хартли , бан , децит или дит и равна log 2 10 (≈ 3,322) бит. [2] [4] [5] [6]
единица называется нат , нит или непит (от неперианского ) и стоит log 2 e (≈ 1,443) бит. [2]
Трит, бан и нат редко используются для измерения емкости памяти; но нат, в частности, часто используется в теории информации, поскольку натуральные логарифмы математически более удобны, чем логарифмы в других основаниях.
Единицы, полученные из бита
Для коллекций или групп битов используется несколько условных названий.
Байт
Исторически байт был числом бит, используемых для кодирования символа текста в компьютере, что зависело от архитектуры компьютерного оборудования, но сегодня это почти всегда означает восемь бит – то есть октет . 8-битный байт может представлять 256 (2 8 ) различных значений, таких как неотрицательные целые числа от 0 до 255 или знаковые целые числа от −128 до 127. Стандарт IEEE 1541-2002 определяет «B» (заглавную букву) в качестве символа для байта ( IEC 80000-13 использует «o» для октета во французском языке, но также допускает «B» в английском языке). Байты или их кратные почти всегда используются для указания размеров компьютерных файлов и емкости единиц хранения. Большинство современных компьютеров и периферийных устройств предназначены для обработки данных в целых байтах или группах байтов, а не в отдельных битах.
Клев
Группа из четырех бит, или половина байта, иногда называется полубайтом , нибблом или ниблом. Эта единица чаще всего используется в контексте шестнадцатеричных представлений чисел, поскольку полубайт имеет то же количество возможных значений, что и одна шестнадцатеричная цифра. [7]
Слово, блок и страница
Компьютеры обычно манипулируют битами в группах фиксированного размера, традиционно называемых словами . Количество бит в слове обычно определяется размером регистров в ЦП компьютера или количеством бит данных, которые извлекаются из его основной памяти за одну операцию. В архитектуре IA-32 , более известной как x86-32, слово состоит из 32 бит, но другие прошлые и современные архитектуры используют слова с 4, 8, 9, 12, 13, 16, 18, 20, 21, 22, 24, 25, 29, 30, 31, 32, 33, 35, 36, 38, 39, 40, 42, 44, 48, 50, 52, 54, 56, 60, 64, 72 [8] битами или другими.
Кэши памяти компьютера обычно работают с блоками памяти, состоящими из нескольких последовательных слов. Эти единицы обычно называются блоками кэша , или, в кэшах ЦП , строками кэша .
Единица для большого объема данных может быть сформирована с использованием метрического или двоичного префикса с базовой единицей. Для хранения базовой единицей обычно является байт. Для пропускной способности связи распространена базовая единица бит. Например, при использовании метрического префикса кило килобайт равен 1000 байт, а килобит равен 1000 бит.
Использование метрических префиксов распространено, но часто неточно, поскольку двоичное оборудование для хранения организовано с емкостью, которая является степенью 2, а не 10, как метрические префиксы. В контексте вычислений метрические префиксы часто предназначены для обозначения чего-то иного, чем их обычное значение. Например, килобайт на самом деле равен 1024 байтам, хотя стандартное значение кило равно 1000. А мега обычно означает один миллион, но в вычислениях часто используется для обозначения 2 20 = 1 048 576. Таблица ниже иллюстрирует различия между обычными метрическими размерами и подразумеваемым фактическим размером – двоичным размером.
Символ
Префикс
Метрический размер
Двоичный размер
Разница в размерах
к
кило
1000
1024
2.40%
М
мега
1000 2
1024 2
4,86%
Г
гига
1000 3
1024 3
7.37%
Т
тера
1000 4
1024 4
9,95%
П
пета
1000 5
1024 5
12,59%
Э
например
1000 6
1024 6
15.29%
З
зетта
1000 7
1024 7
18.06%
И
йотта
1000 8
1024 8
20,89%
Р
ронна
1000 9
1024 9
23,79%
В
кветта
1000 10
1024 10
26.77%
Международная электротехническая комиссия (МЭК) выпустила стандарт, который вводит двоичные префиксы , которые точно представляют двоичные размеры, не меняя значения стандартных метрических терминов. Вместо того, чтобы основываться на степенях 1000, они основаны на степенях 1024, что является степенью 2. [9]
Символ
Префикс
Пример
Размер
Ки
киби
кибибайт (КиБ)
2 10 , 1024
Ми
меби
мебибайт (МиБ)
2 20 , 1024 2
Ги
гиби
гибибайт (ГиБ)
2 30 , 1024 3
Ти
теби
тебибайт (ТиБ)
2 40 , 1024 4
Пи
пеби
пибибайт (PiB)
2 50 , 1024 5
Эй
эксби
эксбибайт (EiB)
2 60 , 1024 6
Зи
зеби
зебибайт (ZiB)
2 70 , 1024 7
Йи
йоби
йобибайт (YiB)
2 80 , 1024 8
Стандарт памяти JEDEC JESD88F отмечает, что определения кило (К), гига (Г) и мега (М), основанные на степенях двойки, включены только для отражения общего использования, но в остальном они устарели. [10]
Примеры размеров
1 бит: Ответ на вопрос «да/нет»
1 байт: число от 0 до 255
90 байт: достаточно для хранения типичной строки текста из книги
1 ТБ: размер жесткого диска стоимостью 30 долларов (по состоянию на начало 2024 года)
6 ТБ: размер жесткого диска стоимостью 100 долларов (по состоянию на начало 2022 г.)
16 ТБ: размер небольшого/дешевого корпоративного жесткого диска SAS стоимостью 130 долларов США (по состоянию на начало 2024 года)
24 ТБ: размер жесткого диска «видео» стоимостью 440 долларов (по состоянию на начало 2024 года)
32 ТБ: самый большой жесткий диск (по состоянию на середину 2024 г.)
100 ТБ: самый большой коммерчески доступный твердотельный накопитель (по состоянию на середину 2024 г.)
200 ТБ: самый большой твердотельный накопитель, созданный (прогноз на середину 2022 г.)
1,6 ПБ (1600 ТБ): объем возможного хранилища на одном сервере 2U (мировой рекорд по состоянию на 2021 год при использовании твердотельных накопителей емкостью 100 ТБ). [11]
1.3 ZB: Прогноз объема всего интернета в 2016 году
Устаревшие и необычные единицы
Некоторые известные названия единиц измерения, которые сегодня устарели или используются только в ограниченном контексте.
128 бит: гекслет, [36] [41] абзац (на процессорах Intel x86 ) [42] [43]
256 байт: страница (на процессорах Intel 4004, [44] 8080 и 8086, [42] а также на многих других 8-битных процессорах – как правило, намного больше на многих 16-битных/32-битных процессорах)
ISO 80000-13 (Величины и единицы – Часть 13: Информационная наука и технологии)
Ссылки
^ Mackenzie, Charles E. (1980). Coded Character Sets, History and Development (PDF) . The Systems Programming Series (1-е изд.). Addison-Wesley Publishing Company, Inc. стр. xii. ISBN978-0-201-14460-4. LCCN 77-90165. Архивировано (PDF) из оригинала 26 мая 2016 г. Получено 25 августа 2019 г.
^ abc Абрамсон, Норман (1963). Теория информации и кодирование . McGraw-Hill .
^ Кумар, И. Рави (2001). Комплексная статистическая теория коммуникации .
^ Nybble на dictionary reference.com; источник: Jargon File 4.2.0, дата обращения 12 августа 2007 г.
^ Beebe, Nelson HF (2017-08-22). "Глава I. Целочисленная арифметика". The Mathematical-Function Computation Handbook – Programming Using the MathCW Portable Software Library (1-е изд.). Солт-Лейк-Сити, Юта, США: Springer International Publishing AG . стр. 970. doi :10.1007/978-3-319-64110-2. ISBN978-3-319-64109-6. LCCN 2017947446. S2CID 30244721.
^ Стандарт ISO /IEC — ISO/IEC 80000 -13:2008. Этот стандарт отменяет и заменяет подпункты 3.8 и 3.9 стандарта IEC 60027-2:2005. Единственным существенным изменением является добавление явных определений для некоторых величин. Онлайн-каталог ISO
^ "Словарь терминов по твердотельным технологиям – 7-е издание". Ассоциация твердотельных технологий JEDEC. Февраль 2018 г. С. 100, 118, 135. JESD88F . Получено 25.06.2021 .
^ Малеваль, Жан Жак (2021-02-12). "Nimbus Data SSD сертифицированы для использования с серверами Dell EMC PowerEdge". StorageNewsletter . Получено 2024-05-30 .
^ аб Штайнбух, Карл В .; Вагнер, Зигфрид В., ред. (1967) [1962]. Написано в Карлсруэ, Германия. Taschenbuch der Nachrichtenverarbeitung (на немецком языке) (2-е изд.). Берлин / Гейдельберг / Нью-Йорк: Springer-Verlag OHG . С. 835–836 . LCCN 67-21079. Титул № 1036.
^ аб Штайнбух, Карл В .; Вебер, Вольфганг; Хайнеманн, Трауте, ред. (1974) [1967]. Написано в Карлсруэ/Бохуме. Taschenbuch der Informatik – Band III – Anwendungen und spezielle Systeme der Nachrichtenverarbeitung (на немецком языке). Том. 3 (3-е изд.). Берлин / Гейдельберг / Нью-Йорк: Springer Verlag . стр. 357–358 . ISBN.3-540-06242-4. LCCN 73-80607.
^ Бертрам, Х. Нил (1994). Теория магнитной записи (1-е изд.). Cambridge University Press . ISBN0-521-44973-1. 9-780521-449731. [...] Запись импульса будет включать запись дибита или двух переходов произвольно близко друг к другу. [...]
^ ab Svoboda, Antonín ; White, Donnamaie E. (2016) [2012, 1985, 1979-08-01]. Advanced Logical Circuit Design Techniques (PDF) (перепечатанное электронное переиздание). Garland STPM Press (оригинальный выпуск) / WhitePubs Enterprises, Inc. (переиздание). ISBN0-8240-7014-3. LCCN 78-31384. Архивировано (PDF) из оригинала 2017-04-14 . Получено 2017-04-15 .[1][2]
^ Пол, Рейнхольд (2013). Elektrotechnik und Elektronik für Informatiker – Grundgebiete der Elektronik (на немецком языке). Том. 2. Б. Г. Тойбнер Штутгарт/ Шпрингер . ISBN978-3-32296652-0. Получено 2015-08-03 .
^ Бёме, Герт; Борн, Вернер; Вагнер, Б.; Шварце, Г. (2 июля 2013 г.) [1969]. Райхенбах, Юрген (ред.). Программирование Prozeßrechnern. Reihe Automatisierungstechnik (на немецком языке). Том. 79. VEB Verlag Technik [de] Berlin, перепечатка: Springer Verlag . дои : 10.1007/978-3-663-02721-8. ISBN978-3-663-00808-8. 9/3/4185.
^ Штайнбух, Карл В. , изд. (1962). Написано в Карлсруэ, Германия. Taschenbuch der Nachrichtenverarbeitung (на немецком языке) (1-е изд.). Берлин / Геттинген / Нью-Йорк: Springer-Verlag OHG . п. 1076. LCCN 62-14511.
^ Уильямс, Р. Х. (1969-01-01). British Commercial Computer Digest: Pergamon Computer Data Series . Pergamon Press . ISBN1-48312210-7. 978-148312210-6.
^ "Philips – Ассортимент продукции Philips Data Systems – Апрель 1971" (PDF) . Philips . 1971 . Получено 2015-08-03 .
^ Криспин, Марк Р. (2005). RFC 4042: UTF-9 и UTF-18 .
^ Стандарт IEEE для арифметики с плавающей точкой. 29 августа 2008 г. С. 1–70 . doi :10.1109/IEEESTD.2008.4610935. ISBN978-0-7381-5752-8. Получено 2016-02-10 .
^ Эрл, Марк А. (2008-11-21). Алгоритмы и аппаратные разработки для десятичного умножения (диссертация). Университет Лихай (опубликовано в 2009 году). ISBN978-1-10904228-3. 1109042280 . Получено 2016-02-10 .
^ Шнайдер, Карл (2013) [1970]. Datenverarbeitungs-Lexikon [ Лексикон информационных технологий ] (на немецком языке) (переиздание в твердом переплете в мягкой обложке, 1-е изд.). Висбаден, Германия: Springer Fachmedien Wiesbaden GmbH / Betriebswirtschaftlicher Verlag Dr. Th. Габлер ГмбХ . стр. 201, 308. doi : 10.1007/978-3-663-13618-7. ISBN978-3-409-31831-0. Проверено 24 мая 2016 г. [...] плита , абк. aus syllable = Silbe, die kleinste adressierbare Informationseinheit für 12 bit zur Übertragung von zwei Alphazeichen или Drei numerischen Zeichen. (NCR) [...] Аппаратное обеспечение: Datenstruktur: NCR 315-100 / NCR 315-RMC; Слово: Силбе; Биты: 12; Байты: –; Дезимальзиферн: 3; Цайхен: 2; Gleitkommadarstellung: fest verdrahtet; Мантисс: 4 Силбена; Экспонента: 1 Зильбе (11 Стеллен + 1 Ворцайхен) [...] [ плита , сокр. для слога = слог, наименьшая адресуемая информационная единица для 12 бит для передачи двух буквенных символов или трех числовых символов. (NCR) [...] Аппаратное обеспечение: Структура данных: NCR 315-100 / NCR 315-RMC ; Длина слова : Слог ; Биты : 12; Байты : –; Десятичные цифры : 3; Символы: 2; Формат с плавающей точкой : жестко запрограммирован; Мантисса : 4 слога; Экспонента : 1 слог (11 цифр + 1 префикс)]
^ abcd Стандарт IEEE для архитектуры 32-битного микропроцессора. Институт инженеров по электротехнике и электронике, Inc. 1995. стр. 5–7 . doi :10.1109/IEEESTD.1995.79519. ISBN1-55937-428-4. Получено 2016-02-10 .(Примечание. Стандарт определяет дублеты, квадлеты, октеты и гекслеты как 2, 4, 8 и 16 байтов , указывая количество битов (16, 32, 64 и 128) только как вторичное значение. Это может быть важно, учитывая, что исторически байты не всегда понимались как 8 бит ( октеты ).)
^ Труды . Симпозиум по опыту работы с распределенными и многопроцессорными системами (SEDMS). Том 4. Ассоциация USENIX . 1993.
^ ab "1. Введение: Выравнивание сегментов". 8086 Family Utilities – Руководство пользователя для систем разработки на базе 8080/8085 (PDF) . Редакция E (A620/5821 6K DD ed.). Санта-Клара, Калифорния, США: Intel Corporation . Май 1982 [1980, 1978]. стр. 1-6. Номер заказа: 9800639-04. Архивировано (PDF) из оригинала 29.02.2020 . Получено 29.02.2020 .
^ "Термины и сокращения / 4.1 Пересечение границ страниц". Руководство по программированию на языке ассемблера MCS-4 – Руководство по программированию микрокомпьютерной системы INTELLEC 4 (PDF) (Предварительное издание). Санта-Клара, Калифорния, США: Intel Corporation . Декабрь 1973 г. стр. v, 2-6, 4-1. MCS-030-1273-1. Архивировано (PDF) из оригинала 01.03.2020 г. Получено 02.03.2020 г. [ ...] Бит – наименьшая единица информации, которая может быть представлена. (Бит может находиться в одном из двух состояний I 0 или 1). [...] Байт – группа из 8 смежных бит, занимающая одну ячейку памяти. [...] Символ – группа из 4 смежных бит данных. [...] программы хранятся либо в ПЗУ, либо в ОЗУ программ, оба из которых разделены на страницы . Каждая страница состоит из 256 8-битных ячеек. Адреса от 0 до 255 составляют первую страницу, 256-511 составляют вторую страницу и т. д. [...](Примечание. В этом руководстве по процессору Intel 4004 термин «символ» используется для обозначения 4-битных, а не 8-битных объектов данных . В своей документации для следующего процессора 4040 компания Intel перешла на использование более распространенного термина «полубайт» для 4-битных объектов еще в 1974 году.)
^ Брусенцов, Н. П.; Маслов, СП; Рамиль Альварес, Х.; Жоголев, Е. А. "Развитие троичных компьютеров в Московском государственном университете" . Получено 2010-01-20 .
^ США 4319227, Малиновский, Кристофер В.; Риндерле, Хайнц и Зигле, Мартин, «Трехуровневая система сигнализации», выпущено 9 марта 1982 г., передано AEG-Telefunken.
^ "US4319227". Google .
^ "US4319227" (PDF) . Изображения патентов .
Внешние ссылки
Представление числовых значений и единиц СИ в строках символов для обмена информацией