В этой статье есть несколько проблем. Помогите улучшить ее или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти сообщения )
|
PlainTalk — это собирательное название для нескольких технологий синтеза речи ( MacinTalk ) и распознавания речи , разработанных Apple Inc. В 1990 году Apple вложила много труда и денег в технологию распознавания речи, наняв множество исследователей в этой области. Результатом стал «PlainTalk», выпущенный с моделями AV в серии Macintosh Quadra с 1993 года. Он был сделан стандартным системным компонентом в System 7 .1.2 и с тех пор поставляется на всех PowerPC и некоторых 68k Macintosh.
Преобразование текста в речь Apple использует дифоны . По сравнению с другими методами синтеза речи, это не очень ресурсоемко, но ограничивает то, насколько естественным может быть синтез речи . Доступны версии на американском английском и испанском языках , но с появлением Mac OS X Apple поставляла только голоса на американском английском, полагаясь на сторонних поставщиков, таких как Acapela Group, для поставки голосов для других языков (в OS X 10.7 Apple лицензировала множество сторонних голосов и сделала их доступными для загрузки в панели управления речью).
Интерфейс прикладного программирования, известный как Speech Manager, позволяет сторонним разработчикам использовать синтез речи в своих приложениях. Существуют различные последовательности управления, которые можно использовать для тонкой настройки интонации и ритма. Громкость , высота тона и скорость речи также можно настроить, что позволяет петь.
Входные данные в синтезатор можно контролировать явно с помощью специального алфавита фонем.
Первоначальный движок преобразования текста в речь для Macintosh, MacinTalk (названный Дениз Чандлер), использовался Apple в 1984 году при представлении Macintosh , когда компьютер заявил о себе миру (и высмеял вес компьютера IBM). Хотя он был включен в операционную систему Macintosh, официально Apple его не поддерживала (хотя информация о программировании была доступна через Техническую записку Apple [1] [2] ). MacinTalk был разработан Джозефом Кацем и Марком Бартоном, которые позже основали SoftVoice, Inc., которая в настоящее время продает движки TTS для Windows, Linux и встроенных платформ. MacinTalk использовал прямой доступ к оригинальному звуковому оборудованию Macintosh, и все попытки лицензировать исходный код Apple для его обновления для новых Mac потерпели неудачу. [3] [4]
В конце концов Apple выпустила поддерживаемую систему синтеза речи, названную MacinTalk 2. Она поддерживает любой Macintosh с System Software 6.0.7 или более поздней версии. Она оставалась рекомендуемой версией для более медленных машин даже после выпуска MacinTalk 3 и Pro.
MacinTalk 3 представил большое разнообразие голосов. Помимо стандартных взрослых голосов «Ральф», «Фред» и «Кэти», а также детских голосов, таких как «Принцесса» (переименованная в «Суперзвезда» в macOS Ventura ) и «Джуниор», были включены различные новые голоса, такие как «Шепот», «Зарвокс» (роботизированный голос с мелодичными фоновыми звуками, с похожим голосом под названием «Триноиды»), «Виолончели» (голос, который пел свой текст на мелодию Эдварда Грига , также известную как «В пещере горного короля» с похожими поющими голосами, такими как «Хорошие новости», «Плохие новости», «Орган»), «Альберт» (хриплый голос), «Колокольчики», «Боинг», «Пузырьки» и другие.
Каждый из этих голосов имел свой собственный пример текста, который звучал при нажатии кнопки «Тест» на панели управления речью. Некоторые просто называли свое имя, язык и версию MacinTalk, с которой они были введены. Другие говорили забавные вещи, например: «Мне очень нравится находиться внутри этого модного компьютера», «У меня в горле лягушка... Нет, я имею в виду настоящую лягушку!», «Мы должны радоваться этому болезненному голосу» (пародия на западный церковный гимн с органной музыкой ) или «Свет, который вы видите в конце туннеля, — это фары быстро приближающегося поезда». Эти голоса все еще есть в macOS сегодня. (Некоторые имена голосов и их тестовые тексты были изменены в macOS Ventura , а затем все их тестовые тексты были изменены в macOS Sonoma на «Привет, меня зовут [имя голоса]»).
С ростом вычислительной мощности, которую обеспечивали AV Mac и Macintosh на базе PowerPC, Apple могла позволить себе повысить качество синтеза. MacinTalk 3 требовал процессор 68030 с частотой 33 МГц , а MacinTalk Pro требовал 68040 или лучше и не менее 1 МБ оперативной памяти . Каждый синтезатор поддерживал разный набор голосов.
Функция преобразования текста в речь была частью каждой версии Mac OS X (позднее macOS). Голос Виктории был значительно улучшен в Mac OS X v10.3 и добавлен как Вики (Виктория не была удалена). Его размер был почти в 20 раз больше из-за использования более качественных дифонических сэмплов.
С выпуском Mac OS X 10.5 Leopard в список голосов для преобразования текста в речь на компьютерах Mac был добавлен новый, гораздо более естественно звучащий голос под названием «Алекс» . [5]
В Mac OS X 10.7 Lion голоса доступны на дополнительных акцентах американского английского и других английских языках, а также на 21 другом языке. [6]
Функция « Озвучить выбранный текст при нажатии клавиши» позволяет читать выбранный текст из любого приложения с помощью комбинации клавиш. С Mac OS X 10.1 по Mac OS X 10.6 эта функция копировала выбранный текст в буфер обмена и читала его оттуда. С Mac OS X 10.7 по Mac OS X 10.10 новая реализация этой функции требовала от разработчиков программного обеспечения внедрения API синтеза речи в свои приложения. [7] [8] Это предотвращало перезапись буфера обмена, но также означало, что для приложений, не использующих API, эта функция не работала должным образом, читая строку заголовка, а не выбранный текст. [9] [10]
В macOS Sierra 10.12 Siri была представлена для Mac, однако голос не был доступен как системный голос, что означало, что голоса Siri можно было использовать только в Siri. Siri стала доступна как системный голос в macOS Catalina 10.15, так что она могла работать с любым текстом. Голоса Siri работают совершенно по-другому, и say
команда по-прежнему не может использовать Siri.
В обновлении macOS Big Sur 11.3 гендерные ссылки для всех голосов были удалены, что совпало с изменением голосов Siri в iOS 14.5 и macOS 11.3 и более поздних версиях в рамках усилий Apple по продвижению гендерной инклюзивности.
Apple наняла множество исследователей распознавания речи в 1990 году. Примерно через год они продемонстрировали технологию под кодовым названием Casper. Она была выпущена как часть пакета PlainTalk в 1993 году. Хотя она была доступна для всех компьютеров PowerPC Macintosh и AV 68k (это было одно из немногих приложений, которые использовали DSP в Centris 660AV и Quadra 840AV ), она не была частью установки системы по умолчанию до Mac OS X, требуя от пользователя выполнения пользовательской установки ОС, чтобы получить возможности распознавания речи.
В Mac OS X 10.7 Lion и более ранних версиях распознавание речи Apple было ориентировано только на голосовые команды, т. е. не предназначалось для диктовки. Его можно настроить на прослушивание команд при нажатии горячей клавиши, после обращения к нему с помощью фразы активации, например «Компьютер» или «Macintosh», или без подсказки. Графический монитор состояния, часто в виде анимированного персонажа, обеспечивает визуальную и текстовую обратную связь о состоянии прослушивания, доступных командах и действиях. Он также может общаться с пользователем с помощью синтеза речи.
Ранние версии распознавания речи обеспечивали полный доступ к меню. Эта поддержка была позже удалена, поскольку требовала слишком много ресурсов и делала распознавание менее надежным, только чтобы быть повторно добавленной в Mac OS X 10.3 как «универсальная технология доступа», называемая разговорным пользовательским интерфейсом.
Пользователь может запускать элементы, расположенные в специальной папке, называемой «Speakable Items», просто произнося их название (пока система находится в режиме прослушивания ). Apple поместила в эту папку ряд AppleScripts , но псевдонимы , документы и папки можно открывать таким же образом.
Дополнительные функции предоставляются отдельными приложениями. Интерфейс программирования приложений позволяет программам определять и изменять доступный словарь . Например, Finder предоставляет словарь для управления файлами и окнами .
В OS X 10.8 Mountain Lion компания Apple представила «Диктовку, [11] », предназначенную для общего текста. Первоначально она требовала отправки аудиоданных на серверы Apple для обработки. В OS X 10.9 Mavericks компания Apple добавила возможность загрузки поддержки диктовки без подключения к Интернету. Начиная с OS X 10.9.3 поддерживаются восемь языков (19 диалектов).
Apple выпустила два микрофона под названием «Apple PlainTalk Microphone». [ требуется цитата ] Первый поставлялся в комплекте с Macintosh LC и ранними моделями Performa и имел круглую форму. Он был разработан для установки в держатель, прикрепленный к боковой стороне ЭЛТ-дисплея , и его можно было вынимать и держать ртом во время разговора. [ требуется цитата ] Вторая модель была представлена вместе с моделями AV в серии Macintosh Quadra в 1993 году, но также продавалась отдельно. Он был разработан для размещения на верхней части экрана и был чувствителен к звуку спереди. Обе модели имели более длинный разъем, кончик которого использовался для подачи на микрофон напряжения смещения .
Результатом этой работы стал MacinTalk. MacinTalk — это файл, который можно поместить в системную папку обычного компьютера Macintosh и преобразовать текст в речь для представления в 1984 году. Это показалось интересным программным обеспечением, поэтому Apple сделала его доступным для разработчиков. Интерфейсы к MacinTalk были опубликованы, и Apple Software Licensing разрешила включать его в продукты разработчиков. Первоначальный проект состоял в том, чтобы получить речевой драйвер для Macintosh, но он не включал получение исходного кода этого драйвера. Apple имеет только то, что она дает разработчикам: файл, который нужно скопировать в системную папку, и этот файл нельзя изменить, поскольку у Apple нет исходного кода. [Оригинальный] MacinTalk работает, используя задачу VBL для записи данных непосредственно на звуковое оборудование логических плат Macintosh Plus и SE — метод, который Apple не поддерживает. Только благодаря усилиям Sound Manager программное обеспечение, которое записывает данные непосредственно на это звуковое оборудование, продолжает работать. MacinTalk продолжает записывать данные на аппаратные адреса материнской платы Macintosh 128K, но Sound Manager и Apple Sound Chip работают вместе, чтобы программы, подобные MacinTalk, могли продолжать работать на новых машинах. Sound Manager и Apple Sound Chip [ASC] были представлены вместе с Macintosh II. Sound Manager отслеживает аппаратные адреса, которые раньше присутствовали на Macintosh. Когда Sound Manager обнаруживает активность на одном из этих адресов, он переходит в режим «совместимости». В этом режиме он направляет данные на реальное звуковое оборудование, но пока это происходит, правильный код Sound Manager не может работать — даже _SysBeep Sound Manager не работает, когда используется MacinTalk. Более того, режим совместимости нельзя отключить, пока приложение, которому он требуется, не вызовет _ExitToShell. Даже приложение, которое правильно использует звук, с правильным кодом, не работает, если другое приложение открывает драйвер MacinTalk. Решений этой несовместимости нет... Другими словами, если вы находите MacinTalk интересным и развлекательным — вперед, покупайте его. Пишите код и наслаждайтесь. Однако имейте в виду, что MacinTalk не должен быть включен в состав какого-либо коммерческого продукта. Apple Computer, Inc. не предоставляет никакой поддержки MacinTalk, кроме той, которая приобретается вместе с самим пакетом, и поддержки не будет в будущем. Apple стремится предоставить сообществу разработчиков набор речевых технологий, интегрированных с Sound Manager... Больше ничего не будет сделано [с оригинальным MacinTalk]. Это риск совместимости... приводит к сбою Sound Manager... не будет работать с новым Sound Manager, запланированным для System 7.0... может вообще не работать с будущими версиями оборудования Macintosh. ....#000: О технических заметках Macintosh.... Мы не накладываем никаких ограничений на копирование технических заметок, за исключением того, что вы не можете их перепродавать, так что читайте, наслаждайтесь и делитесь.Мы надеемся, что «Технические заметки Macintosh» предоставят вам массу ценной информации при разработке аппаратного и программного обеспечения для Macintosh.Альтернативный URL-адрес
say
)