ГОСТ Р 58668.11-2019 (ИСО/МЭК 19794-13:2018). Национальный стандарт Российской Федерации. Информационные технологии. Биометрия. Форматы обмена биометрическими данными. Часть 11. Данные голоса
3 Термины и определения
В настоящем стандарте применены термины по ГОСТ ISO/IEC 2382-37 и ГОСТ ISO/IEC 19794-1, а также следующие термины с соответствующими определениями:
3.1 разрешение аналого-цифрового преобразователя; АЦП (analog-to-digital converter (ADC) resolution): Показатель основания 2 (число битов) числа дискретных уровней, которые АЦП может выдать на выходе.
Примечание - Типовые значения разрешения АЦП для звуковых карт: 8, 16, 20 и 24.
3.2 продолжительность звукозаписи (audio duration): Продолжительность полной звукозаписи, содержащей все фрагменты речи голосовых представлений, например полные записи звонков.
3.3 кодирование звукозаписи (audio encoding): Кодирование, используемое подсистемой сбора биометрических данных, например сотовым телефоном.
Примечания
1 Голосовой сигнал кодируется до передачи в канал. На сегодняшний день существует достаточное число форматов кодирования звукозаписи, и их число будет расти по мере развития телефонов и каналов передачи. Для кодирования звуковых волн используют форматы PCM (ITU-T G.711) и ADPCM (ITU-T G.726), для кодирования AbS используют форматы ACELP (ITU-T G.723.1) и CS-ACELP (ITU-T G.729, приложение A). Импульсно-кодовая модуляция с компандированием по A-характеристике (A-law PCM) и приведены (mu-law PCM) в ITU-T G.711.
2 Полный список форматов кодирования звукозаписи представлен в 7.4.3.2.
3.4 сжатие (compression): Процесс, уменьшающий размер цифрового файла и, соответственно, требуемую скорость передачи данных.
Примечание - Кодирование звукозаписи может включать или не включать сжатие. Сжатие практически всегда происходит с потерями, поэтому оно влияет на исходный голосовой сигнал.
3.5 граничная частота (нижняя/верхняя) [cut-off frequency (lower/upper)]: Частота (нижняя/верхняя), на которой звуковая (акустическая) энергия падает на 3 дБ ниже средней энергии в полосе пропускания.
3.6 дальнее звуковое поле (far-field): Область, достаточно удаленная от источника, где распределение углового поля не зависит от расстояния до источника.
3.7 интерактивная голосовая система/системы автоматического доступа к информации, минуя оператора (interactive voice response, IVR): Компьютер на основе телефонии, который используется для управления потоком телефонных звонков и обеспечения самообслуживания на основе голоса.
Примечания
1 Технология, позволяющая компьютеру определить голос и нажатия клавиш.
2 Интерактивные голосовые системы обрабатывают эффекты реального мира и неестественного содержания [эмоциональные голоса; различные шумы окружающей среды; запись свободной речи с очень распространенными словами (например, "да", "нет", цифры, ключевые слова)].
3 Интерактивные голосовые системы применяют технологию автоматического распознавания речи (ASR) для навигации пользователя вместе с технологией идентификации и верификации диктора (SIV) в различных приложениях для обеспечения безопасности. Например, при осуществлении финансовых операций с помощью телефона. Интерактивные голосовые системы могут объединять технологию ASR и технологию SIV для обнаружения аудио повторов и витальности пользователя с использованием информации, которая должна быть произнесена и генерируется в установленный момент времени.
3.8 микрофон (microphone): Подсистема сбора биометрических данных, которая преобразует акустическую волну, излучаемую голосом, в электрический сигнал.
3.9 среднее звуковое поле (mid-field): Область между ближним и дальним звуковыми полями, которая имеет сочетание характеристик ближнего и дальнего звуковых полей.
3.10 ближнее звуковое поле/поле в зоне индукции (near-field): Область, в которой прямая энергия на микрофоне от первичного источника больше, чем отраженная энергия от этого источника.
Примечание - В поле произвольных размеров ближнее звуковое поле - область, достаточно близкая к источнику, распределение угловой энергии которой зависит от расстояния от источника.
3.11 коммутируемая телефонная сеть общего пользования (public switched telephone network): Технология на базе канала, используемая для коммутации аналогового сигнала, обычно телефонные звонки через сеть от источника, такого как телефон, к пункту назначения, такому как другой телефон.
Примечание - Информация о канале, касающаяся места происхождения телефонного звонка, является полезной, так как исторически шум и другие характеристики канала различаются в разных странах. Появление и развитие VoIP и других цифровых телефонных сетей ослабило влияние национальных телекоммуникационных сетей, так как новые технологии не ограничены национальными границами.
3.12 продолжительность представления (representation duration): Продолжительность фрагмента речи одного голосового представления.
3.13 частота дискретизации (sampling rate): Число отсчетов в секунду (или в другую единицу измерения), полученных из непрерывного сигнала и используемых для получения дискретного сигнала.
Примечания
1 Единица частоты дискретизации - герц (Гц), для частоты дискретизации в секунду.
2 Частота дискретизации равна частоте квантования.
3 Частота дискретизации должна удовлетворять частотному критерию устойчивости Найквиста.
3.14 сессия (session): Единый процесс сбора биометрических данных, который выполняется в течение одного непрерывного периода времени.
Примечание - При сборе баз данных 2 сессии должны быть разнесены по времени от 3 до 6 недель, так чтобы могла быть собрана неактуальная речь. Однако в области биометрических систем сессия может интерпретироваться как время записи одного или нескольких образцов без покидания субъектом сбора биометрических данных места расположения устройства сбора биометрических данных, то есть сессия заканчивается при прохождении контрольного этапа/границы, в то время как в течение одной сессии могут происходить множественные отказы.
3.15 отношение "сигнал-шум" (signal-to-encoding noise ratio, SNR): Отношение полезного сигнала к шуму, возникающему в результате возможных электронных источников шума.
Примечания
1 Отношение "сигнал-шум" SNR, дБ, вычисляют по формуле
, (1)
где Ps - средняя мощность сигнала, вычисляемая по формуле
, (2)
Pn - средняя мощность шума, вычисляемая по формуле
, (3)
где N - общее число цифровых отсчетов.
Пример - В кодово-импульсной модуляции (PCM) шум вызывается квантованием и приблизительно рассчитывается в соответствии с [1]:
SNR = 6B - 7,2,
где B - биты квантования.
3.16 идентификация диктора (speaker identification): Форма распознавания диктора, при которой голосовой образец сравнивается с набором биометрических (голосовых) контрольных шаблонов, принадлежащих разным людям, для определения одного, кто говорил.
3.17 распознавание диктора (speaker recognition): Процесс определения, были ли два речевых сегмента произведены голосовым аппаратом одного и того же субъекта биометрических данных.
3.18 верификация диктора (speaker verification): Форма распознавания диктора при которой принимается решение о принадлежности голосового образца индивиду, чья личность была заявлена.
Примечание - Верификация диктора в основном используется для ограничения доступа к информации, объектам или помещениям.
3.19 идентификация и верификация диктора (speaker identification and verification, SIV): Процесс автоматического распознавания индивидов с помощью голоса.
Примечание - Сам формат данных не зависит от типа приложения (активный/пассивный SIV).
3.20 голос/речь (voice/speech): Звук, производимый голосовым аппаратом во время разговора.
Примечания
1 Обычно определяется фонетистами как звук, который исходит от губ и ноздрей, который включает в себя "звонкие" и "глухие" звуки, образовываемые вибрацией голосовых складок и в сужениях вокального тракта и изменяемые динамическими характеристиками акустической передачи вокального тракта.
2 В настоящем стандарте термины "голос" (voice) и "речь" (speech) имеют равнозначное значение.
3.21 ширина полосы частот речевого сигнала (speech signal bandwidth): Диапазон речевых частот между верхней и нижней частотами среза, передаваемых или записываемых системой.
3.22 распознавание речи/автоматическое распознавание речи (speech recognition/automatic speech recognition): Преобразование речевого сигнала с помощью функциональной единицы в представление содержания речи.
Примечание - Распознаваемое содержимое может быть выражено в виде корректной последовательности слов или фонем.
3.23 потоковые данные (streaming data): Последовательность закодированных когерентных сигналов (пакетов данных), используемых для передачи или получения информации.
3.24 текстонезависимое распознавание диктора/текстонезависимая система распознавания (text-independent recognizer/text-independent recognition system): Распознавание речи, которое работает надежно вне зависимости от того, соответствует ли получаемый образец речи преопределенному сообщению.
3.25 текстозависимое распознавание диктора/текстозависимая система распознавания (text-dependent recognizer/text-dependent recognition system): Распознавание речи, которое работает надежно, только когда получаемый образец речи соответствует преопределенному сообщению.
3.26 "запрос текста"/текстовая подсказка (text prompted): Технология идентификации и верификации диктора (SIV), которая делает запрос субъекту сбору биометрических данных повторить последовательность, представленную системой SIV, или ответить на вопрос.
Примечания
1 Синонимом термина является "вопрос-ответ".
2 "Запрос текста" часто рассматривается как разновидность взаимодействия текстонезависимого распознавания диктора.
3.27 фрагмент речи (utterance): Последовательность единиц непрерывной речи (например, фонем, слогов, слов), ограниченных молчанием.
3.28 голосовая связь по IP-протоколу (voice over IP): Оцифрованная потоковая передача речи по каналам передачи данных в виде пакетов Интернет-протокола.
3.29 голосовой ответ/голосовая подсказка (voice prompt/voice-response prompt): Голосовое сообщение для инструктажа пользователя через диалог в системе голосового ответа.
3.30 голосовое представление (voice representation, VR): Один или более фрагментов речи.
3.31 уровень громкости (volume): Вычисление громкости входного сигнала (включая речь).
Примечания
1 Когда известно, уровень громкости выражается в терминах алгоритма P.56 Международного союза электросвязи [2].
2 Уровень громкости является фактором качества входных фрагментов речи.
