ГОСТ Р 58668.11-2019 (ИСО/МЭК 19794-13:2018). Национальный стандарт Российской Федерации. Информационные технологии. Биометрия. Форматы обмена биометрическими данными. Часть 11. Данные голоса
7.4 Блок "Заголовок представления"
7.4.1 Общие требования
Заголовок представления является дочерним блоком элемента процесса сбора биометрических данных, который содержит элементы и поля, которые могут меняться в процессе сбора биометрических данных. Для каждого процесса сбора биометрических данных должно быть не менее одного представления. Структура блока "Заголовок представления" приведена в таблице 6.
Примечание - В элементах VR не рассматривается информация об произносимом тексте, языке, диалектах или поле субъекта сбора биометрических данных. Если эта или другая информация может способствовать процессу распознавания, аналитики могут использовать программное обеспечение ASR, автоматическое распознавание языка (ALR <*>) или автоматическое определение пола (AGD <**>).
--------------------------------
<*> Automatic Language Recognition.
<**> Automatic Gender Detection.
Таблица 6
Структура блока "Заголовок представления"
Элемент | Пункт | Тип данных | Допустимые значения | Обязательное/необязательное |
DateAndTime (дата и время регистрации) | 7.4.2 | DateAndTimeType | См. таблицу 7 | Необязательное |
AudioContent (аудиоматериал) | 7.4.3 | AudioContentType | См. таблицу 8 | Обязательное |
Quality (качество) | 7.4.4 | VRQualityType | См. таблицу 10 | Необязательное |
SignalEnhancement (усиление уровня сигнала) | 7.4.5 | string | Длина строки не ограничена | Необязательное |
ExtendedVendorData (дополнительные данные разработчика) | 7.4.6 | VendorSpecific DataType | См. ГОСТ ISO/IEC 19794-1, максимальное значение - 256 | Необязательное |
7.4.2 Элемент DateAndTime (дата и время регистрации)
7.4.2.1 Общие требования
Элемент DateAndTime должен содержать информацию о дате и времени начала и завершения записи голоса. Время начала записи голоса считается "временем сбора данных". Спецификация времени должна соответствовать WC3 - XML 1.0. Структура данного элемента приведена в таблице 7.
Таблица 7
Структура элемента DateAndTime (дата и время)
Элемент | Подпункт | Тип данных | Допустимые значения | Обязательное/необязательное |
Start (дата и время начала записи голоса) | 7.4.2.2 | dateTime | См. ГОСТ ISO/IEC 19794-1 | Необязательное |
End (дата и время завершения записи голоса) | 7.4.2.3 | dateTime | См. ГОСТ ISO/IEC 19794-1 | Необязательное |
VoiceStartTime (время начала голосового фрагмента) | 7.4.2.4 | dateTime | Встроенный тип | Необязательное |
VoiceEndTime (время завершения голосового фрагмента) | 7.4.2.5 | dateTime | Встроенный тип | Необязательное |
VoiceElapsedTime (длительность звучащей речи) | 7.4.2.6 | time | Встроенный тип | Необязательное |
7.4.2.2 Элемент Start (дата и время начала записи голоса)
Элемент Start должен содержать дату и время, когда была начата запись голоса, в соответствии с ГОСТ ИСО 8601. Время начала считается временем сбора записи голоса согласно 7.5.
7.4.2.3 Элемент End (дата и время завершения записи голоса)
Элемент End должен содержать дата и время, когда была завершена запись голоса. Из-за возможного использования программного обеспечения для обнаружения активности длина аудиоданных в представлении может быть короче разницы между временем начала и окончания.
7.4.2.4 Элемент VoiceStartTime (время начала голосового фрагмента)
Элемент VoiceStartTime должен содержать информацию о времени начала голосового фрагмента на записи.
7.4.2.5 Элемент VoiceEndTime (время завершения голосового фрагмента)
Элемент VoiceEndTime должен содержать информацию о времени завершения голосового фрагмента на записи.
7.4.2.6 Элемент VoiceElapsedTime (длительность звучащей речи)
Элемент VoiceElapsedTime должен содержать информацию о длительности звучащей речи. В случае спонтанной/свободной или разговорной речи или характеристиками являются время начала и окончания разговора.
7.4.3 Элемент AudioContent (аудиоматериал)
7.4.3.1 Общие требования
Элемент AudioContent содержит подробную информацию о аудиоматериале, содержащемся на записи, включая обязательную информацию о формате аудиокодирования, продолжительности записи в секундах и информации о типе разговора на записи (если известно), уровне громкости и оценке SNR. Элемент AudioContent является составным. Структура элемента AudioContent приведена в таблице 8.
Примечание - Вербализованный текст субъекта сбора биометрических данных не включается в формат данных, поскольку он может содержать конфиденциальные данные. Таким образом, не учитываются ни результаты анализа систем ASR, ни фактический вербализованный текст. Однако система ASR может быть использована в качестве подсистемы для SIV.
Таблица 8
Структура элемента AudioContent
Элемент | Подпункт | Тип данных | Допустимые значения | Обязательное/необязательное |
AudioEncoding (формат аудиокодирования) | 7.4.3.2 | string | "Linear PCM", "Mu-Law", "A-Law", "Non-streaming OGG Vorbis", "Speex", "ADPCM", "CS-ACELP", "PCM", "AMR", "ILBC", "MPEG", "AC3", "AAC", "AMR", "APE", "FLAC", "MMF", "M4A", "MP2", "MP3", "MP4", "RA", "Full-HD Voice", "other", "unknown" | Обязательное |
Duration (продолжительность) | 7.4.3.3 | numeric | Встроенный тип | Обязательное |
Conversation (тип разговора) | 7.4.3.4 | complex | "Unknown", "Spontaneous/Free", "Reading", "Prompt", "Conversational", "Other", Если "Prompt", см. таблицу 9 | Необязательное |
DominantLanguage (доминирующий язык) | 7.4.3.5 | string | Трехсимвольная строка | Необязательное |
7.4.3.2 Элемент AudioEncoding (формат аудиокодирования)
Каждое VR должно содержать информацию о формате аудиокодирования для хранимых данных из множества допустимых значений.
Допустимые значения элемента AudioEncoding: Linear PCM (линейная PCM), Mu-Law, A-Law, non-streaming OGG Vorbis (непотоковый OGG Vorbis), Speex, ADPCM, CS-ACELP, PCM, AMR, ILBC, MPEG, AC3, AAC, AMR, APE, FLAC, MMF, M4A, MP2, MP3, MP4, RA, Full-HD Voice, "other" (другой) или "unknown" (неизвестно).
7.4.3.3 Элемент Duration (продолжительность)
Элемент Duration содержит информацию об общем времени представления в виде целого числа в миллисекундах. Конечный результат должен позволять обратно вычислять частоту дискретизации.
7.4.3.4 Элемент Conversation (тип разговора)
Элемент Conversation содержит информацию о типе разговора. Допустимыми значениями являются "Unknown" (неизвестно), "Spontaneous/Free" (спонтанный/свободный), "Reading" (чтение), "Prompt" (подсказка), "Conversational" (разговорный) и "Other" (другой).
Если указано значение "Prompt", то элемент становится составным, структура в этом случае приведена в таблице 9. Составная структура включает в себя допустимые значения элементов StringPromptContent (содержимое запроса строк) и/или AudioPromptContent (содержимое звуковых подсказок). Элемент StringPromptContent должен содержать текст подсказки, если он известен. Если была использована звуковая подсказка, и доступен URL-адрес, содержащий эту звуковую подсказку, то элемент AudioPromptContent должен указывать URL-адрес звуковой подсказки или зависимого идентификатора, если это известно. Возможно, что будут доступны и файл, и транскрипция звуковой подсказки. В этом случае оба поля имеют контент.
Таблица 9
Структура элемента ConversationRoot, если элемент
Conversation имеет значение "Prompt" (подсказка)
Элемент | Подпункт | Тип данных | Допустимые значения | Обязательное/необязательное |
StringPromptContent (содержимое запроса строк) | 7.4.3.4 | string | Длина строки не ограничена | Необязательное |
AudioPromptContent (содержимое звуковых подсказок) | URL | Длина URL не ограничена | Необязательное |
7.4.3.5 Элемент DominantLanguage (доминирующий язык)
Элемент DominantLanguage содержит информацию о доминирующем языке в VR. Идентификатор доминирующего языка должен быть представлен в виде строки в соответствии с кодами [3] и [4].
7.4.4 Элемент QualityInformation (информация о качестве)
7.4.4.1 Общие требования
Данный элемент содержит подробную информацию о качестве аудиозаписи VR, включая обязательную информацию о условиях сбора биометрических данных и о проведенной постобработке сигнала. Структура элемента QualityInformation приведена в таблице 10.
Таблица 10
Структура элемента QualityInformation
(Информация о качестве)
Элемент | Подпункт | Тип данных | Допустимые значения | Обязательное/необязательное |
Quality (качество) | 7.4.4.2 | QualityType | См. ГОСТ ISO/IEC 19794-1 | Обязательное |
Field (звуковое поле) | 7.4.4.3 | string | "Near-field" (ближнее звуковое поле), "Mid-field" (среднее звуковое поле), "Far-field" (дальнее звуковое поле), "Other" (другое), "Unknown" (неизвестно) | Необязательное |
MicrophoneDistance (расстояние до микрофона) | 7.4.4.4 | string | "Close" (близкое), "Mid-range" (среднее), "Far" (дальнее) | Необязательное |
Volume (уровень громкости) | 7.4.4.5 | float | Встроенный тип | Необязательное |
SNR (отношение "сигнал-шум") | 7.4.4.6 | float | Встроенный тип | Необязательное |
7.4.4.2 Элемент Quality (качество)
Данный элемент содержит информацию о качестве биометрических данных и о алгоритме оценки качества, который был использован.
Если оценка качества не проводилась, то элемент Quality отсутствует. Минимальное значение элемента Quality - 0 (minOccurs=0).
7.4.4.3 Элемент Field (звуковое поле)
Элемент Field должен содержать информацию о звуковом поле. Допустимые значения:
- Near-field (ближнее звуковое поле),
- Mid-field (среднее звуковое поле),
- Far-field (дальнее звуковое поле),
- Other (другое),
- Unknown (неизвестно).
По умолчанию должно быть установлено значение "Near-field".
Примечание - "Ближнее звуковое поле" и другие указанные термины являются общими характеристиками звукового поля (см. раздел 3). "Среднее звуковое поле" используется в беспроводных наушниках и других микрофонах телефонов. Указанная классификация предпочтительнее указания фактического расстояния в численном виде, поскольку, как правило, невозможно получить такую детальную информацию.
7.4.4.4 Элемент MicrophoneDistance (расстояние до микрофона)
Элемент MicrophoneDistance должен содержать информацию о расстоянии до микрофона.
Допустимые значения:
- "Close" (близкое): случай использования гарнитуры, то есть оборудования со встроенным динамиком/микрофоном, в котором голос становится слышимым при расстоянии между гарнитурой и ухом от 0,05 до 0,15 м.
- "Mid-range" (среднее): случай использования микрофона, телефона (на громкой связи) или планшета, то есть использования микрофона не в пределах диапазона "Near-field" (ближнее звуковое поле), а с руки говорящего на расстоянии от 0,1 до 0,5 м.
- "Far" (дальнее): случай использования микрофона за пределами диапазона руки диктора (более 0,5 м).
7.4.4.5 Элемент Volume (уровень громкости)
Если значение известно, то оно должно быть выражено в терминах алгоритма P.56 Международного союза электросвязи [2]. Если значение неизвестно, то должно быть установлено значение "Unknown" (неизвестно).
7.4.4.6 Элемент SNR (отношение "сигнал-шум")
Элемент SNR является необязательным. Используется, если шум кодирования был учтен при расчете отношения "сигнал-шум" (SNR) для каждого VR.
7.4.5 Элемент SignalEnhancement (усиление уровня сигнала)
Усиление уровня сигнала является предварительной обработкой речевого сигнала. Элемент SignalEnhancement содержит информацию о проведенной предварительной обработке сигнала. Усиление уровня сигнала может увеличить или уменьшить вероятность распознавания. Должно быть указано, какой тип усиления уровня сигнала, если применялся, был применен к речевому сигналу.
Типовые примеры предварительной обработки, направленные на усиление речевого сигнала:
a) подавление шума;
b) подавление отраженных сигналов;
c) эхоподавление;
d) активная защита от помех;
e) выделение речи (включая результат обработки микрофона);
f) автоматическая регулировка усиления (AGC <*>);
--------------------------------
<*> AGC - Automatic gain control.
g) частотная коррекция, фильтрация, предварительное выделение;
h) дереверберация (удаление реверберации);
i) разметка завершения;
j) удаление тишины;
k) другие варианты предварительной обработки.
7.4.6 Дополнительные данные разработчика
Дополнительные данные разработчика добавляются к основной записи в случае, когда необходимо добавить нестандартизированные проприетарные данные разработчика/продукта.
