ГОСТ Р 58668.11-2019 (ИСО/МЭК 19794-13:2018). Национальный стандарт Российской Федерации. Информационные технологии. Биометрия. Форматы обмена биометрическими данными. Часть 11. Данные голоса

7.4 Блок "Заголовок представления"

7.4.1 Общие требования

Заголовок представления является дочерним блоком элемента процесса сбора биометрических данных, который содержит элементы и поля, которые могут меняться в процессе сбора биометрических данных. Для каждого процесса сбора биометрических данных должно быть не менее одного представления. Структура блока "Заголовок представления" приведена в таблице 6.

Примечание - В элементах VR не рассматривается информация об произносимом тексте, языке, диалектах или поле субъекта сбора биометрических данных. Если эта или другая информация может способствовать процессу распознавания, аналитики могут использовать программное обеспечение ASR, автоматическое распознавание языка (ALR <*>) или автоматическое определение пола (AGD <**>).

--------------------------------

<*> Automatic Language Recognition.

<**> Automatic Gender Detection.

Таблица 6

Структура блока "Заголовок представления"

Элемент	Пункт	Тип данных	Допустимые значения	Обязательное/необязательное
DateAndTime (дата и время регистрации)	7.4.2	DateAndTimeType	См. таблицу 7	Необязательное
AudioContent (аудиоматериал)	7.4.3	AudioContentType	См. таблицу 8	Обязательное
Quality (качество)	7.4.4	VRQualityType	См. таблицу 10	Необязательное
SignalEnhancement (усиление уровня сигнала)	7.4.5	string	Длина строки не ограничена	Необязательное
ExtendedVendorData (дополнительные данные разработчика)	7.4.6	VendorSpecific DataType	См. ГОСТ ISO/IEC 19794-1, максимальное значение - 256	Необязательное

7.4.2 Элемент DateAndTime (дата и время регистрации)

7.4.2.1 Общие требования

Элемент DateAndTime должен содержать информацию о дате и времени начала и завершения записи голоса. Время начала записи голоса считается "временем сбора данных". Спецификация времени должна соответствовать WC3 - XML 1.0. Структура данного элемента приведена в таблице 7.

Таблица 7

Структура элемента DateAndTime (дата и время)

Элемент	Подпункт	Тип данных	Допустимые значения	Обязательное/необязательное
Start (дата и время начала записи голоса)	7.4.2.2	dateTime	См. ГОСТ ISO/IEC 19794-1	Необязательное
End (дата и время завершения записи голоса)	7.4.2.3	dateTime	См. ГОСТ ISO/IEC 19794-1	Необязательное
VoiceStartTime (время начала голосового фрагмента)	7.4.2.4	dateTime	Встроенный тип	Необязательное
VoiceEndTime (время завершения голосового фрагмента)	7.4.2.5	dateTime	Встроенный тип	Необязательное
VoiceElapsedTime (длительность звучащей речи)	7.4.2.6	time	Встроенный тип	Необязательное

7.4.2.2 Элемент Start (дата и время начала записи голоса)

Элемент Start должен содержать дату и время, когда была начата запись голоса, в соответствии с ГОСТ ИСО 8601. Время начала считается временем сбора записи голоса согласно 7.5.

7.4.2.3 Элемент End (дата и время завершения записи голоса)

Элемент End должен содержать дата и время, когда была завершена запись голоса. Из-за возможного использования программного обеспечения для обнаружения активности длина аудиоданных в представлении может быть короче разницы между временем начала и окончания.

7.4.2.4 Элемент VoiceStartTime (время начала голосового фрагмента)

Элемент VoiceStartTime должен содержать информацию о времени начала голосового фрагмента на записи.

7.4.2.5 Элемент VoiceEndTime (время завершения голосового фрагмента)

Элемент VoiceEndTime должен содержать информацию о времени завершения голосового фрагмента на записи.

7.4.2.6 Элемент VoiceElapsedTime (длительность звучащей речи)

Элемент VoiceElapsedTime должен содержать информацию о длительности звучащей речи. В случае спонтанной/свободной или разговорной речи или характеристиками являются время начала и окончания разговора.

7.4.3 Элемент AudioContent (аудиоматериал)

7.4.3.1 Общие требования

Элемент AudioContent содержит подробную информацию о аудиоматериале, содержащемся на записи, включая обязательную информацию о формате аудиокодирования, продолжительности записи в секундах и информации о типе разговора на записи (если известно), уровне громкости и оценке SNR. Элемент AudioContent является составным. Структура элемента AudioContent приведена в таблице 8.

Примечание - Вербализованный текст субъекта сбора биометрических данных не включается в формат данных, поскольку он может содержать конфиденциальные данные. Таким образом, не учитываются ни результаты анализа систем ASR, ни фактический вербализованный текст. Однако система ASR может быть использована в качестве подсистемы для SIV.

Таблица 8

Структура элемента AudioContent

Элемент	Подпункт	Тип данных	Допустимые значения	Обязательное/необязательное
AudioEncoding (формат аудиокодирования)	7.4.3.2	string	"Linear PCM", "Mu-Law", "A-Law", "Non-streaming OGG Vorbis", "Speex", "ADPCM", "CS-ACELP", "PCM", "AMR", "ILBC", "MPEG", "AC3", "AAC", "AMR", "APE", "FLAC", "MMF", "M4A", "MP2", "MP3", "MP4", "RA", "Full-HD Voice", "other", "unknown"	Обязательное
Duration (продолжительность)	7.4.3.3	numeric	Встроенный тип	Обязательное
Conversation (тип разговора)	7.4.3.4	complex	"Unknown", "Spontaneous/Free", "Reading", "Prompt", "Conversational", "Other", Если "Prompt", см. таблицу 9	Необязательное
DominantLanguage (доминирующий язык)	7.4.3.5	string	Трехсимвольная строка	Необязательное

7.4.3.2 Элемент AudioEncoding (формат аудиокодирования)

Каждое VR должно содержать информацию о формате аудиокодирования для хранимых данных из множества допустимых значений.

Допустимые значения элемента AudioEncoding: Linear PCM (линейная PCM), Mu-Law, A-Law, non-streaming OGG Vorbis (непотоковый OGG Vorbis), Speex, ADPCM, CS-ACELP, PCM, AMR, ILBC, MPEG, AC3, AAC, AMR, APE, FLAC, MMF, M4A, MP2, MP3, MP4, RA, Full-HD Voice, "other" (другой) или "unknown" (неизвестно).

7.4.3.3 Элемент Duration (продолжительность)

Элемент Duration содержит информацию об общем времени представления в виде целого числа в миллисекундах. Конечный результат должен позволять обратно вычислять частоту дискретизации.

7.4.3.4 Элемент Conversation (тип разговора)

Элемент Conversation содержит информацию о типе разговора. Допустимыми значениями являются "Unknown" (неизвестно), "Spontaneous/Free" (спонтанный/свободный), "Reading" (чтение), "Prompt" (подсказка), "Conversational" (разговорный) и "Other" (другой).

Если указано значение "Prompt", то элемент становится составным, структура в этом случае приведена в таблице 9. Составная структура включает в себя допустимые значения элементов StringPromptContent (содержимое запроса строк) и/или AudioPromptContent (содержимое звуковых подсказок). Элемент StringPromptContent должен содержать текст подсказки, если он известен. Если была использована звуковая подсказка, и доступен URL-адрес, содержащий эту звуковую подсказку, то элемент AudioPromptContent должен указывать URL-адрес звуковой подсказки или зависимого идентификатора, если это известно. Возможно, что будут доступны и файл, и транскрипция звуковой подсказки. В этом случае оба поля имеют контент.

Таблица 9

Структура элемента ConversationRoot, если элемент

Conversation имеет значение "Prompt" (подсказка)

Элемент

Подпункт

Тип данных

Допустимые значения

Обязательное/необязательное

StringPromptContent

(содержимое запроса строк)

7.4.3.4

string

Длина строки не ограничена

Необязательное

AudioPromptContent

(содержимое звуковых подсказок)

URL

Длина URL не ограничена

Необязательное

7.4.3.5 Элемент DominantLanguage (доминирующий язык)

Элемент DominantLanguage содержит информацию о доминирующем языке в VR. Идентификатор доминирующего языка должен быть представлен в виде строки в соответствии с кодами [3] и [4].

7.4.4 Элемент QualityInformation (информация о качестве)

7.4.4.1 Общие требования

Данный элемент содержит подробную информацию о качестве аудиозаписи VR, включая обязательную информацию о условиях сбора биометрических данных и о проведенной постобработке сигнала. Структура элемента QualityInformation приведена в таблице 10.

Таблица 10

Структура элемента QualityInformation

(Информация о качестве)

Элемент	Подпункт	Тип данных	Допустимые значения	Обязательное/необязательное
Quality (качество)	7.4.4.2	QualityType	См. ГОСТ ISO/IEC 19794-1	Обязательное
Field (звуковое поле)	7.4.4.3	string	"Near-field" (ближнее звуковое поле), "Mid-field" (среднее звуковое поле), "Far-field" (дальнее звуковое поле), "Other" (другое), "Unknown" (неизвестно)	Необязательное
MicrophoneDistance (расстояние до микрофона)	7.4.4.4	string	"Close" (близкое), "Mid-range" (среднее), "Far" (дальнее)	Необязательное
Volume (уровень громкости)	7.4.4.5	float	Встроенный тип	Необязательное
SNR (отношение "сигнал-шум")	7.4.4.6	float	Встроенный тип	Необязательное

7.4.4.2 Элемент Quality (качество)

Данный элемент содержит информацию о качестве биометрических данных и о алгоритме оценки качества, который был использован.

Если оценка качества не проводилась, то элемент Quality отсутствует. Минимальное значение элемента Quality - 0 (minOccurs=0).

7.4.4.3 Элемент Field (звуковое поле)

Элемент Field должен содержать информацию о звуковом поле. Допустимые значения:

- Near-field (ближнее звуковое поле),

- Mid-field (среднее звуковое поле),

- Far-field (дальнее звуковое поле),

- Other (другое),

- Unknown (неизвестно).

По умолчанию должно быть установлено значение "Near-field".

Примечание - "Ближнее звуковое поле" и другие указанные термины являются общими характеристиками звукового поля (см. раздел 3). "Среднее звуковое поле" используется в беспроводных наушниках и других микрофонах телефонов. Указанная классификация предпочтительнее указания фактического расстояния в численном виде, поскольку, как правило, невозможно получить такую детальную информацию.

7.4.4.4 Элемент MicrophoneDistance (расстояние до микрофона)

Элемент MicrophoneDistance должен содержать информацию о расстоянии до микрофона.

Допустимые значения:

- "Close" (близкое): случай использования гарнитуры, то есть оборудования со встроенным динамиком/микрофоном, в котором голос становится слышимым при расстоянии между гарнитурой и ухом от 0,05 до 0,15 м.

- "Mid-range" (среднее): случай использования микрофона, телефона (на громкой связи) или планшета, то есть использования микрофона не в пределах диапазона "Near-field" (ближнее звуковое поле), а с руки говорящего на расстоянии от 0,1 до 0,5 м.

- "Far" (дальнее): случай использования микрофона за пределами диапазона руки диктора (более 0,5 м).

7.4.4.5 Элемент Volume (уровень громкости)

Если значение известно, то оно должно быть выражено в терминах алгоритма P.56 Международного союза электросвязи [2]. Если значение неизвестно, то должно быть установлено значение "Unknown" (неизвестно).

7.4.4.6 Элемент SNR (отношение "сигнал-шум")

Элемент SNR является необязательным. Используется, если шум кодирования был учтен при расчете отношения "сигнал-шум" (SNR) для каждого VR.

7.4.5 Элемент SignalEnhancement (усиление уровня сигнала)

Усиление уровня сигнала является предварительной обработкой речевого сигнала. Элемент SignalEnhancement содержит информацию о проведенной предварительной обработке сигнала. Усиление уровня сигнала может увеличить или уменьшить вероятность распознавания. Должно быть указано, какой тип усиления уровня сигнала, если применялся, был применен к речевому сигналу.

Типовые примеры предварительной обработки, направленные на усиление речевого сигнала:

a) подавление шума;

b) подавление отраженных сигналов;

c) эхоподавление;

d) активная защита от помех;

e) выделение речи (включая результат обработки микрофона);

f) автоматическая регулировка усиления (AGC <*>);

--------------------------------

<*> AGC - Automatic gain control.

g) частотная коррекция, фильтрация, предварительное выделение;

h) дереверберация (удаление реверберации);

i) разметка завершения;

j) удаление тишины;

k) другие варианты предварительной обработки.

7.4.6 Дополнительные данные разработчика

Дополнительные данные разработчика добавляются к основной записи в случае, когда необходимо добавить нестандартизированные проприетарные данные разработчика/продукта.