ГОСТ Р 58668.11-2019 (ИСО/МЭК 19794-13:2018). Национальный стандарт Российской Федерации. Информационные технологии. Биометрия. Форматы обмена биометрическими данными. Часть 11. Данные голоса

6 Процессы и идентификаторы

6.1 Процесс сбора биометрических данных

6.1.1 Общие положения

Настоящий раздел устанавливает требования к основному элементу взаимодействия SIV - процессу сбора биометрических данных, в соответствии с определением, приведенном в ГОСТ ISO/IEC 2382-37, а также к VR речи субъекта сбора биометрических данных, собранной во время указанного взаимодействия или сессии.

Во время процесса сбора биометрических данных голосовые звуки, возникающие не от регистрируемого диктора, могут быть непреднамеренно записаны перекрывающимися или неперекрывающими целевыми речевыми последовательностями; эту речь следует рассматривать как шум. Для обеспечения совместимости между различными алгоритмами SIV необходимо обеспечить совместимую структуру процесса сбора биометрических данных и описания звуковых сигналов.

6.1.2 Голосовой фрагмент речи (voice utterance)

Предполагается, что голосовой фрагмент речи исходит от одного диктора с целью распознавания (или используется для создания биометрического (голосового) контрольного шаблона для будущих сравнений). Если другие голоса от разных людей включены в голосовой фрагмент речи, такая информация должна рассматриваться как шум, который может повлиять на систему SIV. Целью настоящего стандарта не является определений граничных условий для голосового фрагмента речи, но голосовые фрагменты речи должны быть разделены следующим образом:

a) изменение или повторение подсказки; или

b) пауза гораздо большей продолжительности, чем частота следования слогов.

Минимальная и максимальная длина голосового фрагмента речи не установлена.

6.1.3 Структура процесса сбора биометрических данных

Процесс сбора биометрических данных при SIV является вербальным взаимодействием, которое может быть использовано для биометрической регистрации, верификации или идентификации субъекта сбора биометрических данных с помощью автоматизированной системы или другого человека. В общем случае процесс сбора биометрических данных может сопровождаться фоновым шумом, возможно, от самого источника информации.

Процесс сбора биометрических данных при SIV может быть активным (пользователь осведомлен о сборе биометрических данных) или пассивным (пользователь не осведомлен о сборе биометрических данных), с поведенческой адаптацией пользователей или без поведенческой адаптацией пользователей (лояльные/частые пользователи, намеренные адаптироваться для целей производительности), а также с кооперативными (лояльными) или некооперативными пользователями.

Процесс сбора биометрических данных SIV также известен как сессия. На примере, приведенном на рисунке 3, видно, что образец записи может включать как фрагмент речи всего вызова звонка регистрации, так и фрагменты речи однократных подсказок. Фрагментом речи является непрерывный поток вокализации от одного говорящего; он может содержать междуслоговое или междусловное молчание и ограничивается паузами. Паузы - это приостановка вокализации различимой продолжительности, которая длиннее междуслогового или междусловного молчания, то есть тишина, ощущаемая человеком.

Примечания

1 Для целей SIV могут быть использованы речевые и неречевые звуки, произносимые субъектом сбора биометрических данных. Обычно фрагмент речи демаркируется как непрерывная последовательность речи, однако приложения также могут использовать использование субфрагментов речи для VR.

2 Неречевые звуки не указывают на приостановку вокализации.

3 Фрагменты речи могут включать временные остановки в речи, такие как временные прерывания, поскольку человеческое восприятие может все еще "слышать" и не воспринимать приостановку вокализации.

Один процесс сбора биометрических данных обычно выполняется в течение одного непрерывного периода времени (или сессии) и содержит одно или несколько фрагментов речи, известных как VR. В основном, VR содержит голос одного диктора и может быть инициирован подсказкой субъекту сбора биометрических данных, запрашивающей ответ. На рисунке 1 показан простой процесс сбора биометрических данных при верификации с голосовым фрагментом речи, инициированным подсказкой интерактивной голосовой системы (IVR).

Запрос от IVR: Добро пожаловать в интерактивную голосовую систему банка.

Пожалуйста, назовите свой номер счета

Фрагмент речи диктора A: 3571289999

Запрос от IVR: Спасибо. Пожалуйста, скажите парольную фразу

Фрагмент речи диктора A: 3456895612

Запрос от IVR: Спасибо

Рисунок 1 - Процесс сбора биометрических данных 1.

Основной сбор биометрических данных при базовой верификации

диктора в технологии голосовых подсказок

Процесс сбора биометрических данных на рисунке 1 представляет собой одну сессию, которая может содержать один или два фрагмента речи диктора A. Варианты разбивки показаны на рисунке 2, когда могут быть выделены одно или два голосовых представления.

VR 1

Фрагмент речи 1: 3571289999

Фрагмент речи 2: 3456895612

VR 1

Фрагмент речи 1: 3571289999

VR2

Фрагмент речи 2: 3456895612

a) Как одно представление

b) Как два представления

Рисунок 2 - Голосовые представления из голосовых фрагментов

речи процесса сбора биометрических данных 1

Указанный пример относится к приложению контроля доступа. В этом примере первый голосовой фрагмент речи является заявленным указателем на биометрический (голосовой) контрольный шаблон субъектом биометрических данных "диктор A". Для определения указателя на биометрический (голосовой) контрольный шаблон путем извлечения содержимого из первого фрагмента речи может быть использована система автоматического распознавания речи (ASR), независимая от диктора. Второй фрагмент речи является текстозависимой кодовой фразой, требуемой для проверки утверждения с использованием сохраненной модели голоса указателя на биометрический (голосовой) контрольный шаблон. Не требуется изменять процесс сбора биометрических данных, приведенный на рисунке 1, при взаимодействии субъектов сбора биометрических данных с людьми (например, оператором центра обработки вызовов). Варианты процесса сбора биометрических данных 1 включают запрос или предоставление субъектам сбора биометрических данных ввода указателя на биометрический (голосовой) контрольный шаблон (учетный номер/идентификатор) вручную (например, с помощью сенсорной клавиатуры телефона). Запросы могут быть представлены в виде аудио с воспроизведением одного или нескольких звуковых файлов или генерации вывода TTS для внутренней строки. Запросы могут быть представлены в виде текстовых дисплеев (например, на КПК <*>, мобильных устройствах или смарт-устройствах).

--------------------------------

<*> Карманный персональный компьютер (personal digital assistant, PDA).

С точки зрения субъектов сбора биометрических данных наиболее простой активный процесс сбора биометрических данных должен содержать только один фрагмент речи. В процессе сбора биометрических данных 1 это может быть выполнено двумя способами. В некоторых приложениях используется идентификатор вызывающего абонента и/или другие методы для неявного установления указателя на биометрический (голосовой) контрольный шаблон. Результатом является процесс сбора биометрических данных одного фрагмента речи (только фрагмент 2). Процесс сбора биометрических данных также может быть сокращен до одного фрагмента речи (только фрагмент 1) при использовании ASR. В этом случае IVR делает запрос "диктору A" назвать учетный номер/идентификатор. ASR декодирует цифры и использует их для получения указателя на биометрический (голосовой) контрольный шаблон. Затем эти же входные данные поступают в компонент SIV для верификации диктора.

Примечание - Как показано на рисунке 3, тот же процесс сбора биометрических данных и структура фрагментов речи могут быть использованы для биометрической регистрации.

Запрос от IVR: Добро пожаловать в интерактивную голосовую систему банка. Пожалуйста, назовите свой номер счета

Фрагмент речи 1 диктора A: 3571289999

Запрос от IVR: Спасибо. Теперь Вам необходимо произнести парольную фразу 4 раза. Пожалуйста, произнесите парольную фразу после звукового сигнала

Фрагмент речи 2 диктора A: 3456895612

Запрос от IVR: Пожалуйста, произнесите парольную фразу после звукового сигнала

Фрагмент речи 3 диктора A: 3456895612

Запрос от IVR: Пожалуйста, произнесите парольную фразу после звукового сигнала

Фрагмент речи 4 диктора A: 3456895612

Запрос от IVR: Пожалуйста, произнесите парольную фразу после звукового сигнала

Фрагмент речи 5 диктора A: 3456895612

Запрос от IVR: Спасибо. Регистрация прошла успешно

Рисунок 3 - Процесс сбора биометрических данных 2.

Биометрическая регистрация

Процесс сбора биометрических данных на рисунке 3 содержит пять фрагментов речи "диктора A". Сначала диктор определяет указатель на биометрический (голосовой) контрольный шаблон, затем следуют четыре повторения кодовой фразы, запрашиваемые звуковым сигналом. Голосовые данные, полученные в этих фрагментах речи, составляют VR, которые являются основными элементами XML в блоке биометрических данных (ББД) голоса.