Поиск по каталогу

Библиотека онлайн

K005227 Дипломная работа Идентификация звуковых сигналов

3400 руб. 1890 руб.
В корзину

Содержание

ВВЕДЕНИЕ 6

1 ПОСТАНОВКА ЗАДАЧИ 8

 1.1 ЛИТЕРАТУРНЫЙ И ПАТЕНТНЫЙ ОБЗОР ПОСТАНОВКИ ПОДОБНЫХ ЗАДАЧ. 8

1.1.1 Задачи системы ограничения доступа 9

1.1.2 Технические средства формирования аудиоданных 11

1.2 ПОСТАНОВКА ЗАДАЧИ. ЦЕЛИ РАБОТЫ, КРИТЕРИИ ОЦЕНКИ И ОГРАНИЧЕНИЯ 18

2 ИЗУЧЕНИЕ И МОДЕЛИРОВАНИЕ ПРЕДМЕТНОЙ ОБЛАСТИ 19

2.1 ВЫЯВЛЕНИЕ ОСНОВНЫХ ПОНЯТИЙ И ПРОЦЕССОВ, ИХ СВОЙСТВ И ЗАКОНОМЕРНОСТЕЙ. 19

2.1.1 Формат WAVE файлов 19

2.1.2 Разработка метода распознавания 26

2.2 РАЗРАБОТКА КОНЦЕПТУАЛЬНОЙ МОДЕЛИ СИСТЕМЫ ДИАГНОСТИКИ 27

2.3 ТЕОРЕТИЧЕСКОЕ ИЗУЧЕНИЕ ПРЕДМЕТНОЙ ОБЛАСТИ. ПОСТРОЕНИЕ ТЕОРЕТИЧЕСКИХ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ 27

2.4 ЭКСПЕРИМЕНТАЛЬНОЕ ИЗУЧЕНИЕ ПРЕДМЕТНОЙ ОБЛАСТИ. ПОСТРОЕНИЕ ЭМПИРИЧЕСКИХ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ 29

3 ИНФОРМАЦИОННАЯ БАЗА ДЛЯ РЕШЕНИЯ ЗАДАЧИ 51

3.1 ВХОДНЫЕ ДАННЫЕ 51

3.2 ОПИСАНИЕ СТРУКТУРЫ ДАННЫХ 51

3.3 ДАТАЛОГИЧЕСКАЯ МОДЕЛЬ БАЗЫ ДАННЫХ 53

4 ПРОГРАММНО-АППАРАТНАЯ РЕАЛИЗАЦИЯ РЕШЕНИЯ ЗАДАЧИ 55

4.1 АППАРАТНАЯ ЧАСТЬ 55

4.2 ПРОГРАММНАЯ ЧАСТЬ 56

5 ПРЕДСТАВЛЕНИЕ И АНАЛИЗ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ  59

ЗАКЛЮЧЕНИЕ 61

СПИСОК ЛИТЕРАТУРЫ 62




























ВВЕДЕНИЕ

Информационные ценности  постоянно возрастают с развитием компьютерных сетей и расширения области автоматизации. Государственные , юридические, коммерческие и врачебные тайны часто хранят в компьютере, который обычно подключается к локальным и корпоративным сетям. Сейчас очень большое количество компаний сталкиваются с необходимостью предотвратить несанкционированный доступ к  системе.

Основным способом персонификации пользователя почти до конца 90-х годов было указание его сетевого имени и пароля.  Во многих учреждениях и организациях такой подход  используется до сих пор. С использованием паролей всегда есть риски и они известны: пароли забываются, хранятся в неположенном месте, в конце концов, их  могут просто украсть. Часть пользователей записывают свой пароль на бумаге, чтобы его не забыть  и держат эти записи рядом со своими рабочими местами. По статистике большинство звонков в службу поддержки связаны с забытыми или утерянными или просроченными паролями.

Систему можно обмануть, вводя ложное имя, для этого необходимо знать некоторую информацию, которой, с точки зрения безопасности, владеет только один человек. Злоумышленник, представившись сотрудником компании имеет в своем распоряжении всю необходимую информацию того  пользователя, за кого он себя выдает, в соответствии с его полномочиями и обязанностями. Таким образом результатом могут быть различные виды  незаконной деятельности, начиная от кражи информации и заканчивая отключением всей информации.

Для того чтобы войти в систему, лучше всего применять такие способы идентификации, которые не работают без их носителя. Этому требованию отвечает биометрические особенности человеческого организма. Современные биометрические технологии позволяют определить  личность по физиологическим и психологическим признакам[1].

Тема выпускной квалификационной работы бакалавра – «Идентификация звуковых сигналов».

Цель выпускной квалификационной работы бакалавра – разработка программного обеспечения, реализующего методы идентификации оцифрованных звуковых сигналов, что позволит применять эти решения для идентификации пользователей информационных систем по голосовым биометрическим данным.

Для достижения цели в данной работе необходимо решить следующие задачи:

• выполнить обзор предметной области;

• описать информационные и математические модели;

• реализовать математические модели в разрабатываемом программном обеспечении;

• проанализировать полученные результаты. 

1 ПОСТАНОВКА ЗАДАЧИ

1.1 Литературный и патентный обзор постановки подобных задач. Анализ стандартных средств и существующих способов решения задачи

В связи с широким распространением вычислительной техники и использованием их в различных сферах жизни, в настоящее время особо остро встает вопрос об ограничении доступа пользователей. Сейчас очень часто обычные пароли системы защиты заменяют или дополняют биометрическими системами идентификации пользователей.

Измерение некоторых анатомических или физиологических параметров человека называют биометрией. Биометрическую систему обмануть практически невозможно в отличие от обычного пароля, который можно украсть или забрать. В качестве измеряемых параметров используют различные черты человека, такие как голос, отпечатки пальцев, радужная оболочка глаза, почерк и стиль клавиш, а также внешний вид. Каждая из этих характеристик позволяет выделить конкретного человека в десятки, сотни и более человек. Также можно использовать комплекс из нескольких параметров.


Идентификация основывается на том, что измеренные данные сравниваются с данными, веденными при регистрации пользователя, и компьютер пытается на основе сравнения "узнать" человека.

Биометрические системы безопасности хороши тем, что их трудно подделать. Трудно оставить фальшивый отпечаток пальца при помощи своего собственного или сделать радужную оболочку глаз, похожей на чью то другую. В отличие от бумажных идентификаторов (паспорт, водительские права, удостоверение личности), от пароля или персонального идентификационного номера (ПИН), биометрические характеристики не могут быть забыты или потеряны. Они используются для предотвращения воровства или мошенничества из-за своей уникальности. Некоторые люди умеют имитировать голоса, но это требует особых навыков, которые не часто встречаются в повседневной жизни.


Большинство биометрических систем безопасности функционируют следующим образом: в базе данных системы хранится цифровой отпечаток пальца, радужной оболочки глаза или голоса. Человек, который собирается получить доступ к компьютерной сети, с помощью микрофона, сканера отпечатков пальцев или других устройств  вводит информацию о себе в систему. В последствии  эти  данные сравниваются с образцом, хранимым в базе данных[2].

В качестве измеряемого параметра был выбран голос так как, с одной стороны, обработка аудиоинформации обеспечивает достаточно высокий уровень надежности опознавания, а с другой, - тем, что большинство персональных компьютеров уже оснащены оборудованием для обработки звука.


1.1.1 Задачи системы ограничения доступа

Системы контроля и управления доступом, в зависимости от своего класса, решают целый ряд задач.

Первая задача, которую решает система контроля доступа любого класса – это функция обычного дверного замка. Таким образом посторонние не допускаются в определенные помещения, кроме лиц, имеющих право доступа. Существуют помещения, в котором работает достаточно большое количество сотрудников. В этой комнате  может храниться важная информация  поэтому  дверь в эту комнату лучше всего держать закрытой  даже во время рабочего дня. Если на дверь устанавливается в помещении обычный механический замок, то потребуется предоставить всем сотрудникам ключи от этого замка. В случае поломки замка или утере ключа сотрудником, нужно произвести замену замка и выдать ключи всему персоналу. Что делать, если нужно разрешить всем сотрудникам доступ в помещение в течение рабочего дня, но доступ во внерабочее время ограничить – ставить дополнительный замок.


Эти проблемы решаются достаточно легко, даже с простой системой контроля доступа. Системы доступа такого класса представляют собой контроллер (микропроцессорное устройство управления), который умеет управлять электронным (электромеханическим или электромагнитным) замком, и хранит в своей памяти любое количество пользователей. Так же имеется микрофон подсоединенный к серверу, способный распознавать голос человека и, приняв решение, передать в контроллер сигнал открытия двери. Микрофон и контроллер совмещены в одном корпусе; или другое решение – контроллер одном корпусе, располагаемом внутри помещения, снаружи располагается часть устройства с микрофоном[3]. На рисунке 1 показана схема простой системы безопасности.

 

Рисунок 1.  Схема простой системы безопасности


Данные каждого пользователя системы хранятся на сервере в базе данных; для прохождения в помещение  пользователь произносит свой код доступа; изреченное слово передается на сервер, если сервер обнаруживает голос пользователя, контроллер разблокирует электронный замок, разрешая пройти. Если кто-либо из сотрудников потеряют право на доступ, запись его голоса просто удаляется из памяти сервера - проход по нему будет запрещен. Если замок сломался, нет необходимости менять все "ключи" - достаточно, поменять замок. Немного труднее запретить доступ в нерабочее время, однако, и эту  проблему можно решить. Можно добавить специальный режим, который запрещает доступ в определенное время. В такое состояние систему переводит администратор. Вывод системы из режима "закрыто" в обычный режим осуществляется также с помощью администратора. Поэтому достаточно назначить ответственных за помещения лиц, и дать им права администратора. По окончании рабочего дня ответственное лицо осматривает помещение и закрывает его на сервере, кроме ответственных лиц, в помещение войти никто не может. В начале следующего дня тот же или другой ответственный сотрудник отменяет режим "Закрыто", и система функционирует в обычном режиме.

 

1.1.2 Технические средства формирования аудиоданных

Для того чтобы обработать голос  необходимо предварительно записать его в оперативную память компьютера или на машинный носитель. Как было сказано выше, большинство персональных компьютеров уже имеют оборудование, необходимое для ввода и вывода звука. Это микрофон и звуковая плата. В общем виде процесс ввода речевых сообщений приведен на рисунке 2.


 

Рисунок 2.  Схема ввода речевых сообщений в ЭВМ


Речевой сигнал формируется и передается в пространстве в виде звуковых волн. Источником речевого сигнала служит речеобразующий тракт, который возбуждает звуковые волны в упругой воздушной среде. Приемником сигнала является датчик звуковых колебаний, микрофон - устройство для преобразования звуковых колебаний в электрические. Существует множество типов микрофонов (угольные, электродинамические, электростатические, пьезоэлектрические и др.) которые описываются в специальной литературе. Чувствительным элементом микрофона любого типа является упругая мембрана, она вовлекается в колебательный процесс под воздействием звуковых волн. Мембрана связана с преобразующим элементом, который преобразует колебания мембраны в электрический сигнал[4].

С выхода микрофона сигнал подается на вход звуковой карты персонального компьютера. Звуковая карта при записи  представляет собой аналого-цифровой преобразователь с широкими возможностями настройки параметров оцифровки. Основными параметрами является частота дискретизации и разрядность кодирования. Данные параметры определяют качество и размер выборки получаемой записи. Кроме того, размер и качество прямо пропорциональны, т.е. чем выше качество записи, тем больше ее размер.

Если воспользоваться знаниями о свойствах человеческого голоса при выборе параметров аналого-цифрового преобразования, можно обеспечить компромисс между  качеством и размером.

Для того чтобы выбрать частоту дискретизации, можно рассмотреть усредненную спектральную плотность мощности непрерывного речевого сигнала для мужского и женского голосов на рисунке 3. Из этой характеристики видно, что усредненная спектральная плотность мощности имеет максимум в диапазоне 250-500Гц и затухает со скоростью, равной 8-10дБ на октаву (при удвоении частоты). Это приводит к тому, что на частотах выше 4000 Гц спектральная плотность падает до уровня -60 дБ, и это соответствует ослаблению мощности по сравнению с максимумом (-25... -30 дБ) в 20 и более раз. Тогда можно считать, что полоса пропускания для каналов передачи звуковых сообщений может быть ограничена частотой 4-5 кГц, а, следовательно, частота дискретизации этого сигнала должна составлять 8-10 кГц.


 

Рисунок 3.  Форма спектра речевого сигнала


В современных звуковых картах используется импульсно-кодовая модуляция, при которой каждый дискретный отсчет речевого сообщения кодируется в соответствии с некоторыми правилами[5].

Подсчитано, что сигнал/шум квантования, равный 36 дБ, требует не менее семи двоичных разрядов и что для получения высококачественного цифрового кодирования сигнала речи необходимо 11 разрядов. На практике число разрядов определяется разрядностью компьютера, и, как правило, равно или кратно восьми разрядам.

В России появилась биометрическая система контроля в середине 90-х годов. Большинство коммерческих биометрических систем было импортного производства. Себестоимость и, соответственно, цена этих систем была довольно высока: например, довольно простое устройство физического контроля доступа стоило около $12 000. В то время это оборудование массового распространения не получило. Сегодня подобные системы стали намного дешевле,  примерно в 10 раз, поэтому появился активный  спрос на них в нашей стране. Вторая причина сводится к к тому, что предприятия, офисы и некоторые частные дома нуждаются в современной и грамотно построенной системе безопасности.

По мнению большинства экспертов, особенно широкое распространение в России получили устройства отпечатков пальцев. Есть основания полагать, что системы распознавания подписи будут применяться в банковской сфере - традиционной биометрической характеристики, которая уже там давно используется. Большой редкостью в России считается инсталляция систем идентификации личности по радужной оболочки глаз, голоса и других биометрических характеристик. Тем не менее уже есть примеры использования данных устройств, особенно в некоторых крупных депозитарных банков Москвы; из других компаний можно назвать "Макдональдс", которая включает биометрический контроль за работой персонала; в последние годы резко возрос спрос на дактилоскопические системы со стороны частных лиц, которые устанавливают их в своих загородных коттеджах.

Существует несколько отечественных коммерческих разработок на этом рынке, представлены также решения на уровне опытных образцов[6]. Наиболее известная система, разработанная российскими инженерами - "Кордон" - устройство физического доступа в помещение; имеются также разработки в области дактилоскопии (компания "Биолинк"): в области распознавания лица (компания "Спирит"). Рынок биометрических систем безопасности в России представлен также иностранными фирмами, которые через своих российских партнеров реализуют свои технологии на отечественном рынке. Систему Facelt, например, представляет группа компаний "Дан-ком"; инженерная компания "Солинг" активно внедряет систему распознавания лиц немецкого производства SmartEye, компания "Биометрические системы" в основном специализируется на поставке импортного дактилоскопического оборудования, но в этой компании ведутся разработки программного обеспечения для идентификации пользователя.

Компания «Центр речевых технологий», занимается разработками, включающие весь комплекс программ для идентификации пользователя и для управления компьютером с помощью голоса. Также они могут выполнить адаптацию программно-аппаратных комплексов к нуждам заказчика. Одна из программ VoiceCom - библиотека распознавания голосовых команд, обладает следующими характеристиками:

Возможные применения включают в себя: мониторинг оборудования с помощью голоса; голосовой запрос для базы данных, возможно, по телефону; поиск по ключевым словам для WAV файлов; встраивание голосовых функций в виде автономных устройств - программирование DSP.

Преимущества: высокоэффективные алгоритмы, небольшие требования к памяти, адаптация к шуму, независимо от языка и акцента.

Возможности: Одновременное распознавание 100-200 команд в дикторозависимом и 30-50 команд в дикторонезависимом варианте, возможность структурирования для практически неограниченного словаря, дикторонезависимое распознавание словаря в 10-20 слов по телефону; Начало работы после того, как будет произнесено ключевое слово (это является подтверждением того, что система среагирует только на команду, а не на что-либо другое).

Технические характеристики спецификации: Поддерживаемые языки -любые; инструментальная платформа для разработки - Embarcadero Delphi.

Требования: Конфигурация ПК с частотой центрального процессора 1500 МГц и выше, RAM 2048 Mб, Windows 7/8/10, Стандартная звуковая карта, микрофон.

Плюсы: высокая производительность алгоритмов, небольшие требования к памяти, адаптация к шуму, независимо от языка и акцента. Российская разработка, непрерывное долгосрочное развитие, поддержка разработчиков.

Информацией о стоимости компания обеспечивает только если существует реальная заинтересованность в приобретении данного программного обеспечения, поэтому не было возможности узнать цену.




Так же существует несколько разработок в этой области с довольно скромной ценой. Например:

• «Web-TalkIt». Производитель «USA Grover Industries», официальный сайт http://www.groverind.com;

• «Труффальдино». Производитель «Центр речевых технологий», официальный сайт http://www.speechpro.com;

• VoiceNet VRS 2000. Производитель «USA Grover Industries», официальный сайт http://www.groverind.com.


Эти системы не обеспечивают возможности идентификации голоса, только управление компьютером с помощью голоса. Реализованное в данной работе программное обеспечение может быть адаптировано для решения таких проблем, но основная цель проекта - реализовать алгоритмы идентификации речевых образцов.

Биометрические системы безопасности на российском рынке в ближайшем будущем будут пользоваться большим спросом, так как  идет борьба с глобальной угрозой терроризма. Интенсивное развитие мультимедийных, цифровых технологий и, как следствие, их удешевление позволяют не только разработать принципиально новые подходы в проблеме идентификации личности, но и внедрить их в широкое повсеместное использование.

Системы распознавания голоса основываются на сборе всей доступной (порой даже избыточной) информации, необходимой для распознавания пользователя[7].

Проводится процесс, первым шагом которого является первоначальное трансформирование вводимой информации для сокращения обрабатываемого объема так, чтобы ее можно было бы подвергнуть компьютерному анализу. Следующим этапом является спектральное представление речи, получившееся путем преобразования Фурье. Результат преобразования Фурье помогает не только сжать информацию, но и дает возможность сконцентрироваться на важных аспектах речи, которые интенсивно изучались в сфере экспериментальной фонетики. Спектральное представление достигнуто путем использования широко-частотного анализа записи.

Хотя спектральное представление речи очень полезно, необходимо помнить, что изучаемый сигнал весьма разнообразен.

Разнообразие возникает по многим причинам, включая:

• различия человеческих голосов;

• уровень речи говорящего;

• вариации в произношении;

• нормальное варьирование движения артикуляторов (языка, губ, челюсти, нёба).

Для устранения негативного эффекта влияния варьирования голосового тракта на процесс распознавания речи было использовано множество методов. Наиболее удачные формы трансформации, использованной для сокращения различий, были впервые представлены Сакоя & Чибо и назывались динамичными искажениями (dynamic time warping). Техника динамичного искажения используется для временного вытягивания и сокращения расстояния между искаженным спектральным представлением и шаблоном для говорящего. Использование данной техники дало улучшения точного распознавания (~20-30%). Метод динамичного искажения используют практически все коммерчески доступные системы распознавания, показывающие высокую точность сообщения при использовании.

Вначале сигнал преобразовывается в спектральное представление, где определяется немногочисленный, но высокоинформативный набор параметров. Затем определяются конечные выходные параметры для варьирования голоса (следует отметить, что данная задача не является тривиальной) и производится нормализация для составления шкалы параметров, а также для определения ситуационного уровня речи[8]. Вышеописанные измененные параметры используются затем для создания шаблона. Шаблон включается в словарь, который характеризует произнесение звуков при передаче информации говорящим, использующим эту систему. Далее в процессе распознавания новых речевых образцов (уже подвергшихся нормализации и получивших свои параметры), эти образцы сравниваются с шаблонами, уже имеющимися в словаре, используя динамичное искажение и похожие метрические измерения.

Существуют следующие проблемы и ограничения задачи распознавания

личности по голосу, которые следует учитывать при построении решения:

•Эмоциональное состояние

•Сложная акустическая обстановка (шумы и помехи)

•Разные каналы связи при обучении и распознавании

•Естественные изменения голоса

Распознавание личности по голосу находит применение во многих сферах:

•Криминалистика и судебная экспертиза

•Безопасность

•Банковские технологии

•Электронная коммерция

•Телематика


1.2 Постановка задачи. Цели работы, критерии оценки и ограничения

С учетом требований, которые предъявляются к разрабатываемой системе идентификации звуковых сигналов, ставятся следующие задачи:

1) разработать структурную схему системы, отражающую состав технических средств, программного, математического, информационного и методического обеспечений, применяемых при идентификации оцифрованных голосовых образцов на основе спектрального анализа;

2) разработать последовательность действий при проектировании и реализации программного обеспечения системы идентификации голосовых образцов;

3) разработать математическое обеспечение, включая выбор методов и алгоритмов фильтрации исходных сигналов, формирования спектральных данных, принятия решений о соотнесении входного голосового паттерна с одним из известных образцов;

4) разработать структуру информационного обеспечения системы, включая схемы управления информационными потоками между модулями получения и обработки звуковых сигналов и базой данных голосовых образцов;

5) разработать программное обеспечение системы с учетом требований к производительности выполнения прикладных задач и эргономичности пользовательского интерфейса.

Не забудьте оформить заявку на наиболее популярные виды работ: