На главную страницу
Информационные системы и банки данныхУправление и принятие решений в сложных системахПрикладные информационные технологииКомпьютер в учебном процессеСетевые технологииПленарные доклады Карта сервераПобедители семинараИнформацияОбщее впечатлениеВаши отзывы
Назад к списку докладов

РЕЧЕВАЯ БАЗА ДАННЫХ

А.Г. Буря, А.В. Чекмарев
(Московский государственный институт электроники и математики, Россия)

Изучением человеческой речи занимаются давно. В середине ХХ века возникает проблема автоматического распознавания речи (АРР) вычислительными машинами. За полвека ученым удалось накопить огромное количество знаний о предмете исследований. Стало понятным, что распознавание речи - очень непростая задача, и для ее решения требуется продолжать работать. В начале и особенно в середине 80-х гг исследователи из разных стран приходят к выводу, что для целей анализа речи требуется создавать специализированные речевые базы данных.

Речевая база данных (РБД) - это обычная база данных (БД) с несложной структурой, в которой хранятся речевые данные в виде массивов отсчетов оцифрованного речевого сигнала, а также некоторая справочная информация. Каждый массив отсчетов обычно записывается в отдельном файле, а в самой базе данных хранится только имя этого файла. Бурное развитие вычислительной техники позволило собирать объемные БД и хранить их в достаточно компактном виде.

Такие БД необходимы по двум причинам [2].

Во-первых, исследователям речевых сигналов требуются средства для оценки различных методов анализа и распознавания речи, в целях нахождения наилучших. Во-вторых, потенциальным пользователям систем автоматического распознавания речи (АРР) требуются средства для оценки производительности доступных систем в целях выбора наилучшей для своей предметной области. РБД общего назначения может послужить в качестве такого средства.

РБД можно использовать также как составную часть универсальной системы распознавания слитной речи. Система с возможностью длительного хранения в БД предыстории по распознаванию многих дикторов, может быть использована для построения самообучающихся систем АРР.

Стоит отметить, что РБД - это богатый материал для различных исследований. Авторы считают, что необходимо создавать РБД под конкретные задачи и с заранее оговоренными ограничениями, так как БД общего назначения имеют очень большой объем речевых данных и, соответственно, высокую стоимость.

Условия записи образцов речи для БД должны быть оговорены заранее, и быть выдержаны в последствии на протяжении всего процесса записи. Для высококачественной записи требуется специально оборудованное помещение (звукозаписывающая студия) с соответствующей аппаратурой. Звуковые данные обычно сохраняют в цифровом виде и затем переносят на CD-ROM.

Особая задача при составлении РБД, которая скорее организационная, чем техническая - подбор дикторов для участия в записи. Здесь возникает проблема привлечения дикторов таким образом, чтобы их личные данные были распределены в широком диапазоне.

В данной работе рассматривается опыт создания такой БД. Авторам, к сожалению, не известно, доступны ли БД такого рода на русском языке. Как справедливо замечено в [1]: "Создание РБД возможно только при объединении усилий специалистов из разных областей... Задачу создания РБД удалось решить только в тех странах, где соответствующая проблема решается не внутрилабораторными усилиями, а на государственном уровне".

За рубежом подобные РБД для английского языка рассматриваются как дорогостоящие коммерческие продукты. Авторы считают, что на первом этапе исследований оправдано создание РБД для русского языка только силами кафедры. РБД небольшого объема позволит получить достаточный материал для исследований. Опыт, полученный в процессе работы, позволит в дальнейшем создавать объемные РБД, для более широкого использования.

Составление РБД было решено проводить на аппаратуре кафедры, без использования специальной звукозаписывающей аппаратуры. Поскольку РБД предполагается использовать для исследований в области создания систем АРР для ПК, в качестве аппаратуры звукозаписи допустимо использовать обычный ПК, оснащенный звуковой платой, совместимой с SB16. Для сохранения звуковых данных желательно использовать общепринятый стандарт. Авторы выбрали наиболее распространенный формат файлов с звуковыми данными - RIFF WAVE с частотой оцифровки 22 кГц и разрядностью 16 бит. Подбор дикторов сейчас осуществляется среди преподавательского состава кафедры и среди студентов.

Данную РБД планируется использовать на кафедре как материал для исследования речи, а также как инструмент для тестирования алгоритмов и методик в области АРР. Авторами была разработана программная оболочка со следующими возможностями:

1) запись/воспроизведение фрагментов речи различной длительности;
2) хранение персональной информации о дикторах;
3) хранение словаря в текстовом виде;
4) поиск речевой информации по различным признакам (по полу, по возрасту дикторов).

РБД в настоящее время хранит информацию о следующих объектах:

1) диктор
2) словарь
3) слово
4) образец (сигнал)


Объект "диктор" - это персональная информация о дикторе, который участвовал в создании (надиктовке ) слов из БД. РБД хранит записи отдельных слов. Все слова делятся на несколько словарей:

1) словарь фонетический - взят из [4] - разбит на более мелкие словари в соответствии с типами фонем.
2) словари по различным предметным областям.

Слово, записанное конкретным диктором называется образцом или сигналом. Образец хранится в файле стандартного формата WINDOWS и доступен для пользователя, не использующего оболочку. Дальнейшие задачи в работе по формированию РБД включают:

1) планирование процесса записи словарей - каждый диктор не может надиктовать все известные БД слова, так как их достаточно много (порядка 1500). При записи образцов желательно выдерживать постоянное качество сигнала;
2) выпуск готовой РБД на CD-ROM.

ЛИТЕРАТУРА

1) Андреев С. В. "Программное обеспечение для создания и использования фонетических баз данных" в сб. ст. "Речевая и музыкальная информатика" /Рос. АН ВЦ отв. ред. В.Я. Чучупал, М.: 1992, сс. 81-96
2) Itabashi S. "A Japanese Language Speech Database": ICASSP-86, Tokyo - 1986, v.1, p. 321-324
3) Guyote M.F., Lewis K.A., Lijana D. "A Speech Data Base at The United States Air Force Academy": ICASSP-86, Tokyo - 1986, v.1, p. 313-315
4) Потапова Р.К. "Речь: коммуникация, информация, кибернетика" М.: Радио и Связь, 1997

RLE Banner Network