БАЗА ДАННЫХ ОЦИФРОВАННОЙ
РЕЧИ
А.Г. Буря, А.В. Чекмарев
(Московский государственный институт
электроники и математики, Россия)
В настоящее время проблема речевого общения
человека с ЭВМ (речевого интерфейса) все так же
актуальна, как и несколько лет назад. Сейчас
создается достаточно много систем распознавания
речи, и их отладка требует значительного по
объему речевого материала. Поэтому существует
проблема формирования речевой базы данных и се
последующего использования. Такие базы
создаются во всем мире для задач анализа и
изучения речи. Создание такой системы,
включающей в себя образцы русской речи -
актуальная проблема для исследователей в нашей
стране.
В данной работе ставилась задача
спроектировать и реализовать информационную
систему для управления базой оцифрованных
речевых данных. Речевые данные - это записанные в
цифровой форме отдельные слова или целые фразы,
произнесенные различными дикторами.
К информационной системе предъявлялись
следующие требования: она должна обеспечивать
хранение речевых данных в цифровом виде, иметь
средства по упорядочиванию речевых данных и по
их поиску. Дополнительно в базе данных должна
храниться информация о дикторах и текст
записанной речи. Информационная система должна
обеспечивать хранение больших объемов данных (до
1 Гб и более).
Разработка методики заполнения речевой базы
данных выделяется в отдельную задачу. Авторы
предложили следующие рекомендации: отдельные
записанные слова и фразы заносить в словари,
классифицирующие их по предметной области
(графический словарь, числовой и т. д.), условия
проведения записи тщательно документировать и
выдерживать постоянными на протяжении всего
сеанса записи, дикторов подбирать различного
пола и возраста.
Данная информационная система может
применяться для тестирования систем
распознавания, идентификации « синтеза речи.
Полнота ее данных позволяет провести анализ
статистического распределения особенностей в
произношении русской речи. Система также может
использоваться в учебном процессе для студентов,
изучающих методы распознавания речи.
В работе была спроектирована и реализована
информационная система в среде Delphi для Windows 95/NT.
Для хранения текстовых и числовых данных
использовались файлы локальных СУБД
Оцифрованные речевые данные записывались в
стандартном формате фирмы Microsoft RIFF WAVE.
В настоящее время ведутся работы по подготовке
к заполнению базы данных, выполняется
тестирование всей системы на кафедре ЭВА МГИЭМ
Полная версия доклада - Секция А-
РЕЧЕВАЯ БАЗА ДАННЫХ ( А.Г. Буря, А.В.
Чекмарев (Московский государственный институт
электроники и математики, Россия) |