AUTOMATIC SPEECH SEGMENTATION THAT USES CLUSTERING METHODS AND OTSU’S METHOD
- Authors: Kanishchev D.S1
- Affiliations:
- Vyatka State University
- Issue: No 30 (2019)
- Pages: 182-195
- Section: Articles
- URL: https://ered.pstu.ru/index.php/elinf/article/view/2534
- DOI: https://doi.org/10.15593/.v0i30.2534
- Cite item
Abstract
Automatic speech recognition is the use of computer hardware and software-based techniques to identify and process human voice. Speech segmentation is a process of breaking down a speech signal into smaller units and it is a very important part of many automatic speech processing systems. Speech segmentation is used not only in speech recognition systems, but also in speech corpus collections, speaker verification systems and other. Manual segmentation is a very ineffective process so development of automatic speech segmentation method is an important task. Base speech segmentation units are words, phonemes or syllables. Word is the most natural unit of segmentation. In the paper three new sentence-to-words speech segmentation approaches are proposed. These approaches are based on using various clustering methods and the Otsu’s method for speech signal spectrogram analysis. Clustering methods are the k-means method and the fuzzy c-means method. In the paper also proposed method for words boundaries detection. Developed methods were implemented in MatLab for testing. The average segmentation accuracy rate of the approach that uses k-means clustering method is 90,6 %, 91 % for the approach that uses fuzzy c-means clustering method and 91,8 % for the approach that uses Otsu’s method. Achieved results are compared with other speech segmentation methods. Most promising is a further development of the approach that uses Otsu’s method.
Full Text
Введение. Автоматическая сегментация речи изучается уже более 30 лет [1] и является важной, если не сказать ключевой, частью многих систем распознавания речи. Под задачей сегментации речи подразумевается разделение речевого сигнала на части. Автоматическая сегментация важна для различных алгоритмов автоматизированной обработки речи: распознавание речи, создание лингвистических корпусов, голосовая верификация, а также для решения исследовательских задач в области обработки естественных языков [2, 3]. Традиционный подход в виде ручной сегментации неприемлем для все возрастающих объемов голосовой информации, которая требует обработки. Большие временные затраты, требовательность к вниманию человека, производящего сегментацию вручную, привели к широкому распространению различных автоматических методов сегментации. Можно назвать следующие из них: сегментация при помощи вейвлет-метода [4], методы, основанные на нечеткой логике [5], применение искусственных нейронных сетей [6], а также использование скрытых марковских цепей [7]. В данной статье будут разобраны способы сегментации, полученные в результате использования модифицированных версий методов k-средних, нечетких c-средних, а также алгоритма Оцу. Сегментация речи. Системы распознавания речи требуют разбиения голосового сигнала на дискретные, не перекрывающие друг друга звуковые единицы [8, 9]. Это могут быть звуки, слоги, слова, предложения или даже целые диалоги. Слова - наиболее предпочитаемая и естественная единица речи в силу того факта, что слова имеют явно выраженное звуковое представление. Таким образом, мы будем считать слово базовой единицей сегментации в рамках данной работы. Методы автоматической сегментации можно классифицировать по многим различным критериям, но один из самых простых вариантов - разделение на слепые и целевые алгоритмы сегментации [10]. Ключевым различием между этими двумя классами методов является то, насколько плодотворно метод использует ранее полученную информацию или информацию из внешних источников для обработки речи. Методы слепой сегментации отличаются тем, что не используют никаких источников внешних данных с информацией о языковых особенностях обрабатываемого звукового сигнала. Таким образом, в отсутствие каких-либо внешних данных на первой фазе сегментации эти методы полагаются на звуковые особенности обрабатываемых данных. Вторая фаза же обычно строится на использовании MFCC, LP-коэффициентов или чистого FFT-спектра [11]. В противоположность им целевые методы используют некоторые внешние языковые данные обрабатываемого сигнала для сегментации их на требуемые фрагменты. Кластеризация. Кластеризация - это процесс разбиения набора объектов на несколько групп, именуемых кластерами, таким образом, что объекты в одной группе сильнее похожи друг на друга, чем на объекты из других кластеров. Кластеризация очень широко применяется: распознавание образов [12], интеллектуальный анализ данных [13], машинное обучение [14] и так далее. Алгоритмы кластеризации могут быть классифицированы как четкие, нечеткие, возможностные и вероятностные [15]. Каждая из групп обладает своими особенностями. В данной работе будут использованы четкие и нечеткие алгоритмы кластеризации для получения оптимальных границ сегментов речи. Методы четкой кластеризации жестко ограничивают принадлежность каждого объекта данных к одному кластеру. Один из таких методов - метод k-средних. Методы нечеткой кластеризации позволяют объекту быть частью сразу нескольких различных кластеров, причем степень принадлежности варьируется от 0 до 1. Наиболее известный из таких методов - метод нечетких c-средних. Подготовка к сегментации речевого сигнала. Как методы кластеризации, так и метод Оцу используются для анализа не оригинального речевого сигнала, а его спектрограммы. В рамках данной работы будет произведен анализ спектрограммы речевого сигнала в наиболее распространенном ее представлении. Это двухмерная диаграмма, вертикальная ось которой является осью частот, горизонтальная - осью времени, интенсивность же каждой точки на спектрограмме характеризует амплитуду речевого сигнала на определенной частоте в определенный момент времени. Итак, оригинальный речевой сигнал представлен на рис. 1. Рис. 1. Оригинальный речевой сигнал На рис. 2 представлена спектрограмма речевого сигнала. Она представляет из себя изображение, состоящее из оттенков серого. Для того чтобы определить временные границы сегментов, необходимо преобразовать спектрограмму в черно-белое изображение, т.е. определить такой порог, ниже которого точка будет считаться черной, а выше - белой. Для этого могут быть использованы как методы кластеризации, так и метод Оцу. Рис. 2. Спектрограмма речевого сигнала Кластеризация методом k-средних. Метод k-средних является одним из классических методов кластерного анализа. Он используется для распределения m наблюдений по k кластерам таким образом, чтобы каждое из наблюдений принадлежало только одному кластеру, к центру которого она наиболее приближено. В данном случае под наблюдениями понимаются точки на спектрограмме, а количество кластеров равно 3. Как показано в работе [16], это наиболее оптимальное число кластеров для решения подобных задач. Для определения расстояния между наблюдением и центром кластера используется евклидово расстояние: (1) Суммарное квадратичное отклонение точек кластеров от их центров должно быть минимальным: , (2) где - центр кластера . Введя все необходимые понятия, можно перейти к формулированию модифицированного для вычисления порога алгоритма: 1. Выбор количества кластеров. 2. Центры данных кластеров выбираются согласно правилу, максимизирующему начальные расстояния между кластерами. 3. Вычисление расстояние от каждого наблюдения до центров всех кластеров. 4. Производим распределение наблюдений по кластерам согласно вычисленным расстояниям (наблюдение теперь относится к ближайшему кластеру). 5. Заново вычисляем центр i-го кластера, содержащего в себе элементов: (3) 6. Повторяем с пункта 3 до тех пор, пока центры кластеров, полученные в пункте 4, не изменятся при новом вычислении: (4) 7. Вычисляем необходимое нам пороговое значение, в простейшем случае это среднее между конечными значениями центров. Кластеризация методом нечетких c-средних. В то время как метод k-средних предполагает, что каждый объект принадлежит к одному и только одному кластеру, метод нечетких c-средних позволяет объекту принадлежать сразу к нескольким кластерам. Сумма степеней принадлежности каждого объекта равняется 1. Чем ближе объект к центру, тем выше эта степень. Для оценки расстояние между i-м наблюдением и j-м центром также используется евклидово расстояние , которое рассчитывается как в (1). Степень принадлежности i-го наблюдения к -му кластеру рассчитывается следующим образом: , (5) где - экспоненциальный вес. Он влияет на матрицу степеней принадлежности следующим образом: при все наблюдения будут принадлежать к каждому кластеру с одинаковой вероятностью. Обычно устанавливается равным 2. Введя необходимые дополнительные понятия, можно перейти к формулированию модифицированного для вычисления порога алгоритма: 1. Выбор количества кластеров. 2. Центры данных кластеров выбираются согласно правилу, максимизирующему начальные расстояния между кластерами. 3. Вычисление расстояние от каждого наблюдения до центров всех кластеров. 4. Расчет матрицы степеней принадлежности . 5. Заново вычисляем центр кластера, содержащего в себе элементов: . (6) 6. Повторяем с пункта 3 до тех пор, пока не будет удовлетворено одно из условий: , (7) где - некоторое пороговое значение, выбираемое заранее. Второе условие: функция потерь будет не отличаться от рассчитанной на предыдущем шаге: (8) Метод Оцу. Для применения метода необходимо заранее подготовить гистограмму спектрограммы речевого сигнала . Если допустить, что порог бинаризации находится на уровне , то относительные частоты для каждого из классов, на которые этот порог делит все точки изображения: (9) (10) где - максимальное значение, которое может принять . После этого необходимо вычислить средние уровни классов: , (11) (12) Дисперсия внутри каждого из классов: (13) (14) Одним из важных моментов, на которых базируется метод Оцу, является тот факт, что минимизация дисперсии внутри класса равносильна максимизации дисперсии между классами. Дисперсия внутри классов может быть рассчитана как взвешенная сумма дисперсий каждого отдельного класса: (15) Дисперсия между двумя классами: (16) После чего данная цепочка вычислений проводится для каждого . Оптимальный порог соответствует максимальному значению дисперсии между классами. Разобрав базовые моменты, связанные с методом Оцу, можно перейти к формулированию модифицированного для вычисления порога алгоритма: 1. Подготовка гистограммы спектрограммы речевого сигнала. 2. Выбор порогового значения бинаризации (в простейшем случае вначале выбирается минимальное возможное значение - 1). 3. Расчет относительных частот для классов. 4. Расчет среднего уровня каждого класса. 5. Расчет дисперсий - как внутриклассовой, так и между классами. 6. Выбор нового порога бинаризации (например, ). 7. Повторяем предыдущие пункты, начиная с 3, до тех пор, пока не рассмотрим все возможные пороги бинаризации ( ). 8. В качестве необходимого для дальнейшей обработки спектрограммы выбираем то пороговое значение, при котором было максимальное значение дисперсии между двумя классами и минимальным - значение внутриклассовой дисперсии. Расчет границ сегментов. Используя разработанные выше алгоритмы бинаризации спектрограммы речевого сигнала, можно получить пригодные для дальнейшего анализа изображения. Рис. 3. Спектрограмма после бинаризации, порог выбран при помощи метода k-средних Рис. 4. Спектрограмма после бинаризации, порог выбран при помощи метода c-средних Рис. 5. Спектрограмма после бинаризации, порог выбран при помощи метода Оцу На рис. 3 - спектрограмма, обработанная при помощи метода k-средних, на рис. 4 - при помощи нечетких c-средних, рис. 5 - при помощи метода Оцу. Финальный этап - определение границ отдельных сегментов - происходит следующим образом. Каждый столбец исследуется на предмет нахождения в нем черных и белых точек, после чего в зависимости от их соотношения принимается решении о замене столбца на полностью черный или полностью белый. На рис. 6 - пример подобной трансформации. Итоговое сравнение дано на рис. 7. Был проведен ряд экспериментов для каждого из методов, в ходе которых обрабатывалось 100 предложений от 5 различных человек, в каждом предложении по 5 слов. Результаты представлены в таблице. Рис. 6. Трансформированная спектрограмма речевого сигнала Рис. 7. Исходный речевой сигнал и обработанной спектрограммы Результаты экспериментального применения методов Номер говорящего Число предложений Общее число слов Число правильно выделенных слов и процент точности K-средних Нечетких c-средних Оцу # % # % # % №1 100 500 453 90,6 451 90,2 425 85,0 №2 100 500 453 90,6 454 90,8 458 91,6 №3 100 500 454 90,8 452 90,4 466 93,2 №4 100 500 451 90,2 460 92,0 472 94,4 №5 100 500 453 90,6 459 91,8 474 94,8 Всего 500 2500 2264 90,6 2276 91,0 2295 91,8 Средняя точность для метода k-средних 90,6 %, для метода нечетких c-средних 91,0 %, для метода Оцу 91,8 %. Для сравнения с полученными результатами можно обратиться к имеющимся в открытом доступе методикам сегментации речевого сигнала на слова и их эффективности. Подход, основанный на использовании скрытых марковских моделей, показывает эффективность в 90 % правильно выделенных слов [17]. В своей работе авторы используют Hidden Markov Model Toolkit (HTK) для сегментации речевого сигнала. Использование энергетических параметров для выделения слов позволило достичь эффективности в 85 % правильно выделяемых слов [18]. Авторами этой [19] работы было предложено использовать преобразование Гилберта для решения задачи определения участков активной речи. Данный подход показал результат в 88,15 % правильно выделенных слов. Еще один из предложенных вариантов - использование вейвлет-преобразования и показателя энтропии речевого сигнала (Perceptual wavelet entropy neighbor slope, PWENS) для определения участков активной речи [20] - показывает эффективность в 91 %. Выводы. В данной статье были предложены 3 метода сегментации речевого сигнала, основанные на анализе его спектрограммы. Наибольшую эффективность показал метод, построенный на использовании алгоритма Оцу. Его использование повышает эффективность корректного выделения слов в речевом сигнале на 1-3 % относительно существующих современных методов сегментации речи. Предлагается использование разработанного метода для построения программных комплексов, которые, в свою очередь, могут быть использованы и как отдельные системы сегментации речевого сигнала, и как модули более крупных систем анализа речевого сигнала.About the authors
D. S Kanishchev
Vyatka State University
References
- Rasanen O. Speech Segmentation and Clustering Methods for a New Speech Recognition Architecture. Helsinki University of Technology. - 2007. - P. 94.
- Cherif A., Bouafif L., Dabbabi T. Pitch Detection and Formant Analysis of Arabic Speech Processing // Applied Acoustics. - 2001. - Vol. 62. - P. 1129-1140. doi: 10.1016/S0003-682X(01)00007-X
- Sharma M., Mammone R. Subword-based text-dependent speaker verification system with user-selectable passwords // IEEE International Conference on Acoustics, Speech and Signal Processing. - 1996. - Vol. 1. - P. 93-96. doi: 10.1109/ICASSP.1996.540298
- Hioka Y., Hamada N. Voice activity detection with array signal processing in the wavelet domain // 11th European Signal Processing Conference. - 2002. - P. 1-4.
- Beritelli F., Casale S. Robust voiced/unvoiced speech classification using fuzzy rules // IEEE Workshop on Speech Coding for Telecommunications. - 1997. - P. 5-6. doi: 10.1109/SCFT.1997.623868
- Qi Y., Hunt B. R. Voiced-unvoiced-silence classifications of speech using hybrid features and a network classifier // IEEE Transactions on Speech and Audio Pressing. - 1993. - Vol. 1. - P. 250-255. doi: 10.1109/89.222883
- Basu S. A linked-HMM model for robust voicing and speech detection // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP’03). - 2003. - Vol. 1. - P. 816-819.
- Thangarajan R., Natarajan M., Selvam M. Syllable modeling in continuous speech recognition for Tamil language // International Journal of Speech Technology. - 2009. - Vol. 12. - P. 47-57. doi: 10.1007/s10772-009-9058-0
- Kvale K. Segmentation and Labeling of Speech // Norwegian Institute of Technology. - 1993. - P. 271.
- Rahman M., Bhuiyan A. Continuous Bangla Speech Segmentation using Short-term Speech Features Extraction Approaches // International Journal of Advanced Computer Science and Application (IJACSA). - 2012. - Vol. 3. - P. 131-138.
- SaiJayram A.K.V., Ramasubramanian V., Sreenivas T.V. Robust parameters for automatic segmentation of speech // IEEE International Conference on Acoustics, Speech and Signal Processing. - 2002. - Vol. 1. - P. 513-516. doi: 10.1109/ICASSP.2002.5743767
- Webb A. Statistical Pattern Recognition // John Wiley & Sons, New Jersey. - 2002. - Р. 496. doi: 10.1002/0470854774
- Tan P.N., Steinbach M., Kumar V. Introduction to Data Mining // Addison-Wesley, Boston. - 2005. - P. 769.
- Alpaydin E. Introduction to Machine Learning // MIT Press, Cambridge. - 2016. - Р. 206. doi: 10.1017/S0269888906220745
- Hathway R.J., Bezdek J. Optimization of Clustering Criteria by Reformulation // IEEE Transaction on Fuzzy Systems. - 1995. - Vol. 3. - P. 241-245. doi: 10.1109/91.388178
- Philipose S.S. A Triclass Image Segmentation using Adaptive K-means Clustering and Otsu’s Method // International Journal of Engineering Research and General Science. - 2015. - Vol. 3. - P. 134-138.
- Shanthi T., Chelpa L. Isolated word speech recognition system using HTK // International Journal of Computer Science Engineering and Information Technology Research. - 2014. - Vol. 4. - P. 81-86.
- Hossain A., Nahid N., Khan N.N., Gomes D.C., Mugab S.M. Automatic silence/unvoiced/voiced classification of Bangla velar phonemes: New approach // 8th International Conference on Computer and Information Technology, Dhaka. - 2011.
- Ortiz D., Villa L., Salazar C., Quintero O.L. A simple but efficient voice activity detection algorithm through Hilbert transform and dynamic threshold for speech pathologies // Journal of Physical: Conference Series. - 2016. - Vol. 705. - P. 9. doi: 10.13140/RG.2.1.2140.0406
- Lee G., Na S.D., Cho J., Kim M.N. Voice activity detection algorithm using perceptual wavelet entropy neighbor slope // Bio-Medical Materials and Engineering. - 2014. - Vol. 24. - P. 3295-3301. doi: 10.3233/BME-141152
Statistics
Views
Abstract - 90
PDF (Russian) - 101
Refbacks
- There are currently no refbacks.