語音增強方法基礎上對語音端點檢測探究

發布時間：所屬分類：科技論文瀏覽：1次

摘要：語音端點檢測結果好壞對后續的語音處理非常有幫助，為了解決語音端點在低信噪比情況下檢測率不高的問題，該文提出了基于深度置信網絡去噪的語音增強方法和傳統的端點檢測方法相結合的方法。該方法由大量的語音數據訓練深度置信網絡模型，使其能夠很好地映射

　　語音端點檢測結果好壞對后續的語音處理非常有幫助，為了解決語音端點在低信噪比情況下檢測率不高的問題，該文提出了基于深度置信網絡去噪的語音增強方法和傳統的端點檢測方法相結合的方法。該方法由大量的語音數據訓練深度置信網絡模型，使其能夠很好地映射帶噪與無噪語音之間的關系，進而使其成為一個良好的降噪濾波器，再對比帶噪與去噪后語音對端點檢測準確率的作用，以及不同信噪比的端點檢測的正確率。從該實驗結果可以得到，該方法在平穩噪聲和非平穩噪聲的低信噪情況下都可以提高語音端點檢測的準確率。

　　關鍵詞：語音端點檢測,深層置信網絡,語音處理

　　語音端點檢測(Voice Activity Detection，VAD)作為語音處理中十分重要的一環，其檢測效果的好壞直接決定著后續語音處理的結果的好壞，它是一種區分語音中的語音段和非語音段的技術。在語音處理等領域，語音端點檢測技術是最常用也是最重要的前端技術之一，它的檢測效果的好壞可以在很大程度上減少后續信號處理的運算量以及提高后續處理的精度及其通信系統的質量。本文著重研究了噪聲環境下的端點檢測的研究方法，通過將深度學習應用于語音增強的方法來提高噪聲環境下的端點檢測正確率。

　　語音和噪聲往往有著復雜的關系，加性噪聲和乘性噪聲是通常所考慮的。然而在現實生活中，加性噪聲往往對語音的質量影響比較大，假如用[y(t)]表示t時刻帶噪語音信號，[n(t)]表示t時刻噪聲信號，[x(t)]表示t時刻的無噪語音信號，那么加性噪聲模型可以表示如下：

　　傳統的去噪方法有能量過零率、倒譜距離以及譜熵法等，但對于非平穩噪聲，這些傳統的去噪方法對這些噪聲抑制效果很差，特別是非平穩噪聲在低信噪比情況下的語音信號，一般的傳統的方法無法正確區分無用和有用信息，經常會出現誤判，從而造成有用語音信息的丟失。最近幾年的時間，由于深度學習的廣泛應用，在機器學習領域有很好的應用，尤其是一種無監督的高效的逐層貪婪學習算法[1]在2006年被Hinton等人提出之后，構造了深度置信網絡(Deep Belief Network)，為以后的深度神經網絡奠定了基礎，而深度神經網絡能很好地挖掘數據的非線性特征。因此該文將深度學習中的深度置信網絡應用于語音增強，并提出了一種基于語音增強的端點檢測方法。實驗結果表明，無論是平穩噪聲還是非平穩噪聲下，該方法在不同噪聲環境及不同信噪比情況下，其檢測正確率都要高于傳統的倒譜距離端點檢測算法。

　　1 基于深度信念網絡的語音去噪

　　深度置信網絡由數個受限玻爾茲曼機[2](Restricted Boltzmann Machine，RMB)疊加構成。RBM是一種特殊的玻爾茲曼機，只有在顯層(Visible Layer)和隱層(Hidden Layer)之間有權重連接，顯層和顯層間以及隱層和隱層間都沒有連接。DBN的訓練可以分成兩個階段進行，分別為預訓練和參數優化。

　　1.1 預訓練階段

　　采用逐層貪心算法，將整個DBN看成一個個RMB進行訓練，前一個隱層的輸出可以作為下一個顯層的輸入。由于初始化RBM模型時用帶噪語音去訓練，第一個顯層的輸入為實數，因此第一個顯層和隱層為高斯?伯努利RBM，其余RBM為伯努利?伯努利RBM。如果顯層節點用向量[v]表示，隱層節點用向量h表示，連接用矩陣W表示;對于已經設定的一組狀態[v，h]，高斯?伯努利RBM顯層服從高斯分布，隱層服從伯努利分布，即[v]∈R，h∈{0，1}，由能量模型(Energy?Based Model，EBM)理論[3] 可得其能量函數定義。

　　1.2 參數優化階段

　　運用后向傳播算法[5](Back Propagation，BP)基于最小均方誤差準則來更新整個DBN的網絡參數，使得無噪語音的對數功率譜特征和帶噪語音的對數功率譜特征之間誤差最小。采用隨機梯度下降算法來加快DBN的學習收斂速度，其平均平方誤差為：

　　通過不斷地更新調整，DBN能夠很好地擬合帶噪和無噪語音數據之間的非線性映射。

　　2 基于倒譜距離的端點檢測方法

　　2.1 倒譜距離測量法

　　譜密度函數[S(ω)]和[S′(ω)]的倒譜系數分別是式(21)中的[cn]和[c′n]。對于檢測是否是語音幀還是噪聲幀，必須需要一個判決參數，而均方距離就可以作為判別參數，因為兩個語音信號譜的差別通常可以用對數譜的均方距離表示。

　　2.2 倒譜距離測量法的檢測流程

　　(1) 首先在語音數據集中取一抽樣語音信號，并取其前幾幀信號為背景噪聲。那么背景噪聲倒譜系數的估計值則能夠用這些已經設定好的前幾幀信號的倒譜系數的平均值來表示，定義其為向量C。

　　(2) 計算每幀信號的倒譜系數與噪聲倒譜系數估計值的倒譜距離，可以對式(21)進行化簡處理，近似可表示為：

　　(3) 通過式(22)能夠計算得到各信號幀倒譜距離的倒譜距離軌跡，然后通過門限判決的方法來確定抽樣語音的語音幀和噪聲幀。

　　(4) 由于噪聲的種類是多種多樣并且不斷變化，因此要得到較準確的檢測，向量C必須與其變化相適應，本文所采用的自適應處理過程能夠解決這個問題，即將前一信號幀的倒譜向量作為向量C，并按照

　　3 實驗過程與結果分析

　　為了檢驗該文方法的效果，本實驗仿真平臺采用Matlab軟件，實驗采用的是微軟的MSRA語音庫，利用深度信念網絡對語音進行去噪[6]。訓練數據加入-5 dB，0 dB，5 dB，10 dB，15 dB的噪聲。噪聲源選取Noisex 92 中的Babble，Leopard兩種噪聲，其中Babble噪聲是非平穩噪聲，Leopard為平穩噪聲，DBN采用的是只有一個隱層的三層神經網絡進行降噪，將不同信噪比的MFCC特征作為網絡的輸入，把干凈的MFCC特征作為目標值進行訓練。之后將去噪后的語音信號的MFCC特征進行提取系數等信息并用于倒譜距離的語音端點檢測，在對比不同信噪比的MFCC直接用于倒譜距離的端點檢測結果。

　　本文所提的基于語音增強算法的端點檢測在不平穩噪聲Babble 和平穩噪聲Leopard下都有比傳統的檢測算法更高的準確率，同時在不同信噪比下，也有更高的檢測準確率。本文算法在平穩噪聲和不平穩噪聲的檢測中，檢測準確率更加接近，而傳統的檢測算法，在非平穩噪聲下，檢測準確率直線下降，在強噪聲環境下，檢測正確率更是與本文算法相差較大，達到16%左右。通過5種信噪比及不同的噪聲環境下的端點檢測實驗，可以得出，在不平穩噪聲情況下，傳統的檢測算法在信噪比降低的情況下，檢測正確率下降較快，而本文算法，檢測正確率下降的幅度遠遠小于傳統的檢測算法。

　　4 結語

　　本文主要是對噪聲條件下的語音端點檢測進行研究，以往傳統的語音端點檢測算法在高信噪比下的檢測正確率都比較高，而在低信噪比下的效果則不明顯，尤其是對不同的噪聲情況都沒有一個統一的解決方法。本文采用的基于深度置信網絡的語音增強方法，由于其能夠很好地映射帶噪與無噪語音之間的非線性關系，因此通過對噪聲特性的訓練，能夠對某種特定的噪聲情況有較好的去噪效果，因而可以降低平穩噪聲和非平穩噪聲在語音端點檢測中的影響。然而本文的不足之處是只考慮了一種非平穩噪聲Babble和一種平穩噪聲Leopard的影響，沒有考慮其他噪聲，但在現實生活中，噪聲的種類是非常多的，而且是隨機的。

　　注：本文通訊作者為黃浩。

　　參考文獻

　　[1] HINTON G E， OSINDERO S， TEH Y W. A fast learning algorithm for deep belief nets [J]. Neural computation， 2006， 18(7)：1527?1554.

　　[2] SALAKHUTDINOV R. Learning deep generative models [D]. Toronto： University of Toronto， 2009.

　　[3] LECUN Y， CHOPRA S， HADSELL R， et al. A tutorial on energy?based learning [C]// Predicting structured data.

　　Cambridge： MIT press， 2006：191?246.

　　[4] HINTON G. Training products of experts by minimizing contrastive divergence [J]. Neural computation， 2002，14(8)： 1771?1800.

　　[5] LECUN Y， BOTTOU L， BENGIO Y， et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE， 1998， 86(11)： 2278?2324. [6] 徐勇.基于深層神經網絡的語音增強方法研究[D].合肥：中國科學技術大學，2015.

　　[7] KENNY P， OUELLET P， DEHAK N， et al. A study of interspeaker variability in speaker verification [J]. IEEE transactions on audio speech and language processing， 2008， 16(5)： 980?988.

　　[8] MARKOVI? I， DOMITROVI? H， PETROVI? I. Comparison of statistical model?based voice activity detectors for mobile robot speech applications [J]. IFAC proceedings volumes， 2012， 45(22)： 39?44.

　　[9] HUANG S H， CHANG J H. Optimally weighted maximum a posteriori probabilities based on minimum classification error for dual?microphone voice activity detection [J]. Applied acoustics， 2016，113： 221?229.

　　[10] MING M， WANG K， JI H. Novel DTD and VAD assisted voice detection algorithm for VoIP systems [J]. Journal of China Universities of Posts and Telecommunications， 2016， 23(4)： 9?16.

　　[11] KANG S I， CHANG J H. Voice activity detection based on discriminative weight training incorporating a spectral flatness measure [J]. Circuits systems and signal processing， 2010， 29(2)： 183?194.

　　[12] PARK Y S， LEE S M. Speech enhancement through voice activity detection using speech absence probability based on Teager energy [J]. Journal of Central South University， 2013， 20(2)： 424?432.

　　[13] YOU D， HAN J， ZHENG G， et al. Sparse representation with optimized learned dictionary for robust voice activity detection [J]. Circuits systems， and signal processing， 2014， 33(7)： 2267?2291.

　　[14] 張慧，馬建芬.基于語音端點檢測和子空間方法的語音增強算法[J].計算機應用，2009(z1)：340?341.

　　[15] 胡光銳，韋曉東.基于倒譜特征的帶噪語音端點檢測[J].電子學報，2000(10)：95?97.

　　[16] 陳振鋒，吳蔚瀾，劉加，等.基于Mel倒譜特征順序統計濾波的語音端點檢測算法[J].中國科學院大學學報，2014(4)：524?529.

　　[17] 田旺蘭，李加升.改進運用深度置信網絡的語音端點檢測方法[J].計算機工程與應用，2014(20)：207?210.

　　[18] 王家良.基于深度置信網絡的說話人識別研究與實現[D].南京：南京郵電大學，2015.

語音增強方法基礎上對語音端點檢測探究

熱門核心期刊

SCI|SSCI指導

EI|SCOPUS指導

翻譯潤色解答

論文發表指導

學術成果常識