語音合成芯片技術的發(fā)展歷程可以分為3個階段:
第一代嵌入式語音合成引擎(2000年):單音節(jié)波形拼接技術:
單音節(jié)波形拼接技術是第一代語音合成技術。簡單地說,單音節(jié)波形拼接技術就是預先將漢語發(fā)音中需要用到的1400多個音節(jié)全部錄制下來,制作成一個音庫。當合成文本時,根據(jù)每一個漢字的拼音從從音庫中找到合適音節(jié),然后拼接起來,這樣就可以實現(xiàn)最簡單的語音合成系統(tǒng)。 但是采取這種技術合成出來的效果很難令人滿意,是一字一頓的機械效果,語句連貫性很差,無法進行大規(guī)模應用。
第二代嵌入式語音合成引擎(2004年):大語料庫裁減技術
為了改進第一代語音合成技術,人們想到了大語料庫的合成方法。在第一代合成技術中,人們沒有考慮到每一個音節(jié)在不同語句環(huán)境下其實發(fā)音表現(xiàn)是有區(qū)別的,每個音節(jié)只有一個候選單元,拼接起來很生硬,因此造成了語句的不連貫性。
而在大語料庫的合成方法中,為了解決不同情況下漢字的發(fā)音不同的問題,人們就將語料庫進一步完善,將漢語音節(jié)在不同情況下的發(fā)音候選單元盡量多地保存在音庫中,在合成時先進行韻律環(huán)境分析,然后從音庫中挑選出最合適當前語境的音節(jié)候選單元進行拼接。因此音庫尺寸越大,其包含的不同情況下的不同發(fā)音就越多,也就越貼近自然人的發(fā)音。目前,專業(yè)級的語音合成系統(tǒng),如訊飛的電信級、服務級語音合成系統(tǒng),均采用了大語料庫甚至超大語料庫的算法,每個音庫的尺寸可以達到幾個G的規(guī)模,理論上可以逼近原發(fā)音人的效果。
但在嵌入式環(huán)境,顯然不可能容納這么大的音庫,必須進行裁減。這一代的嵌入式語音技術就是基于各種統(tǒng)計決策算法,從大語料庫系統(tǒng)中挑選出最有代表性的若干音節(jié)并保存,裁減掉其他候選音節(jié)。從而一方面降低了系統(tǒng)尺寸,另一方面在一定程度上保證了較好的合成效果。
大語料庫技術的缺陷在于,如果要不斷提升合成效果,就只有不斷增加語料庫中音節(jié)候選單元的個數(shù),相應地系統(tǒng)尺寸就不斷增大。
第三代嵌入式語音合成引擎(2005年):尺寸縮減,效果提升:
為了進一步改善合成效果,并且不受系統(tǒng)尺寸的限制,科大訊飛不斷投入研發(fā),進而發(fā)展到第三代語音合成技術。
這一代技術相比第二代又有了很大改進。主要體現(xiàn)如下:
首先,自然度得到提升,合成效果更好,更加具有實用性;
其次,合成時可調(diào)節(jié)范圍更廣,例如語速調(diào)節(jié)和語調(diào)調(diào)節(jié)等等;
第三,系統(tǒng)尺寸更小,處理器資源占用更少,更加適應嵌入式環(huán)境的應用。
第三代技術的發(fā)展,使得嵌入式語音合成效果得到大幅度提升,給嵌入式語音技術的大規(guī)模商業(yè)應用帶來了契機,并且向人們昭示出了語音合成技術發(fā)展更加光明的前景。大家可以在訊飛語音電子書產(chǎn)品中,感受到第三代語音合成技術的效果,它也代表著目前世界最高水平的嵌入式中文語音合成技術的效果。
本文語音合成芯片技術的發(fā)展歷程由深圳奧爾偉業(yè)www.daohang52.com提供,奧爾偉業(yè)可接受語音芯片方案個性化定制,滿足客戶的各種語音芯片方案需求。