CDR調頻數字音頻廣播信源編碼技術

發表時間:2014-12-11

來源:

作者:

打印

收藏

【字號:

關閉

數字音頻編解碼技術國家工程實驗室
閆建新 倫繼好 王磊

 【摘要】本文介紹了一種適用於我國調頻數字音頻廣播的音頻信源編碼技術,具有較高的編碼效率及分層編碼結構,允許在一個模擬調頻頻道內傳輸多套數字立體聲節目或一路環繞聲節目,並保持較好的主觀聲音質量,同時可匹配信道分層特點,能夠提供立體聲和環繞聲兩種分層編碼模式,從而兼顧了數字調頻廣播的服務範圍和服務質量。

    1.前言
    根據我國調頻數字音頻廣播係統的特點,其音頻業務的信源編碼技術基本要求是:一方麵應有高的編碼效率,即在較低的碼率下提供較高的主觀聲音質量;另一方麵根據信道特性,如分層調製和不等錯信道編碼技術,也需要信源編碼能夠提供粗分層的編碼碼流格式。
    當前,低碼率音頻編碼技術主要包括三大標準,一種是ITU也對以前通信中的語音編碼技術向寬帶音頻進行了擴展研究,形成了AMR-WB+[1];第二種是MPEG組織對高質量音頻編碼算法AAC通過增強編碼工具擴展形成的低碼率編碼算法HE-AAC V2[2];這兩種編碼算法都被選為ITU 3GPP音頻編碼規範。由於這兩種編碼算法是基於不同的理論而研究出來的:前者充分利用人耳聽覺特性;而後者主要利用人的發聲模型;因此在低碼率(如24kbps/立體聲碼率附近)時,HE-AACv2對音樂類信號編碼很好,對語音類信號編碼有明顯失真;AMR-WB+對語音信號有很好的效果,而對音樂信號則顯得太單薄;因此在2008年MPEG組織啟動開發一種新的低碼率音頻編碼技術,要求對所有音頻信號,任何情況下其編碼效率不低於HE-AACv2和AMR-WB+,也就是第三種低碼率音頻編碼算法MPEG-D
USAC,其主要編碼原理是綜合前兩種低碼率音頻編碼算法的特點,並對多聲道編碼技術和帶寬擴展技術進一步改進和優化,同時采用更高效的熵編碼-算術編碼獲得更大的壓縮效率,其主觀聲音質量全麵優於HE-AACv2和AMR-WB+。
    在分層音頻編碼上,包括精細分層和非精細分層(或粗分層)方式。精細分層方式又包括有損數字音頻編碼方法及無損音頻編碼技術,如ISO/IEC 14496-3 MPEG-4 BSAC(Bitsliced arithmetic coding)比特片算術編碼和MPEG- SLS(Scalable Lossless Coding)[2]的無損增強層方式,但精細分層方式存在編碼效率低、結構複雜、處理邏輯複雜度高等缺點;非精細分層的編碼方案包括:在MPEG-4第三部分和MPEG-2第七部分中都提供了可伸縮采樣率編碼算法 AAC-SSR(Advanced Audio Coding-ScalableSampling Rate),編碼架構也類似於SONY的ARTAC(Adaptive Transform Acoustic Coding)編碼。該編碼方案首先將輸入的數字音頻信號通過4帶的多相正交濾波器組(PQF,Polyphase Quadrature Filter)分割成4個頻帶,然後這4個頻帶分別進行MDCT。該編碼方案還可通過去除高PQF帶的方式降低數據率,通過減少頻帶的方式實現比特流粗分層。這種編碼方案可非常簡單的獲得4個分層,但是由於4個PQF帶間存在混迭,因此相鄰部分的變換域係數編碼效率會下降,並且減少分層會明顯降低音頻信號帶寬。
    國家標準GB/T 22726-2008 《多聲道數字音頻編解碼技術規範》[3](簡稱DRA)是一種高質量高碼率的音頻編碼算法,其典型編碼碼率為128kbps/立體聲,5.1聲道環繞聲碼率384kbps。這樣,對於調頻數字音頻廣播的大部分音頻業務而言,編碼碼率偏高;而降低碼率後的編碼聲音質量又不滿足要求。
    在廣泛研究了以上低碼率音頻編碼技術和分層編碼技術的基礎上,並且依托我國自主知識產權的國家標準DRA編碼算法,以兼容方式並通過對DRA輔助數據擴展方式給出了適合我國調頻數字音頻廣播的音頻信源編碼技術,圖1為調頻數字音頻廣播係統中對音頻業務的編解碼模塊的作用和位置。
 
圖1 調頻數字音頻廣播係統中的音頻編碼

    2.CDR編碼算法
    2.1 編碼框架
    在調頻頻段數字音頻廣播中,提供了數字音頻廣播音頻編碼的4種編碼類型,其中類型0為DRA,但對其聲道數量、采樣率範圍及碼率參數做出了一定的限製;其他3種類型是基於DRA基礎上技術擴展,包括DRA低碼率音頻編碼、DRA分層編碼和DRA低碼率分層編碼。每種編碼支持的聲道模式為:單聲道、立體聲和5.1環繞聲。
表1 音頻編碼類型
 
    因為DRA編碼類型已有國家標準GB/T
    22726-2008 《多聲道數字音頻編解碼技術規範》,所以本文主要描述基於DRA編碼技術規範的其他3種擴展編碼類型。DRA擴展編碼類型的算法是在DRA附加數據部分通過提供多個增強編碼工具和編碼功能實現的,包括:頻帶複製技術(例如SBR)、參數立體聲(例如PS)和分層模塊等,下一節主要介紹其他三種編碼算法的原理。
    2.2 編碼框架
   (1)DRA_S編碼類型的編碼框架
    DRA_S的單聲道和立體聲的具體編碼框架如圖2所示。
    在編碼類型1(DRA_S)單聲道編碼算法中,DRA編碼模塊對其輸入信號的低頻部分進行編碼處理,輸出DRA編碼碼流;帶寬擴展編碼模塊對其輸入信號的高頻部分進行編碼處理,輸出SBR編碼碼流。所有碼流通過複用碼流模塊輸出DRA_S碼流。
    在編碼類型1(DRA_S)立體聲編碼算法中,立體聲音頻信號根據編碼碼率選擇是否使用參數立體聲編碼模塊處理,如果使用則輸出參數立體聲編碼碼流;DRA編碼模塊對其輸入信號的低頻部分進行編碼處理,輸出DRA編碼碼流;帶寬擴展編碼模塊對其輸入信號的高頻部分進行編碼處理,輸出帶寬擴展編碼碼流。所有碼流通過複用碼流模塊輸出DRA_S碼流。
 
圖2 DRA_S單聲道或立體聲編碼框圖
    DRA_S的環繞聲的具體編碼原理如圖3所示。DRA_S環繞聲編碼結構則由三部分構成:L&R聲道對DRA_S編碼、C單聲道DRA_S編碼及LFE聲道DRA編碼和LS&RS聲道對DRA_S編碼。
 
圖3 DRA_S環繞聲編碼框圖
    (2)DRA_L編碼類型的編碼框架
    DRA_L的單聲道和立體聲的具體編碼框架如圖4所示。基本層編碼的方法是首先根據基本層分配的編碼比特率進行DRA編碼;輸入信號與基本層恢複的信號間的殘差信號作為增強層輸入信號,增強層采用與DRA量化和熵編碼同樣的技術對殘差信號壓縮。
 
圖4 DRA_L單聲道或立體聲編碼框圖
    DRA_L環繞聲的具體編碼原理如圖5所示。基本層以對左右聲道以立體聲對應用DRA編碼;增強層包括中央聲道和超重低音聲道的單聲道DRA編碼和左右環繞聲道對DRA編碼。
 
圖5 DRA_L環繞聲編碼框圖
    (3)DRA_SL編碼類型的編碼框架
    DRA_SL單聲道或立體聲的具體編碼框架如圖6所示,其編碼原理可參考DRA_S和DRA_L。
 
圖6 DRA_SL單聲道或立體聲編碼框圖
    DRA_SL環繞聲的具體編碼原理如圖7所示。
 
圖7 DRA_SL環繞聲編碼框圖
    2.3 音頻編碼算法的數據結構
   (1)DRA編碼算法的幀結構
    圖8為一般DRA的幀結構,其中在幀頭信息中有1比特指明是否存在輔助數據的指示,“1”表明有,“0”表明沒有。
 
圖8 DRA基本幀結構示意圖
   (2)輔助數據擴展的一般結構
    輔助數據擴展的結構示意圖如圖9所示。其中每個數據塊下麵小括號內的數字表示其占用的長度,單位為比特,X1,Xn分別為第1個和第n個輔助類型的數據長度,單位為字節。
 
圖9 輔助數據的結構示意圖

    以下DRA_S、DRA_L和DRA_SL編碼的基本幀結構都是通過圖9的輔助數據擴展格式為基礎定義的。
   (3)DRA_S編碼類型的基本幀結構
    DRA_S編碼主要是利用輔助數據擴展部分所提供的增強編碼工具,包括帶寬擴展編碼工具和參數立體聲編碼工具等,提高編碼DRA的編碼效率,提供低碼率音頻編碼算法。其基本結構為:(其中虛線框為可選數據單元)
 
圖10 DRA_S幀結構
  (3)DRA_L及DRA_SL分層基本幀結構
    分層又根據編碼的聲道數分為單聲道與立體聲的分層以及5.1環繞聲的分層兩種。
    圖11和圖13分別給出了單聲道或立體聲的DRA分層編碼(DRA_L)和DRA低碼率分層編碼(DRA_SL)結構。其基本編碼過程是根據總編碼比特率合理分配基本層和增強層的比特率,然後分別對基本層和增強層進行編碼。
    DRA_L單聲道或立體聲編碼的過程:根據基本層分配的編碼比特率進行單聲道或立體聲對DRA編碼;從MDCT域的原始音頻信號與基本層解碼後部分恢複的音頻信號之間的殘差作為增強強層編碼的輸入信號,通過類似於DRA熵編碼模塊處理編碼,但是其中殘差信號編碼熵編碼的碼書選擇及其應用範圍、量化步長指數和Huffman碼書都進行了優化,提高殘差信號熵編碼效率。
    DRA_SL單聲道或立體聲編碼的過程:輸入為單聲道時,基本層中隻對單聲道進行DRA編碼,並根據基本層分配的比特率,可自動選擇是否啟動帶寬擴展編碼工具;增強層編碼與DRA_L的單聲道增強層編碼相同。當輸入為立體聲時,基本層采用DRA_S編碼;增強層采用DRA_L增強層同樣的編碼。
    圖12和圖14分別給出了DRA_L和DRA_SL環繞聲分層幀結構示意圖,采用環繞聲二分層的結構,形成基本層和增強層。其基本編碼過程為:首先根據總比特率要求合理分配基本層和增強層各自所占比率,然後分配各聲道對和獨立聲道的比特率,最後分別對基本層和增強層編碼。
    DRA_L環繞聲分層編碼為:基本層編碼是對左右聲道以立體聲對方式直接應用DRA算法編碼;增強層對中央聲道和超重低音聲道分別進行單聲道DRA編碼,對左右環繞聲道也以立體聲對方式進行DRA編碼。
    DRA_SL環繞聲分層編碼為:在基本層中對左聲道和右聲道組成的立體聲對進行立體聲DRA編碼,並且可根據立體聲對的編碼碼率需求自適應地選擇應用帶寬擴展技術和參數立體聲編碼技術。當僅選擇使用帶寬擴展技術時,則DRA編碼部分將隻對輸入聲道的低頻帶部分編碼;當又開啟了參數立體聲編碼技術時(此時帶寬擴展編碼技術應已經使用), DRA編碼部分應修改為僅對縮混的單聲道低頻部分進行編碼。在增強層中,首先對中央聲道C進行DRA編碼,可選采用帶寬擴展編碼技術,然後對超重低音聲道LFE采用DRA編碼。最後對左右環繞聲道(LS和RS)進行立體聲對DRA編碼,類似於左右聲道對編碼方式,可自適應地開啟帶寬擴展和參數立體聲編碼技術,提高對環繞聲對的編碼效率。
 
圖11 DRA_L單聲道或立體聲分層算法的幀結構
 
圖12 DRA_L 5.1環繞聲分層算法的幀結構
 
圖13 DRA_SL單聲道或立體聲分層算法的幀結構
 
圖14 DRA_SL 5.1環繞聲分層算法的幀結構
    3.測試及試驗結果
   (1)DRA編碼技術測試
    根據ITU-R BS.1116[4]小損傷聲音主觀測試標準,采用雙盲三激勵隱藏基準5級評價方法對DRA多聲道數字音頻編碼技術DRA編碼算法進行了正式主觀聽音測試,測試主要條件包括:測試環境為國家數字電視係統測試實驗室音視頻主觀評價室;測試人員為41個有聽音測試經驗的人員(包括專家組和專業組);環繞聲測試序列包括4個國際標準測試片段和2個商業片段,立體聲測試序列主要由國際標準測試序列組成。DRA在384kbps碼率下5.1聲道獲得4.9分;128kbps碼率立體聲獲得4.7分。同時測試結果也表明:DRA技術在每聲道64kbps的碼率時即“達到了EBU(歐洲廣播聯盟)定義的‘不能識別損傷’的音頻質量”。同時DRA編碼技術也被國際藍光協會(BDA)分別進行了兩輪主觀聲音質量測試,包括在日本BDA成員專家進行的主觀測試和好萊塢片商組織的主觀測試,測試表明DRA音頻編碼算法都滿足其嚴格的高質量主觀音質要求。
   (2)DRA_S(DRA低碼率)音頻編碼測試
    內部測試結果:根據ITU-R BS.1534[5]中等質量音頻主觀測試標準,對DRA低碼率音頻編碼算法進行了內部主觀聽音測試,測試主要條件包括:測試環境為數字音頻編解碼技術國家工程實驗室聽音室,測試設備為專業聲卡及高保真耳機HD600;測試人員為11個有聽音測試經驗的人員(包括編碼算法開發人員及其他相關人員);測試序列為MPEG低碼率音頻編碼標準開發所使用的12個測試序列(立體聲wav文件,采樣率48kHz,量化比特16比特)。測試結果表明DRA_S編碼在48kbps/立體聲碼率下83.6分;同樣條件下DRA編碼僅獲得62.6分。
    正式測試結果:根據ITU-R BS.1534中等質量音頻主觀測試標準,對DRA低碼率音頻編碼算法進行了正式主觀聽音測試,測試主要條件包括:測試環境為國家廣播電影電視總局廣播電視計量檢測中心視頻主觀評價室;測試人員為21個有聽音測試經驗的人員(包括專家組和專業組);測試測試序列包括6個立體聲wav文件,采樣率48kHz,量化比特為16bit,選自EBU主觀評價序列及商業CD。DRA_S編碼在48kbps/立體聲碼率下獲得84.6分。
    (3)DRA_L及DRA_SL分層音頻編碼測試結果
    由於DRA_L及DRA_SL編碼算法分別基於DRA及DRA_S編碼算法基礎上完成的,特別基本層完全采用DRA或DRA_S編碼方法,因此完全可以根據DRA和DRA_S編碼的主觀聲音質量估計DRA_L和DRA_SL分層編碼的主觀聲音質量。對於單聲道和立體聲編碼方法,根據其編碼原理可以推斷出DRA_L和DRA_SL基本層編碼質量分別與(基本層比特率下的)DRA和DRA_S的編碼質量相同;DRA_L和DRA_SL(基本層及增強層的全比特率條件下)的編碼質量分別略低於同樣碼率下的DRA和DRA_S編碼質量(這是由於增強層需要一些額外開銷表示增強層信息)。同樣對於5.1環繞聲情況,由於DRA_L和DRA_SL基本層編碼前置立體聲信號,因此分別與DRA和DRA_SL編碼質量相同;對於DRA_L和DRA_SL(基本層及增強層的全比特率條件下)分別與DRA和DRA_S環繞聲質量相當(根據國家工程實驗室聽音室進行的非正式主觀聽音測試)。
    4.結論
    本文介紹了一種適用於我國數字調頻廣播中音頻業務信源編碼的壓縮技術,除了已經成功國家標準的DRA標準編碼規範外,同時擴展了三種其他編碼模式,可滿足於不同質量等條件下的各種廣播業務需求。主觀聲音測試結果表明DRA_S在低碼率下明顯好於DRA,且在低碼率下能夠提供較好的主觀聲音質量;在與DRA和DRA_S相當的主觀聲音質量下,DRA_L和DRA_SL分別提供了分層的數據結構,可直接匹配於支持分層的信道及調製傳輸方式,便於有效處理我國調頻數字音頻廣播中覆蓋和聲音質量的問題。

   參考文獻:
    [1]3GPP TS 26.290: "Audio codec processing functions; Extended Adaptive Multi-Rate- Wideband (AMR-WB+) codec; Transcoding functions "
    [2]ISO/IEC14496-3:2009 Information technology - Coding of audio-visual objects -Part 3: Audio
    [3]GB/T 22726-2008 《多聲道數字音頻編解碼技術規範》
    [4]ITU-R BS.1116-1《Methods for the subjectiveassessment of small impairments in audio systems including multichannel sound systems》
    [5]ITU-R BS.1534-1《Method for the subjective assessment of intermediate quality level of coding systems》
附件下載:
相關鏈接:

>> 相關內容

國家廣播電視總局
中華人民共和國國家版權局
TVOS開源社區
ChinaDRM實驗室
CCBN
廣播與電視技術

國家級實驗室|人才招聘|聯係我們

版權所有:國家廣播電視總局廣播電視科學研究院      京ICP備05036324      訪問統計: