天堂资源成人√,久热最新,欧美黄色免费在线观看,国产精品久久久久久久久久精爆,91日韩中文字幕,av免费一区二区,7777精品久久久大香线蕉电影

音頻轉(zhuǎn)碼方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程

文檔序號(hào):42296786發(fā)布日期:2025-06-27 18:35閱讀:18來源:國(guó)知局

所屬的技術(shù)人員能夠理解,本發(fā)明的各個(gè)方面可以實(shí)現(xiàn)為系統(tǒng)、方法或程序產(chǎn)品。因此,本發(fā)明的各個(gè)方面可以具體實(shí)現(xiàn)為以下形式,即:完全的硬件實(shí)施方式、完全的軟件實(shí)施方式(包括固件、微代碼等),或硬件和軟件方面結(jié)合的實(shí)施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。下面參照?qǐng)D5來描述根據(jù)本發(fā)明的這種實(shí)施方式的音頻轉(zhuǎn)碼裝置500。圖5所示的音頻轉(zhuǎn)碼裝置500僅僅是一個(gè)示例,不應(yīng)對(duì)本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。音頻轉(zhuǎn)碼裝置500以硬件模塊的形式表現(xiàn)。音頻轉(zhuǎn)碼裝置500的組件可以包括但不限于:檢測(cè)模塊502,用于響應(yīng)于獲取到的原始音頻流,檢測(cè)原始音頻流的音頻內(nèi)容類型和源流音量;添加模塊504,用于基于與原始音頻流的時(shí)間戳的對(duì)齊操作,將音頻內(nèi)容類型和源流音量添加至原始音頻流,得到增強(qiáng)音頻流;確定模塊506,用于基于源流音量和參考音量之間的關(guān)系確定轉(zhuǎn)碼音頻流的目標(biāo)音量,其中,在轉(zhuǎn)碼過程中檢測(cè)到出現(xiàn)音頻內(nèi)容類型的切換時(shí),基于切換前的第一源流音量調(diào)整切換后的第二源流音量,以基于調(diào)整后的第二源流音量和參考音量之間的關(guān)系確定目標(biāo)音量。下面參照?qǐng)D6來描述根據(jù)本發(fā)明的這種實(shí)施方式的電子設(shè)備600。圖6顯示的電子設(shè)備600僅僅是一個(gè)示例,不應(yīng)對(duì)本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。如圖6所示,電子設(shè)備600以通用計(jì)算設(shè)備的形式表現(xiàn)。電子設(shè)備600的組件可以包括但不限于:上述至少一個(gè)處理單元610、上述至少一個(gè)存儲(chǔ)單元620、連接不同系統(tǒng)組件(包括存儲(chǔ)單元620和處理單元610)的總線630。其中,存儲(chǔ)單元存儲(chǔ)有程序代碼,程序代碼可以被處理單元610執(zhí)行,使得處理單元610執(zhí)行本說明書上述“示例性方法”部分中描述的根據(jù)本發(fā)明各種示例性實(shí)施方式的步驟。例如,處理單元610可以執(zhí)行如圖1中所示的步驟s202和步驟s208,以及本公開的音頻轉(zhuǎn)碼方法中限定的其他步驟。存儲(chǔ)單元620可以包括易失性存儲(chǔ)單元形式的可讀介質(zhì),例如隨機(jī)存取存儲(chǔ)單元(ram)6201和/或高速緩存存儲(chǔ)單元6202,還可以進(jìn)一步包括只讀存儲(chǔ)單元(rom)6203。存儲(chǔ)單元620還可以包括具有一組(至少一個(gè))程序模塊6205的程序/實(shí)用工具6204,這樣的程序模塊6205包括但不限于:操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)??偩€630可以為表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲(chǔ)單元總線或者存儲(chǔ)單元控制器、外圍總線、圖形加速端口、處理單元或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。電子設(shè)備600也可以與一個(gè)或多個(gè)外部設(shè)備660(例如鍵盤、指向設(shè)備、藍(lán)牙設(shè)備等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該電子設(shè)備交互的設(shè)備通信,和/或與使得該電子設(shè)備600能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如路由器、調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口640進(jìn)行。并且,電子設(shè)備600還可以通過網(wǎng)絡(luò)適配器650與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器650通過總線630與電子設(shè)備600的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合電子設(shè)備使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理單元、外部磁盤驅(qū)動(dòng)陣列、raid系統(tǒng)、磁帶驅(qū)動(dòng)器以及數(shù)據(jù)備份存儲(chǔ)系統(tǒng)等。通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員易于理解,這里描述的示例實(shí)施方式可以通過軟件實(shí)現(xiàn),也可以通過軟件結(jié)合必要的硬件的方式來實(shí)現(xiàn)。因此,根據(jù)本公開實(shí)施方式的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲(chǔ)在一個(gè)非易失性存儲(chǔ)介質(zhì)(可以是cd-rom,u盤,移動(dòng)硬盤等)中或網(wǎng)絡(luò)上,包括若干指令以使得一臺(tái)計(jì)算設(shè)備(可以是個(gè)人計(jì)算機(jī)、服務(wù)器、終端裝置、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行根據(jù)本公開實(shí)施方式的方法。在本公開的示例性實(shí)施例中,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有能夠?qū)崿F(xiàn)本說明書上述方法的程序產(chǎn)品。在一些可能的實(shí)施方式中,本發(fā)明的各個(gè)方面還可以實(shí)現(xiàn)為一種程序產(chǎn)品的形式,其包括程序代碼,當(dāng)程序產(chǎn)品在終端設(shè)備上運(yùn)行時(shí),程序代碼用于使終端設(shè)備執(zhí)行本說明書上述“示例性方法”部分中描述的根據(jù)本發(fā)明各種示例性實(shí)施方式的步驟。根據(jù)本發(fā)明的實(shí)施方式的用于實(shí)現(xiàn)上述方法的程序產(chǎn)品,其可以采用便攜式緊湊盤只讀存儲(chǔ)器(cd-rom)并包括程序代碼,并可以在終端設(shè)備,例如個(gè)人電腦上運(yùn)行。然而,本發(fā)明的程序產(chǎn)品不限于此,在本文件中,可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。所述程序產(chǎn)品可以采用一個(gè)或多個(gè)可讀介質(zhì)的任意組合。可讀介質(zhì)可以是可讀信號(hào)介質(zhì)或者可讀存儲(chǔ)介質(zhì)??勺x存儲(chǔ)介質(zhì)例如可以為但不限于電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合??勺x存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式盤、硬盤、隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。計(jì)算機(jī)可讀信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了可讀程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括但不限于電磁信號(hào)、光信號(hào)或上述的任意合適的組合??勺x信號(hào)介質(zhì)還可以是可讀存儲(chǔ)介質(zhì)以外的任何可讀介質(zhì),該可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于無線、有線、光纜、rf等等,或者上述的任意合適的組合??梢砸砸环N或多種程序設(shè)計(jì)語言的任意組合來編寫用于執(zhí)行本發(fā)明操作的程序代碼,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言—諸如java、c++等,還包括常規(guī)的過程式程序設(shè)計(jì)語言—諸如“c”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算設(shè)備上執(zhí)行、部分地在用戶設(shè)備上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算設(shè)備上部分在遠(yuǎn)程計(jì)算設(shè)備上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算設(shè)備或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算設(shè)備的情形中,遠(yuǎn)程計(jì)算設(shè)備可以通過任意種類的網(wǎng)絡(luò),包括局域網(wǎng)(lan)或廣域網(wǎng)(wan),連接到用戶計(jì)算設(shè)備,或者,可以連接到外部計(jì)算設(shè)備(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。應(yīng)當(dāng)注意,盡管在上文詳細(xì)描述中提及了用于動(dòng)作執(zhí)行的設(shè)備的若干模塊或者單元,但是這種劃分并非強(qiáng)制性的。實(shí)際上,根據(jù)本公開的實(shí)施方式,上文描述的兩個(gè)或更多模塊或者單元的特征和功能可以在一個(gè)模塊或者單元中具體化。反之,上文描述的一個(gè)模塊或者單元的特征和功能可以進(jìn)一步劃分為由多個(gè)模塊或者單元來具體化。此外,盡管在附圖中以特定順序描述了本公開中方法的各個(gè)步驟,但是,這并非要求或者暗示必須按照該特定順序來執(zhí)行這些步驟,或是必須執(zhí)行全部所示的步驟才能實(shí)現(xiàn)期望的結(jié)果。附加的或備選的,可以省略某些步驟,將多個(gè)步驟合并為一個(gè)步驟執(zhí)行,以及/或者將一個(gè)步驟分解為多個(gè)步驟執(zhí)行等。通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員易于理解,這里描述的示例實(shí)施方式可以通過軟件實(shí)現(xiàn),也可以通過軟件結(jié)合必要的硬件的方式來實(shí)現(xiàn)。因此,根據(jù)本公開實(shí)施方式的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲(chǔ)在一個(gè)非易失性存儲(chǔ)介質(zhì)(可以是cd-rom,u盤,移動(dòng)硬盤等)中或網(wǎng)絡(luò)上,包括若干指令以使得一臺(tái)計(jì)算設(shè)備(可以是個(gè)人計(jì)算機(jī)、服務(wù)器、移動(dòng)終端、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行根據(jù)本公開實(shí)施方式的方法。本領(lǐng)域技術(shù)人員在考慮說明書及實(shí)踐這里公開的發(fā)明后,將容易想到本公開的其它實(shí)施方案。本技術(shù)旨在涵蓋本公開的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本公開的一般性原理并包括本公開未公開的本中的公知常識(shí)或慣用技術(shù)手段。說明書和實(shí)施例僅被視為示例性的,本公開的真正范圍和精神由所附的權(quán)利要求指出。


背景技術(shù):

1、在數(shù)字化多媒體內(nèi)容傳播日益普及的當(dāng)下,音頻轉(zhuǎn)碼技術(shù)作為實(shí)現(xiàn)音頻內(nèi)容高效傳輸與適配的核心技術(shù),被廣泛應(yīng)用于直播、視頻點(diǎn)播、在線音樂等諸多領(lǐng)域。目前,音頻轉(zhuǎn)碼操作只在轉(zhuǎn)碼開始時(shí),設(shè)置固定的音頻采樣率、位深、聲道等參數(shù),在轉(zhuǎn)碼過程中,這些參數(shù)始終保持不變,如果待轉(zhuǎn)碼的音頻源來自不同的場(chǎng)景,各場(chǎng)景的音量不一致,直播流中聲音會(huì)抖動(dòng),轉(zhuǎn)碼生成的直播流也同樣抖動(dòng),會(huì)遭遇音量高低起伏的問題,影響用戶視聽體驗(yàn)。

2、需要說明的是,在上述背景技術(shù)部分公開的信息僅用于加強(qiáng)對(duì)本公開的背景的理解,因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。


技術(shù)實(shí)現(xiàn)思路

1、本公開的目的在于提供一種音頻轉(zhuǎn)碼方法、音頻轉(zhuǎn)碼裝置、電子設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),至少在一定程度上能夠改善相關(guān)技術(shù)中由于遭遇音量高低起伏導(dǎo)致影響用戶視聽體驗(yàn)的問題。

2、本公開的其他特性和優(yōu)點(diǎn)將通過下面的詳細(xì)描述變得顯然,或部分地通過本公開的實(shí)踐而習(xí)得。

3、根據(jù)本公開的一個(gè)方面,提供一種音頻轉(zhuǎn)碼方法,包括:響應(yīng)于獲取到的原始音頻流,檢測(cè)所述原始音頻流的音頻內(nèi)容類型和源流音量;基于與所述原始音頻流的時(shí)間戳的對(duì)齊操作,將所述音頻內(nèi)容類型和源流音量添加至所述原始音頻流,得到增強(qiáng)音頻流;基于所述源流音量和參考音量之間的關(guān)系確定轉(zhuǎn)碼音頻流的目標(biāo)音量,其中,在轉(zhuǎn)碼過程中檢測(cè)到出現(xiàn)所述音頻內(nèi)容類型的切換時(shí),基于切換前的第一源流音量調(diào)整切換后的第二源流音量,以基于調(diào)整后的所述第二源流音量和所述參考音量之間的關(guān)系確定所述目標(biāo)音量。

4、在本公開的一個(gè)實(shí)施例中,響應(yīng)于獲取到的原始音頻流,檢測(cè)所述原始音頻流的音頻內(nèi)容類型和源流音量,包括:將所述原始音頻流基于指定的時(shí)間窗口進(jìn)行劃分,在每個(gè)所述時(shí)間窗口內(nèi)的音頻采樣點(diǎn)采集音頻特征,以將所述音頻特征輸入特征檢測(cè)模型,由所述特征檢測(cè)模型輸出所述音頻內(nèi)容類型、噪音檢測(cè)結(jié)果以及對(duì)應(yīng)的時(shí)間戳信息,所述特征檢測(cè)模型依靠深度學(xué)習(xí)生成;以及將所述原始音頻流輸入音量檢測(cè)模型,以對(duì)應(yīng)輸出音量曲線作為所述源流音量。

5、在本公開的一個(gè)實(shí)施例中,基于與所述原始音頻流的時(shí)間戳的對(duì)齊操作,將所述音頻內(nèi)容類型和源流音量添加至所述原始音頻流,得到增強(qiáng)音頻流,包括:以所述時(shí)間窗口為單位,將所述音頻內(nèi)容類型、噪音檢測(cè)結(jié)果和所述音量曲線對(duì)齊,得到對(duì)齊的信息;基于補(bǔ)充增強(qiáng)信息sei的格式,將所述對(duì)齊的信息封裝為sei數(shù)據(jù)單元;基于所述對(duì)應(yīng)的時(shí)間戳信息,將所述sei數(shù)據(jù)單元插入到所述原始音頻流,得到所述增強(qiáng)音頻流。

6、在本公開的一個(gè)實(shí)施例中,基于所述源流音量和參考音量之間的關(guān)系確定轉(zhuǎn)碼音頻流的目標(biāo)音量,包括:確定所述轉(zhuǎn)碼過程對(duì)應(yīng)的參照時(shí)段,以基于大數(shù)據(jù)模塊中記錄的屬于所述參照時(shí)段的轉(zhuǎn)碼音頻文件的音量屬性確定所述參考音量;計(jì)算所述源流音量和所述參考音量之間的絕對(duì)差值,與所述參考音量之間的比值;若所述比值小于或等于參考比值,將所述目標(biāo)音量保持為所述源流音量;若所述比值大于所述參考比值,將所述目標(biāo)音量調(diào)整為所述參考音量。

7、在本公開的一個(gè)實(shí)施例中,在轉(zhuǎn)碼過程中檢測(cè)到出現(xiàn)所述音頻內(nèi)容類型的切換時(shí),基于切換前的第一源流音量調(diào)整切換后的第二源流音量,包括:檢測(cè)到出現(xiàn)所述音頻內(nèi)容類型的切換時(shí),確定所述第一源流音量和所述第二源流音量的中值;將所述中值作為所述第一源流音量的調(diào)整結(jié)果。

8、在本公開的一個(gè)實(shí)施例中,還包括:解析所述sei數(shù)據(jù)單元中的所述噪音檢測(cè)結(jié)果;若基于所述噪音檢測(cè)結(jié)果確定所述原始音頻流中具有噪音信息,在轉(zhuǎn)碼過程中執(zhí)行去噪音功能。

9、在本公開的一個(gè)實(shí)施例中,在響應(yīng)于獲取到的原始音頻流,檢測(cè)所述原始音頻流的音頻內(nèi)容類型和源流音量之前,還包括:收集不同場(chǎng)景下的音頻數(shù)據(jù);基于場(chǎng)景類型、所述內(nèi)容類型以及是否存在噪聲,對(duì)所述音頻數(shù)據(jù)進(jìn)行標(biāo)注,得到標(biāo)注音頻;將所述標(biāo)注音頻轉(zhuǎn)換為梅爾頻譜圖,所述梅爾頻譜圖表征所述標(biāo)注音頻的時(shí)頻域特征;基于所述梅爾頻譜圖對(duì)深度學(xué)習(xí)模型進(jìn)行模型訓(xùn)練,得到所述特征檢測(cè)模型。

10、在本公開的一個(gè)實(shí)施例中,在響應(yīng)于獲取到的原始音頻流,檢測(cè)所述原始音頻流的音頻內(nèi)容類型和源流音量之前,還包括:基于音量檢測(cè)公式構(gòu)建所述音量檢測(cè)模型,所述音量檢測(cè)公式為:lp=20*log10(prms/pref)db,其中,prms為所述原始音頻流中任一時(shí)刻的聲音振幅值,pref為聲音振幅的最大參考值。

11、在本公開的一個(gè)實(shí)施例中,還包括:將包括所述目標(biāo)音量的所述轉(zhuǎn)碼音頻流基于時(shí)間戳維度上報(bào)至大數(shù)據(jù)模塊,以更新所述大數(shù)據(jù)模塊中的轉(zhuǎn)碼音頻文件。

12、根據(jù)本公開的另一個(gè)方面,提供一種音頻轉(zhuǎn)碼裝置,包括:檢測(cè)模塊,用于響應(yīng)于獲取到的原始音頻流,檢測(cè)所述原始音頻流的音頻內(nèi)容類型和源流音量;添加模塊,用于基于與所述原始音頻流的時(shí)間戳的對(duì)齊操作,將所述音頻內(nèi)容類型和源流音量添加至所述原始音頻流,得到增強(qiáng)音頻流;確定模塊,用于基于所述源流音量和參考音量之間的關(guān)系確定轉(zhuǎn)碼音頻流的目標(biāo)音量,其中,在轉(zhuǎn)碼過程中檢測(cè)到出現(xiàn)所述音頻內(nèi)容類型的切換時(shí),基于切換前的第一源流音量調(diào)整切換后的第二源流音量,以基于調(diào)整后的所述第二源流音量和所述參考音量之間的關(guān)系確定所述目標(biāo)音量。

13、根據(jù)本公開的再一個(gè)方面,提供一種電子設(shè)備,包括:處理器;以及存儲(chǔ)器,用于存儲(chǔ)處理器的可執(zhí)行指令;其中,處理器配置為經(jīng)由執(zhí)行可執(zhí)行指令來執(zhí)行上述任意一項(xiàng)的音頻轉(zhuǎn)碼方法。

14、根據(jù)本公開的又一個(gè)方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任意一項(xiàng)的音頻轉(zhuǎn)碼方法。

15、本公開的實(shí)施例所提供的音頻轉(zhuǎn)碼方案,通過對(duì)原始音頻流的音頻內(nèi)容類型和源流音量的檢測(cè),得到音頻內(nèi)容類型和源流音量,利用時(shí)間戳對(duì)齊和封裝插入技術(shù)將音頻內(nèi)容類型和源流音量信息添加到原始音頻流,形成增強(qiáng)音頻流,基于參考音量設(shè)定、音量比較和音頻內(nèi)容切換時(shí)的音量調(diào)整策略確定轉(zhuǎn)碼音頻流的目標(biāo)音量,從而構(gòu)建出音頻轉(zhuǎn)碼處理結(jié)構(gòu),以在轉(zhuǎn)碼過程中動(dòng)態(tài)不斷流地調(diào)整音量,統(tǒng)一單個(gè)和/或多個(gè)音頻流中的音量增益,保持不同場(chǎng)景切換時(shí)音量的一致性,提升了用戶的視聽體驗(yàn)。

16、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1