基于多尺度頻空注意力網(wǎng)絡(luò)的聽(tīng)覺(jué)注意解碼方法及系統(tǒng)與流程

文檔序號(hào)：42300946發(fā)布日期：2025-06-27 18:43閱讀：18來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于聽(tīng)覺(jué)腦機(jī)接口領(lǐng)域，尤其涉及一種基于多尺度頻空注意力網(wǎng)絡(luò)的聽(tīng)覺(jué)注意解碼方法及系統(tǒng)，可應(yīng)用于神經(jīng)驅(qū)動(dòng)的聽(tīng)覺(jué)輔助設(shè)備（人工耳蝸或助聽(tīng)器）開(kāi)發(fā)等。

背景技術(shù)：

1、在復(fù)雜的聲學(xué)環(huán)境中，人類(lèi)能夠展現(xiàn)出“雞尾酒會(huì)效應(yīng)”，即在多重聲音混雜的環(huán)境中聚焦于感興趣的目標(biāo)語(yǔ)音，同時(shí)忽略其他聲音的干擾。然而，對(duì)于聽(tīng)力損失人群而言，背景噪聲對(duì)目標(biāo)語(yǔ)音的掩蔽效應(yīng)顯著增強(qiáng)，使得聽(tīng)覺(jué)選擇性注意能力受損，難以有效聚焦目標(biāo)語(yǔ)音。神經(jīng)科學(xué)研究表明，相較于非目標(biāo)語(yǔ)音，大腦皮層的神經(jīng)活動(dòng)與目標(biāo)語(yǔ)音的振幅包絡(luò)呈現(xiàn)更強(qiáng)的相似性。因此，基于腦電（eeg）信號(hào)解碼聽(tīng)覺(jué)注意力方向（即聽(tīng)覺(jué)注意力解碼），可為神經(jīng)驅(qū)動(dòng)的聽(tīng)覺(jué)輔助設(shè)備提供關(guān)鍵技術(shù)支撐。

2、目前，已有研究證實(shí)了從eeg中解碼聽(tīng)覺(jué)注意力的可行性，并且基于eeg的聽(tīng)覺(jué)注意力解碼算法主要分為刺激重建和直接分類(lèi)兩種類(lèi)型。刺激重建算法在實(shí)際應(yīng)用中面臨巨大挑戰(zhàn)，因?yàn)樗枰獜幕旌险Z(yǔ)音中分離出純凈的語(yǔ)音，這在現(xiàn)實(shí)場(chǎng)景下難度極高。直接分類(lèi)法雖然在實(shí)際應(yīng)用方面更具潛力，但傳統(tǒng)的線(xiàn)性解碼器存在明顯缺陷。由于大腦聽(tīng)覺(jué)系統(tǒng)具有非線(xiàn)性特性，傳統(tǒng)線(xiàn)性解碼器難以捕捉eeg信號(hào)中的非線(xiàn)性映射關(guān)系，這就導(dǎo)致其決策時(shí)間窗較長(zhǎng)，而且隨著解碼窗口長(zhǎng)度縮短，解碼準(zhǔn)確率會(huì)迅速下降。近年來(lái)，深度學(xué)習(xí)技術(shù)在聽(tīng)覺(jué)注意力解碼研究中得到了廣泛應(yīng)用，但現(xiàn)有的方法仍存在諸多問(wèn)題。1）頻域特征提取復(fù)雜且不優(yōu)：在提取腦電頻域特征時(shí)，現(xiàn)有方法通常需要預(yù)先對(duì)eeg信號(hào)進(jìn)行濾波，然后手動(dòng)提取固定頻段的微分熵特征。這種操作不僅增加了數(shù)據(jù)預(yù)處理的復(fù)雜性，而且由于固定的頻帶劃分方式，很難獲取與聽(tīng)覺(jué)注意力解碼最匹配的最優(yōu)頻域解碼范圍，導(dǎo)致無(wú)法充分挖掘腦電信號(hào)中的頻域信息。2）卷積核適應(yīng)性差：大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)的方法采用固定大小的卷積核來(lái)學(xué)習(xí)局部特征。然而，在實(shí)際情況中，不同被試以及不同時(shí)間點(diǎn)下，最優(yōu)的卷積核大小是變化的。固定卷積核大小的方法無(wú)法適應(yīng)這種變化，限制了模型對(duì)不同腦電數(shù)據(jù)特征的有效提取。3）3d卷積存在局限：部分研究嘗試將二維eeg映射為三維數(shù)據(jù)，并使用3d卷積來(lái)處理時(shí)空或頻空特征，以此來(lái)利用腦電信號(hào)的空間分布特征。但3d卷積在訓(xùn)練過(guò)程中面臨諸多困難，計(jì)算復(fù)雜度高，模型難以?xún)?yōu)化。同時(shí)，它也難以捕捉eeg信號(hào)中不同腦區(qū)之間的長(zhǎng)距離依賴(lài)關(guān)系和動(dòng)態(tài)變化信息，無(wú)法全面反映大腦在聽(tīng)覺(jué)注意力過(guò)程中的活動(dòng)特征。4）缺乏有效注意力機(jī)制：目前在聽(tīng)覺(jué)注意力解碼領(lǐng)域，尚未有充分研究基于空間和頻域特征的注意力機(jī)制。由于缺乏這種能夠全面整合和分析eeg數(shù)據(jù)中空間和頻域信息的機(jī)制，現(xiàn)有方法無(wú)法充分捕捉與聽(tīng)覺(jué)注意力相關(guān)的關(guān)鍵信息，導(dǎo)致模型的性能受到限制。

3、綜上所述，現(xiàn)有聽(tīng)覺(jué)注意力解碼技術(shù)在特征提取、模型訓(xùn)練及信息捕獲等方面仍存在瓶頸，亟需一種創(chuàng)新的方法來(lái)優(yōu)化解碼策略，提高短時(shí)間窗下的解碼精度，并增強(qiáng)系統(tǒng)的實(shí)時(shí)性和適應(yīng)性，從而為神經(jīng)驅(qū)動(dòng)的聽(tīng)覺(jué)輔助設(shè)備提供更精準(zhǔn)、高效的技術(shù)支撐。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明針對(duì)現(xiàn)有聽(tīng)覺(jué)注意力解碼技術(shù)的不足，提出了一種基于多尺度頻空注意力網(wǎng)絡(luò)的聽(tīng)覺(jué)注意解碼方法及系統(tǒng)，旨在提高解碼的準(zhǔn)確性和計(jì)算效率，特別是在復(fù)雜聲學(xué)環(huán)境和短決策窗口下的解碼性能。

2、為實(shí)現(xiàn)本發(fā)明的目的所采用的技術(shù)方案是：

3、一種基于多尺度頻空注意力網(wǎng)絡(luò)的聽(tīng)覺(jué)注意解碼方法，包括以下步驟：

4、步驟1，獲取專(zhuān)注聆聽(tīng)不同方向語(yǔ)音時(shí)的腦電數(shù)據(jù)，并使用滑動(dòng)窗口對(duì)所述腦電數(shù)據(jù)進(jìn)行劃分，生成一系列決策窗口，每個(gè)決策窗口包含一段腦電信號(hào)；

5、步驟2，將所述決策窗口的腦電信號(hào)輸入多尺度頻空注意力網(wǎng)絡(luò)（mssanet模型），所述多尺度頻空注意力網(wǎng)絡(luò)包括多尺度時(shí)域卷積模塊、頻空注意力模塊和全連接層分類(lèi)模塊：

6、步驟2.1，所述多尺度時(shí)域卷積模塊對(duì)輸入的腦電信號(hào)進(jìn)行處理，提取不同頻率范圍的時(shí)域特征：所述多尺度時(shí)域卷積模塊包括多尺度殘差卷積單元和時(shí)域?qū)?shù)方差計(jì)算單元，在所述多尺度殘差卷積單元中，利用 n個(gè)大小為1×1的卷積核對(duì)單個(gè)輸入樣本 r進(jìn)行升維操作，然后將升維后的輸出y按照通道維度劃分為k組，對(duì)于每一組輸出yb再利用不同的卷積核進(jìn)行深度卷積得到，將分組深度卷積后的結(jié)果按照輸出通道維度進(jìn)行拼接得到多尺度卷積輸出，多尺度卷積輸出經(jīng)過(guò)時(shí)域?qū)?shù)方差計(jì)算得到；

7、同時(shí)，對(duì)于每一組輸出yb通過(guò)固定卷積操作convres處理得到殘差卷積輸出，殘差卷積輸出經(jīng)過(guò)時(shí)域?qū)?shù)方差計(jì)算得到；

8、和相加得到多尺度時(shí)域卷積模塊的輸出，即不同頻率范圍的時(shí)域特征；

9、步驟2.2，所述頻空注意力模塊將所述時(shí)域特征轉(zhuǎn)換為頻空特征圖，進(jìn)一步通過(guò)自注意力機(jī)制和可學(xué)習(xí)位置編碼捕獲不同腦區(qū)之間的全局依賴(lài)關(guān)系，提取與聽(tīng)覺(jué)注意力相關(guān)的頻譜空間信息；

10、步驟2.3，所述全連接層分類(lèi)模塊基于所述頻譜空間信息，輸出預(yù)測(cè)語(yǔ)音方向?yàn)樽髠?cè)或者右側(cè)方向的概率。

11、在上述技術(shù)方案中，所述步驟1中，在對(duì)腦電數(shù)據(jù)進(jìn)行劃分前，還包括數(shù)據(jù)預(yù)處理步驟，所述數(shù)據(jù)預(yù)處理步驟包括降采樣、濾波、去偽跡和/或通道歸一化。

12、若所述腦電數(shù)據(jù)來(lái)自kul數(shù)據(jù)集，先將腦電數(shù)據(jù)降采樣到128?hz，再用8階巴特沃斯濾波器進(jìn)行?0.1-50?hz?帶通濾波，最后進(jìn)行通道歸一化；

13、若所述腦電數(shù)據(jù)來(lái)自dtu數(shù)據(jù)集，先濾波去除50?hz線(xiàn)性噪聲和偽跡，通過(guò)聯(lián)合去相關(guān)性分析去除眼偽跡，進(jìn)行全腦平均重參考，然后降采樣到128?hz并進(jìn)行通道歸一化。

14、在上述技術(shù)方案中，，其中，為核為1的卷積， r為每個(gè)決策窗口內(nèi)的腦電信號(hào)，w1是1×1卷積核的權(quán)重矩陣，b1是偏置向量，y∈rn×c×t是升維后的輸出，n為卷積的數(shù)量，c為腦電信號(hào)的通道數(shù)，t為表示每個(gè)決策窗口內(nèi)的樣本點(diǎn)數(shù)。

15、在上述技術(shù)方案中，y=[y1，y2，…，yk]，其中yb∈rn/k×c×t，b=1，2，…，k，第b組使用大小為(1， k b)的卷積核進(jìn)行深度卷積，，其中，為深度卷積， k b為不同的卷積核尺寸，w2 b是第 b組卷積核的權(quán)重矩陣，b2 b是偏置向量，z b為深度卷積后的腦電數(shù)據(jù)，z b∈rn/k×c×t，。

16、在上述技術(shù)方案中，，其中，為殘差卷積，w3是殘差卷積核的權(quán)重矩陣，b3偏置向量。

17、在上述技術(shù)方案中，時(shí)域?qū)?shù)方差的計(jì)算公式為，其中，∈表示第 i導(dǎo)聯(lián)的個(gè)樣本點(diǎn)，為步幅，表示樣本點(diǎn)的方差，所述樣本點(diǎn)為或。

18、在上述技術(shù)方案中，所述步驟2.2中，將多尺度時(shí)域卷積模塊得到的輸出轉(zhuǎn)換為大小為n×m的頻-空特征圖f∈rn×m，其中m=c×d， d表示腦電時(shí)域長(zhǎng)度按照 t'步長(zhǎng)劃分的數(shù)量，將頻空特征圖f通過(guò)可學(xué)習(xí)位置編碼保留eeg信號(hào)的空間位置信息輸出特征 p，并采用transformer?encoder對(duì)特征 p進(jìn)行跨頻域處理得到，，為與聽(tīng)覺(jué)注意力相關(guān)的頻譜空間信息。

19、在上述技術(shù)方案中，所述步驟2.3中，先將頻空注意力特征進(jìn)行展平，然后經(jīng)過(guò)兩個(gè)全連接層進(jìn)行聽(tīng)覺(jué)注意解碼方向的概率的預(yù)測(cè)得到，，其中，為模型輸出的預(yù)測(cè)概率，w4是轉(zhuǎn)換的權(quán)重矩陣，b4是偏置向量。

20、在上述技術(shù)方案中，所述步驟2中，利用交叉熵?fù)p失函數(shù)對(duì)多尺度頻空注意力網(wǎng)絡(luò)進(jìn)行評(píng)估，，其中，代表樣本數(shù)，是分類(lèi)數(shù)，是真實(shí)值，是預(yù)測(cè)值， i為第 i個(gè)樣本， c為類(lèi)別數(shù)，對(duì)應(yīng)左或右。

21、本發(fā)明的另一方面，還包括可實(shí)現(xiàn)所述基于多尺度頻空注意力網(wǎng)絡(luò)的聽(tīng)覺(jué)注意解碼方法的系統(tǒng)，包括數(shù)據(jù)導(dǎo)入模塊、數(shù)據(jù)預(yù)處理模塊、所述的多尺度頻空注意力網(wǎng)絡(luò)、模型訓(xùn)練模塊和結(jié)果可視化模塊；

22、所述數(shù)據(jù)導(dǎo)入模塊用于選擇不同類(lèi)型的數(shù)據(jù)集并導(dǎo)入數(shù)據(jù)，所述數(shù)據(jù)預(yù)處理模塊對(duì)導(dǎo)入的數(shù)據(jù)進(jìn)行預(yù)處理，所述預(yù)處理包括降采樣、高通濾波、低通濾波和/或歸一化；

23、所述模型訓(xùn)練模塊用于設(shè)置時(shí)間窗的長(zhǎng)短以及數(shù)據(jù)集劃分比例，以?xún)?yōu)化多尺度頻空注意力網(wǎng)絡(luò)的訓(xùn)練效果，以適應(yīng)不同的聽(tīng)覺(jué)注意力解碼任務(wù)需求；

24、所述結(jié)果可視化模塊可視化展示多尺度頻空注意力網(wǎng)絡(luò)訓(xùn)練后模型預(yù)測(cè)結(jié)果的準(zhǔn)確率，當(dāng)步驟2.3中預(yù)測(cè)語(yǔ)音方向?yàn)樽髠?cè)概率高時(shí)，模型預(yù)測(cè)結(jié)果為“左側(cè)”，當(dāng)步驟2.3中預(yù)測(cè)語(yǔ)音方向?yàn)橛覀?cè)概率高時(shí)，模型預(yù)測(cè)結(jié)果為“右側(cè)”，所述準(zhǔn)確率為所有樣本中預(yù)測(cè)正確的占總樣本的百分比。

25、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：

26、（1）高效特征提取與自適應(yīng)頻域信息獲?。罕景l(fā)明提出的mssanet模型通過(guò)多尺度時(shí)域卷積提取不同頻域范圍內(nèi)的eeg局部特征，能夠模擬濾波過(guò)程，避免手動(dòng)提取頻域特征的復(fù)雜預(yù)處理，且能自適應(yīng)獲取與聽(tīng)覺(jué)注意力解碼相關(guān)的頻域信息。時(shí)域?qū)?shù)方差計(jì)算單元對(duì)eeg信號(hào)進(jìn)行處理時(shí)，一方面能夠高效地提取時(shí)域信息，另一方面巧妙地保留了信號(hào)中的空間信息經(jīng)實(shí)驗(yàn)驗(yàn)證，相比傳統(tǒng)卷積和池化操作，顯著提高聽(tīng)覺(jué)注意解碼準(zhǔn)確率；

27、（2）增強(qiáng)模型性能的頻空注意力模塊：該模塊借助自注意力機(jī)制和可學(xué)習(xí)位置編碼，有效捕獲不同腦區(qū)之間的長(zhǎng)范圍依賴(lài)和全局依賴(lài)性，全面獲取與聽(tīng)覺(jué)注意力相關(guān)的頻域和空間信息，提升模型性能。自注意力機(jī)制可通過(guò)增強(qiáng)與聽(tīng)覺(jué)注意相關(guān)的腦區(qū)對(duì)的交互權(quán)重，抑制無(wú)關(guān)頻段/腦區(qū)的干擾。該模塊實(shí)現(xiàn)了對(duì)eeg信號(hào)中跨頻段空間依賴(lài)關(guān)系的顯式建模，為聽(tīng)覺(jué)注意力解碼提供了更具全局視角的特征表示；

28、（3）卓越的實(shí)驗(yàn)表現(xiàn)與高實(shí)用價(jià)值：在kul和dtu公開(kāi)數(shù)據(jù)集實(shí)驗(yàn)中，mssanet?展現(xiàn)超強(qiáng)實(shí)力，在極短的0.1秒、0.5秒以及常規(guī)的1秒決策窗口下，均呈現(xiàn)最高分類(lèi)準(zhǔn)確率。這種在短解碼時(shí)間窗下的優(yōu)異表現(xiàn)，為實(shí)時(shí)聽(tīng)覺(jué)注意力解碼筑牢根基，極大提升了響應(yīng)速度與精準(zhǔn)度。憑借此優(yōu)勢(shì)，其在神經(jīng)驅(qū)動(dòng)的聽(tīng)覺(jué)輔助設(shè)備（人工耳蝸或者助聽(tīng)器）等實(shí)際應(yīng)用場(chǎng)景中，極具實(shí)用價(jià)值，能切實(shí)滿(mǎn)足現(xiàn)實(shí)需求，為相關(guān)領(lǐng)域發(fā)展注入強(qiáng)大動(dòng)力；

29、（4）構(gòu)建高效自動(dòng)化解碼系統(tǒng)：本發(fā)明基于多尺度頻空注意力網(wǎng)絡(luò)框架開(kāi)發(fā)聽(tīng)覺(jué)注意力解碼系統(tǒng)，集成數(shù)據(jù)導(dǎo)入、預(yù)處理、模型訓(xùn)練、結(jié)果可視化等模塊。支持多種數(shù)據(jù)集及格式導(dǎo)入，經(jīng)降采樣等預(yù)處理，通過(guò)可調(diào)時(shí)間窗等訓(xùn)練參數(shù)優(yōu)化模型，以準(zhǔn)確率可視化呈現(xiàn)結(jié)果，實(shí)現(xiàn)全流程自動(dòng)化分析。具備參數(shù)靈活可調(diào)、高效處理數(shù)據(jù)能力，減少人工誤差，為聽(tīng)覺(jué)注意力相關(guān)研究與應(yīng)用提供有力工具。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：倪廣健,劉洪興,韓旭,朱家寧
技術(shù)所有人：腦機(jī)交互與人機(jī)共融海河實(shí)驗(yàn)室
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

天堂资源成人√,久热最新,欧美黄色免费在线观看,国产精品久久久久久久久久精爆,91日韩中文字幕,av免费一区二区,7777精品久久久大香线蕉电影

基于多尺度頻空注意力網(wǎng)絡(luò)的聽(tīng)覺(jué)注意解碼方法及系統(tǒng)與流程