本發(fā)明涉及水下無人集群協(xié)同控制與通信優(yōu)化,具體涉及一種多視圖融合與序列強化學習的水下auv集群通信優(yōu)化方法。
背景技術(shù):
1、在水下無人集群系統(tǒng)的協(xié)同控制中,通常需要依賴分布式傳感器網(wǎng)絡對海況、auv(自主水下機器人)自身運動狀態(tài)及周邊環(huán)境進行感知,并通過通信鏈路在節(jié)點之間共享這些信息,從而實現(xiàn)實時的路徑調(diào)整、隊形保持和任務分配。
2、在典型的實現(xiàn)方式中,集群中的每個auv會利用自帶的慣性導航系統(tǒng)(ins)、水下聲吶或其他傳感器來測量自身與鄰居節(jié)點的相對位置和速度,并將這些測量結(jié)果發(fā)送給上層指揮節(jié)點或其他auv成員。
3、上層控制算法根據(jù)各單元上報的數(shù)據(jù),動態(tài)計算出新的控制指令或分配策略,再下發(fā)給相應節(jié)點執(zhí)行。
4、然而,在水下通信環(huán)境中,帶寬普遍較低且延遲偏高,并且由于水文條件、海底地形和洋流等因素影響,通信鏈路極易出現(xiàn)短時的高丟包率或徹底中斷。
5、當需要對多個auv進行同步協(xié)作時,就會產(chǎn)生如下問題:
6、一方面,對應控制算法通常會針對較大尺度的誤差或偏差(如明顯的隊形散開、姿態(tài)突變等)做出快速響應,卻往往將周期性的小擾動簡單視作傳感器噪聲而忽略處理;
7、另一方面,這些輕微擾動若無法第一時間進行修正或在全網(wǎng)絡中通報累積,就可能在通信恢復后“合并”成顯著的總體偏差,導致控制算法在恢復通信時面對的已不再是原本的微小分散問題,而是因局部累計信息失真而導致的整體形態(tài)失穩(wěn)。
8、目前來說為應對這種小規(guī)模擾動和高延遲帶來的不確定性,現(xiàn)有系統(tǒng)通常在每個節(jié)點內(nèi)部或集群中央部署濾波器(如卡爾曼濾波、粒子濾波等)來平滑噪聲,并基于估計的全局或局部狀態(tài)進行協(xié)同控制。
9、但是就是說各節(jié)點對環(huán)境、狀態(tài)和干擾的感知精度其實一般情況下是比較難做到一致的,或通信鏈路時斷時續(xù),濾波器所依賴的輸入數(shù)據(jù)將出現(xiàn)空窗甚至偏離,從而降低全局狀態(tài)估計的可靠性。
10、另外更嚴重的來講,針對分布式網(wǎng)絡的協(xié)同控制算法往往默認時延或噪聲特征較為穩(wěn)定,無法實時捕捉小規(guī)模累計誤差逐步擴大的過程。
11、例如,當部分auv出現(xiàn)輕微偏移時,如果遲遲沒有得到外部修正信息,局部控制循環(huán)可能會誤判場景,從而做出與整體期望不一致的命令。這種現(xiàn)象在環(huán)境動態(tài)性較高的近岸水域或深海暗流區(qū)域尤為明顯,若處理不當就會導致控制失效甚至引發(fā)連鎖錯誤。
12、因此本次申請擬定提出一種基于多視圖感知融合及序列建模強化學習的水下auv集群通信鏈路傳輸優(yōu)化方法來解決上述問題。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)中的上述不足,本發(fā)明提供了一種多視圖融合與序列強化學習的水下auv集群通信優(yōu)化方法。
2、為了達到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為:
3、一種多視圖融合與序列強化學習的水下auv集群通信優(yōu)化方法,包括如下步驟:
4、s1、獲取來自慣性導航模塊、聲吶模塊及環(huán)境監(jiān)測模塊的多視圖感知數(shù)據(jù)并在時域上進行同步,形成具有多個獨立視圖的多維數(shù)據(jù)矩陣;
5、s2、選取視圖完整度高于設定閾值且時序連續(xù)的片段作為基準時段,基于局部差異對比算子進行多步迭代對齊與融合,生成高精度的融合觀測矩陣;
6、s3、將融合觀測矩陣按時間索引與傳感器編號重排形成時序向量集并進行時序橋接,利用序列建模算子對橋接后的時序向量集進行迭代更新并輸出校正后的序列估計結(jié)果;
7、s4、計算序列估計結(jié)果的擾動風險信息并進行標記,將序列估計結(jié)果與擾動風險的標記作為強化學習的狀態(tài)特征,利用強化學習算法進行迭代更新生成最優(yōu)動作序列;
8、s5、將所生成的最優(yōu)動作序列映射為鏈路調(diào)度向量并進行動態(tài)修正得到通信鏈路調(diào)度方案,基于水下無人集群系統(tǒng)的實際運行狀態(tài)對調(diào)度方案進行跟蹤和修正并判斷局部累計誤差或通信通道阻塞狀態(tài);若局部累計誤差或通信通道阻塞狀態(tài)任意一個超過設定閾值則返回s2并更新序列建模算子和強化學習參數(shù)。
9、本發(fā)明具有以下有益效果:
10、1、本次申請構(gòu)建從環(huán)境感知到協(xié)同控制的全鏈路優(yōu)化框架,通過多模態(tài)傳感器數(shù)據(jù)的動態(tài)對齊與可信度融合,生成水下環(huán)境的統(tǒng)一態(tài)勢表征。基于擾動傳播檢測與序列狀態(tài)估計建立風險預警模型,驅(qū)動強化學習策略的在線進化與路徑規(guī)劃的實時修正,最終通過冗余調(diào)度與驗證反饋形成閉環(huán)自優(yōu)化機制。體系實現(xiàn)從數(shù)據(jù)噪聲抑制、動態(tài)環(huán)境建模到群體協(xié)同決策的層次化貫通,有效應對復雜海況下的通信中斷與協(xié)同失穩(wěn)問題。
11、2、針對水下多傳感器異步采樣問題,提出基于多維完整度評估的動態(tài)分塊機制。通過融合各傳感器數(shù)據(jù)有效性與信號質(zhì)量構(gòu)建復合評價指標,實現(xiàn)高丟包場景下的自適應時序?qū)R。相較于傳統(tǒng)固定窗口分割方法,能夠顯著提升海況突變時的數(shù)據(jù)塊劃分精度,確保后續(xù)融合階段對局部異常的有效處理能力。
12、3、設計隱含狀態(tài)與累進式記憶向量的雙通道更新機制,通過歷史偏移量的指數(shù)衰減累積,在通信中斷恢復后有效抑制狀態(tài)估計值的階躍式跳變。突破傳統(tǒng)時序模型對短期依賴的局限性,能在長達數(shù)十秒的中斷場景中維持對微小環(huán)境漂移的連續(xù)跟蹤,為水下長時監(jiān)測提供穩(wěn)定狀態(tài)估計。
13、4、建立融合擾動強度與方向一致性的復合檢測模型,通過可變范數(shù)策略區(qū)分局部異常與全局趨勢性擾動。結(jié)合窗口累積算法對同向擾動進行強化跟蹤,實現(xiàn)漸進式風險擴散的早期預警。將環(huán)境擾動檢測的時效性提升至分鐘級,為強化學習決策提供前置風險信號輸入,形成從感知到?jīng)Q策的閉環(huán)響應鏈路。
1.一種多視圖融合與序列強化學習的水下auv集群通信優(yōu)化方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的多視圖融合與序列強化學習的水下auv集群通信優(yōu)化方法,其特征在于,所述s1具體包括如下步驟:
3.根據(jù)權(quán)利要求2所述的多視圖融合與序列強化學習的水下auv集群通信優(yōu)化方法,其特征在于,所述s12中視圖完整度函數(shù)表示為:
4.根據(jù)權(quán)利要求1所述的多視圖融合與序列強化學習的水下auv集群通信優(yōu)化方法,其特征在于,所述s2具體包括如下步驟:
5.根據(jù)權(quán)利要求4所述的多視圖融合與序列強化學習的水下auv集群通信優(yōu)化方法,其特征在于,所述s22中差異對比算子表示為:
6.根據(jù)權(quán)利要求1所述的多視圖融合與序列強化學習的水下auv集群通信優(yōu)化方法,其特征在于,所述s3具體包括如下步驟:
7.根據(jù)權(quán)利要求1所述的多視圖融合與序列強化學習的水下auv集群通信優(yōu)化方法,其特征在于,所述s4具體包括如下步驟:
8.根據(jù)權(quán)利要求1所述的多視圖融合與序列強化學習的水下auv集群通信優(yōu)化方法,其特征在于,所述s5具體包括如下步驟:
9.根據(jù)權(quán)利要求7所述的多視圖融合與序列強化學習的水下auv集群通信優(yōu)化方法,其特征在于,所述s54中局部累積誤差的具體計算方式為:
10.根據(jù)權(quán)利要求7所述的多視圖融合與序列強化學習的水下auv集群通信優(yōu)化方法,其特征在于,所述s55通信通道阻塞狀態(tài)計算方式為: