【
儀表網 研發快訊】在機器人領域,場景識別可以幫助機器人理解周圍環境,完成精準的作業任務。隨著人工智能技術在各行業的深入應用,對場景識別的準確性和魯棒性要求不斷提高。
在實際場景中,光照變化、物體遮擋、視角差異及同類場景的多樣性,容易導致識別方法難以提取穩定且具代表性的特征。此外,復雜場景中多語義信息的高效融合、避免信息冗余或丟失,以及提升模型泛化能力,是亟待解決的技術難點。
近日,中國科學院沈陽自動化研究所光電信息技術研究室機器視覺研究部科研團隊提出了一種結合CLIP多模態模型的場景識別新方法——OSFA(Object-Level and Scene-Level Feature Aggregation)。該方法通過動態聚合對象級與場景級特征,可以顯著提升復雜場景的分類精度與魯棒性。
OSFA方法框架
首先,科研人員將CLIP的視覺特征作為先驗信息,采用對象級交叉注意力機制,提取與場景高度相關的局部細節特征。隨后,利用CLIP的文本編碼器生成類別文本語義信息,引導從圖像中提取全局語義特征,再通過場景級交叉注意力機制形成最終的場景表示。為了增強模型魯棒性,還引入了多損失策略,包括線性分類損失、場景對比損失和類別對比損失。
研究結果顯示,該場景識別方法可有效聚合特征,顯著提升復雜場景分類精度與魯棒性,能為視覺導航、機器人應用等領域的場景理解與智能決策提供技術支撐,助力提升感知與任務執行效率。
該研究以Object-Level and Scene-Level Feature Aggregation with CLIP for Scene Recognition為題發表于國際期刊Information Fusion。沈陽自動化所博士生王群為第一作者,沈陽自動化所朱楓研究員為通訊作者。
光電信息技術研究室機器視覺研究部長期從事智能感知與場景理解關鍵技術的研究,致力于推動人工智能在智能制造、服務機器人、智慧城市等領域的深入應用。(光電信息技術研究室)
所有評論僅代表網友意見,與本站立場無關。