基本原理
動態(tài)場景解析需要對場景中的目標進行檢測、跟蹤、識別,對目標的狀態(tài)進行估計,對特定事件是否發(fā)生進行判斷。由于動態(tài)場景具有時變性、場景中目標類別、狀態(tài)及行為具有多樣性、事件的發(fā)生具有不確定性、各種場景對象之間具有關聯(lián)性,動態(tài)場景解析是一個非常困難的問題,傳統(tǒng)方法通常面臨著搜索空間巨大、算法效率低下等問題。但相對于計算機,人類的神經(jīng)系統(tǒng)在處理此類問題時卻毫不費力,人眼能夠在瞬間發(fā)現(xiàn)場景中感興趣的目標并對其屬性及關聯(lián)關系進行判斷,原因在于人類能夠把多種信息融入搜索過程,通過對搜索空間進行削減達到快速、準確的搜索。受人類識別方式的啟發(fā),我們提出了基于假設檢驗(Hypothesis Testing)理論的動態(tài)場景多目標實時解析架構(gòu),該架構(gòu)包含了狀態(tài)空間初始化、對象特征提取、先驗知識引入、分支假設檢驗、評分排序、時空關聯(lián)等算法模塊,同時此架構(gòu)可融合多種現(xiàn)有檢測、跟蹤、特征提取、識別技術,包括我們提出的異構(gòu)深度神經(jīng)網(wǎng)絡、分層矢量化多媒體信息表達、基于受限自適應層次化稀疏表示的多目標跟蹤等。
算法是一個遞歸的過程、當場景變化時須重復這些步驟(場景更新通常是指有新目標出現(xiàn)):狀態(tài)空間初始化須確定候選目標區(qū)域、指定可能的目標類別等,合適的初始化能極大地減少搜索范圍,算法開始時可基于一些顯著性檢測算法及先驗知識進行初始化,在迭代時可以用前一場景的解析結(jié)果對后一場景進行初始化。算法采用高置信度優(yōu)先的方式進行搜索,每次都選取置信度最高的候選目標并對其狀態(tài)進行假設檢驗,當檢驗通過時則對其引發(fā)的結(jié)果進行分支假設檢驗,如檢驗沒通過則此分支被剪枝,每個通過的假設都會有一個得分(置信度),得分高低取決于目標自身特征、多目標之間的關聯(lián)性以及先驗知識。算法需要優(yōu)化一個基于信息熵的能量函數(shù),當能量函數(shù)最小時,認為搜索到最優(yōu)解。此能量函數(shù)融合了整個場景的信息,不僅包括場景中目標、事件和場景自身的信息,也包括它們之間的交互信息以及先驗信息。由于動態(tài)場景具有時變性和相關性,在對當前場景進行解析時,還須關聯(lián)上一場景的解析結(jié)果,整個算法構(gòu)成一個時空關聯(lián)的有機整體?;谶@種架構(gòu),可對動態(tài)場景進行在線解析(只考慮當前場景及之前的信息),也可離線對動態(tài)場景進行整體解析。由于模擬了人類神經(jīng)系統(tǒng)的搜索方式,有效地減小了搜索空間,算法具有較高的搜索效率,可實現(xiàn)實時的動態(tài)場景解析。同時由于融合了多種信息,算法能達到較高的識別準確率。
圖 1:動態(tài)場景多目標實時解析架構(gòu)
該算法利用稀疏表示的能力,結(jié)合分層表達思想,將層次化和稀疏表示(特征)相結(jié)合,有效提高了目標的模板的表達能力。在建立模板時,不僅對目標建立模板,對背景也建立建模,在判斷候選區(qū)域是否為目標時,可以結(jié)合兩個相似度進行判定,分類結(jié)果更準確。在跟蹤過程中,不斷更新模板時,對目標和背景建立模板池,收集一段時間內(nèi)的目標和背景特征分布,使得模板池的魯棒性更強。為了保證算法的實時性,有選擇性地對模板進行更新,對當前的新目標進行判斷,如果和模板池差別很小,則不更新模板;差別非常大說明跟蹤失敗,也不更新;只有在合適的時機才更新模板,即保持模板的穩(wěn)定性,又能減少運算,達到實時性。為了更準確地度量目標和背景之間差異,采用自適應權重調(diào)整方法,將目標模板和背景之間不相似的特征賦予較大的權值,相似的特征賦予較小的權值,增強目標與背景之間的區(qū)分度。通過建立目標的時序特征模型,保證目標模板的時序連貫性與完整性。
算法的主要流程:算法對視頻中多目標的狀態(tài)采樣后,結(jié)合時間約束、空間約束對多層稀疏表示特征進行加權,并通過目標基、背景基的更新機制,在標準對沖跟蹤框架判斷后得到目標的狀態(tài)(包括大小、方向、位置等);在目標丟失后,結(jié)合稀疏分類器網(wǎng)格粗略檢出目標后再次判斷,從而實現(xiàn)復雜場景下實時的目標跟蹤。