1、概述

現階段視頻分類算法,主要聚焦于視頻整體的內容理解,給視頻整體打上標簽,粒度較粗。較少的文章關注時序片段的細粒度理解,同時也從多模態角度分析視頻。本文將分享使用多模態網絡提高視頻理解精度的解決方案,并在youtube-8m 數據集中取得較大提升。

2、相關工作

在視頻分類人物中,NeXtVLAD[1]被證明是一種高效、快速的視頻分類方法。受ResNeXt方法的啟發,作者成功地將高維的視頻特征向量分解為一組低維向量。該網絡顯著降低了之前 NetVLAD 網絡的參數,但在特征聚合和大規模視頻分類方面仍然取得了顯著的性能。

RNN[2]已被證明在對序列數據進行建模時表現出色。研究人員通常使用 RNN 對 CNN 網絡難以捕獲的視頻中的時間信息進行建模。 GRU[3]是 RNN 架構的重要組成部分,可以避免梯度消失的問題。 Attention-GRU[4]指的是具有注意機制,有助于區分不同特征對當前預測的影響。


(資料圖)

為了結合視頻任務的空間特征和時間特征,后來又提出了雙流CNN[5]、3D-CNN[6]、以及slowfast[7]和ViViT[8]等。雖然這些模型在視頻理解任務上也取得良好的表現,但還有提升的空間。比如,很多方法只針對單個模態,或者只對整個視頻進行處理,沒有輸出細粒度的標簽。

3、技術方案3.1 整體網絡結構

本技術方案是旨在充分學習視頻多模態(文本、音頻、圖像)的語義特征,同時克服 youtube-8m數據集樣本極不均衡和半監督的問題。

如Figure 1所示,整個網絡主要由前面混合多模態網絡(mix-Multmodal Network)和后面的圖卷積網絡(GCN[9])組成。mix-Multmodal Network 由三個差異化的多模態分類網絡構成,具體差異化參數在Table1中。

Figure 1. 整體網絡結構

Bert

NeXtVLAD

Layers

Cluster Size

Reduction

Multimodal Net(1)

12

136

16

Multimodal Net(3)

12

112

16

Multimodal Net(3)

6

112

8

Table 1. 三個差異化的 Multimodal Net 的參數

3.2 多模態網絡

如圖Figure 2所示,多模態網絡主要理解三個模態(文本、視頻、音頻),每個模態都包含三個過程:基礎語義理解、時序特征理解、模態融合。其中,視頻和音頻的語義理解模型分別使用的是EfficientNet[10]和VGGish,時序特征理解模型是NextVLAD。而文本的時序特征理解模型為Bert[11]。

多模態特征融合,我們采用的是SENet[12]。SENet網絡的前處理需要將各個模態的特征長度強行壓縮對齊,這樣會導致信息丟失。為了克服這個問題,我們采用了多Group的SENet的網絡結構。實驗表明,多個group的SENet網絡相較于單個SENet學習能力更強。

Figure 2. 多模態網絡結構

3.3 圖卷積

由于Youtube-8M粗粒度標簽全部標注,細粒度標簽只標注了部分數據。因此,引入 GCN來進行半監督分類任務?;舅枷胧峭ㄟ^在節點之間傳播信息來更新節點表示。對于多標簽視頻分類任務,標簽依賴關系是一個重要信息。

在我們的任務中,每個標簽將是圖(graph)的一個節點(node),兩個節點之間的線表示它們的關系[13][14]。所以我們可以訓練一個矩陣來表示所有節點的關系。

以從我們的數據集中提取的一個簡化的標簽相關圖 Figure 3為例,Label BMW --> Label Car,表示當 BMW 標簽出現時,Label Car 很可能發生,但反之則不一定。標簽 Car 與所有其他標簽具有高度相關性,沒有箭頭的標簽表示這兩個標簽彼此沒有關系。

Figure 3. 標簽相關性示意圖

GCN網絡實現如Figure 4所示。GCN模塊由兩層堆疊的GCN(GCN(1) 和 GCN(2))組成,它們有助于學習標簽相關圖,以將這些標簽表示映射到一組相互依賴的分類器中。是輸入相關矩陣,由矩陣的值初始化。

和是將在網絡中訓練的矩陣。是GCN學習到的分類器權重。

Figure 4. GCN網絡結構

3.4 標簽重加權

Youtube-8M 視頻分類任務是一個多標簽分類任務,然而,注釋數據僅選擇多標簽中的一個進行標注為1,其余標簽均為0。也就是說,某一個視頻片段除了可能是標注的還可能是其他置為0的標簽。這個問題也是個弱監督問題。

針對此情況,我們提出了一種解決方法。在計算損失時給帶注釋的類賦予較大的權重,并為未注釋的類賦予較小的權重[15]。這種加權交叉熵方法將幫助模型更好地從不完整的數據集中學習。

3.5 特征增強

為了避免在訓練模型時過擬合,我們添加了隨機生成的高斯噪聲并隨機注入到輸入特征向量的每個元素中。

如Figure 6 所示,噪聲將被添加到輸入特征向量中,掩碼向量隨機選擇 50% 的維度并將值設置為 1。這里的高斯噪聲是獨立的,但對于不同的輸入向量具有相同的分布。

Figure 6. 加高斯噪聲

同時,為了避免多模態模型只學習某一個模態的特征,也就是在模態上過擬合。我們將模態特征也mask,保證輸入中至少有某一個模態,如Figure 7所示。這樣就可以充分學習各個模態。

Figure 7. 模態Mask

4、實驗4.1 評價指標4.2 實驗結果4.2.1 多模態

為了驗證多模態中每個模態的收益,我們做了消融實驗,結果如Table 2所示。單個模態作為特征時,Video 的準確率最高,Audio的準確率最低,Text接近Video。雙模態時,Video + Text 由明顯提升,再加上 Audio后,提升有限。

Modal

MAP@K

Video

Audio

Text

69.2

38.1

65.8

71.3

73.9

70.5

74.6

Table 2. 多模態消融實驗

4.2.2 圖卷積

同樣為驗證GCN的收益,我們也做了對比實驗,其中閾值λ我們選擇了兩個,分別是 0.2和0.4。如Table 3 所示,結果表明,原始模型(org)相比,GCN 生成的分類器有助于提高性能,特別時當λ=0.4時。

Modal

MAP@K

org

74.0

+ GCN(λ=0.2)

74.7

+ GCN(λ=0.4)

74.9

Table 3. 圖卷積實驗

4.2.3 差異化的多模態網絡

為了驗證并聯的多模態網絡和差異化后的效果,我們設計五組實驗。第一組模型是單獨的1個多模態網絡,第二、三、四組是2個、3個、4個并聯的多模態網絡,第五組是差異化的3個并聯的多模態網絡。

從結果來看,并聯網絡能提高精度,但是并聯4個以后進度會下降,所以一味的增加并聯的網絡數并不能帶來收益。同時,實驗結果還表明,差異化的網絡結構能更有效的擬合數據。

Modal

MAP@K

One Multmodal Net

78.2

Two Multmodal Net

78.6

Three Multmodal Net

78.9

Four Multmodal Net

78.7

Three diff Multmodal Net

79.2

Table 4. 差異化多模態網絡實驗

4.2.4 標簽重加權

標簽重加權由兩個超參(n和m),通過實驗表明,當n=0.1 和m=2.5時準確率提高較高。

Modal

MAP@K

org

77.8

+ ReWeight(n=0.1, m=2.0)

78.2

+ ReWeight (n=0.1, m=2.5)

78.3

+ ReWeight (n=0.1, m=3.0)

78.1

Table 5. 標簽重加權實驗

4.2.5 特征增強

特征增強屬于數據增強的一種。實驗表明,通過加入高斯噪聲,和mask掉某些模態,都能提高模型的泛化能力。且此種加入高斯噪聲方式,實現簡單,遷移性強,易于再其他網絡中實現。

Modal

MAP@K

org

81.2

+ Gaussian noises

81.7

+ Gaussian noises + mask Modal

82.1

Table 6. 特征增強實驗

5、總結

實驗表明,上述幾種方法均有不同程度的提高,尤其以多模態和圖卷積提升比較明顯。

我們希望在未來探索更多的標簽依賴關系。 GCN 網絡也被證明在這項任務中很有用,我們認為值得我們做更多的實驗,將 GCN 網絡與其他最先進的視頻分類網絡結合起來。

引用

[1]. Rongcheng Lin, Jing Xiao, Jianping Fan: NeXtVLAD: An Efficient Neural Network to Aggregate Frame-level Features for Large-scale Video Classification.In: ECCV, workshop(2018)

[2]. Jeffrey L Elman. Finding structure in time. Cognitive science,14(2):179–211, 1990

[3]. Kyunghyun Cho, Bart Van Merrienboer, ¨ Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation.arXiv, 2014.

[4]. Jan K Chorowski, Dzmitry Bahdanau, Dmitriy Serdyuk, Kyunghyun Cho,and Yoshua Bengio. Attention-based models for speech recognition. In NIPS,pages 577–585, 2015.

[5]. Karen Simonyan, Andrew Zisserman, Two-Stream Convolutional Networks for Action Recognition in Videos. In: NIPS (2014)

[6]. Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri Learning Spatiotemporal Features With 3D Convolutional Networks. In:ICCV(2015)

[7]. ??Christoph Feichtenhofer??,??Haoqi Fan??,??Jitendra Malik??,??Kaiming He??,SlowFast Networks for Video Recognition. In: CVPR (2019)?

[8]. Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lu?i?,Cordelia Schmid, ViViT: A Video Vision Transformer. In: CVPR (2021)

[9]. Zhao-Min Chen, Xiu-Shen Wei, Peng Wang, Yanwen Guo: Multi-Label Image Recognition with Graph Convolutional Networks. In: CVPR (2019)

[10]. Mingxing Tan, Quoc V. Le, EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks, PMLR 97:6105-6114,2019

[11]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova,BERT: Pre-training of deep bidirectional transformers for language understanding. In North American Association for Computational Linguistics (NAACL), 2019

[12]. Jie Hu, Li Shen, Gang Sun, Squeeze-and-Excitation Networks. In: CVPR (2018)?

[13]. Zhang Z,Sabuncu M. Generalized cross entropy loss for training deep neural networks with noisy labels[C]//Advances in neural information processing systems. 2018:8778-8788.

[14]. Pereira R B, Plastino A, Zadrozny B, et al. Correlation analysis of performance measures for multi-label classification [J]. Information Processing & Management, 2018,54(3): 359-369.

[15]. Panchapagesan S, Sun M, Khare A, et al.Multi-Task Learning and Weighted Cross-Entropy for DNN-Based Keyword Spotting[C]. 2016: 760-764.

標簽: 多模態算法 多模態網絡