वीडियो एक्शन रिकॉग्निशन - वीडियो एक्शन रिकॉग्निशन के लिए कन्वेंशनल टू-स्ट्रीम नेटवर्क फ्यूजन

Video Action Recognition Convolutional Two Stream Network Fusion



वीडियो एक्शन रिकॉग्निशन CVPR2016 के लिए कन्वेंशनल टू-स्ट्रीम नेटवर्क फ्यूजन

https://github.com/feichtenhofer/twostreamfusion

वीडियो एक्शन रिकग्निशन के लिए, दो स्टीम CNN का उपयोग अलग-अलग सूचना-अस्थायी जानकारी को संसाधित करने के लिए किया जाता है। यहां हम मुख्य रूप से चर्चा करते हैं कि सीएनएन में स्पैट-टेम्पोरल जानकारी को बेहतर ढंग से कैसे एकीकृत किया जाए।
हमारे निष्कर्ष इस प्रकार हैं:
(i) कि सॉफ्टमैक्स परत पर फ्यूज करने के बजाय, एक स्थानिक और लौकिक नेटवर्क को प्रदर्शन के नुकसान के बिना एक कन्वेंशन लेयर में फ्यूज किया जा सकता है, लेकिन मापदंडों में पर्याप्त बचत के साथ
सजातीय परत में स्पटियोटेम्पोरल नेटवर्क का संलयन प्रदर्शन में गिरावट का कारण नहीं होगा, लेकिन नेटवर्क मापदंडों को कम कर सकता है

(ii) इस तरह के नेटवर्कों को पहले की तुलना में अंतिम रूपात्मक परत पर स्थानिक रूप से फ्यूज करना बेहतर है, और इसके अलावा क्लास प्रिडिक्शन लेयर पर फ्यूज करने से सटीकता को बढ़ावा मिल सकता है
नेटवर्क के बाद-संवेदी परत में स्थानिक संलयन उथले परत की तुलना में बेहतर है, और श्रेणी पूर्वानुमान परत में संलयन प्रदर्शन को बढ़ाएगा

(iii) कि स्थानिक संप्रदायों पर अमूर्त दृढ़ सुविधाओं की पूलिंग प्रदर्शन को और बढ़ा देती है।
लौकिक और स्थानिक पड़ोस में पूलिंग में शामिल होने से प्रदर्शन में वृद्धि हो सकती है

छवि

छवि

सीएनएन नेटवर्क ने वीडियो एक्शन पहचान में अच्छे परिणाम क्यों हासिल नहीं किए, इसके कारणों में हम मानते हैं: 1) प्रशिक्षण डेटा बहुत छोटा हो सकता है, 2) समय की जानकारी का पर्याप्त उपयोग नहीं किया जाता है
वर्तमान कन्वीन्ट आर्किटेक्चर लौकिक सूचनाओं का पूरा फायदा नहीं उठा पा रहे हैं और उनके प्रदर्शन में अक्सर स्थानिकता (उपस्थिति) की पहचान का बोलबाला है।

कम से कम पिछले दो-स्ट्रीम आर्किटेक्चर निम्नलिखित समस्याओं को हल नहीं कर सकते हैं:
1) मान्यता प्राप्त है कि क्या चल रहा है, अर्थात् ऑप्टिकल प्रवाह मान्यता (लौकिक क्यू) के साथ उपस्थिति पहचान (स्थानिक क्यू) को पंजीकृत करना
2) समय के साथ ये संकेत कैसे विकसित होते हैं। जानकारी कैसे बदलती है

3 दृष्टिकोण
पिछले दो-स्ट्रीम आर्किटेक्चर स्पोटियोटेम्पोरल जानकारी को अच्छी तरह से एकीकृत नहीं कर सके और कोई स्पोटीओपोपरल पत्राचार नहीं था
3.1। स्थानिक संलयन
यहाँ कई प्रकार के संलयन हैं: सम संलयन, अधिकतम संलयन, संकेतन संलयन, संलयन संलयन, बिलिनियर संलयन
छवि

३.२। नेटवर्क को फ्यूज करने के लिए कहां
यहां अधिक विकल्प हैं
छवि

३.३। अस्थायी संलयन
छवि

३.४। प्रस्तावित वास्तुकला
छवि

हम 3 डी पूलिंग के बाद 3 डी कन्व्यूजन (अंजीर। 4, बाएं देखें) का उपयोग करके इसे एक स्थानिक धारा में बदलने के लिए स्थानिक धारा में (रेएलयू के बाद) दो नेटवर्क पर फ्यूज करते हैं। इसके अलावा, हम लौकिक प्रवाह को कम नहीं करते हैं और लौकिक नेटवर्क में 3D पूलिंग भी करते हैं (चित्र 4, दाईं ओर देखें)। दोनों धाराओं के नुकसान का उपयोग प्रशिक्षण के लिए किया जाता है और परीक्षण के दौरान हम दो धाराओं की भविष्यवाणियों को औसत करते हैं

छवि

क्या यह जटिल लगता है!