直感的に理解する Transformer への CNN の導入
- 電子版Digital1,500 JPY
- 電子版+物理版Ships within 7 daysOut of StockPhysical (direct)1,500 JPY

2020 年に発表された ViT(Vision Transformer) はそれまで畳み込みニ ューラルネットワーク (CNN; Convolutional Neural Network) が支配的で あった Computer Vision 分野における DeepLearning に新たなトレンドを もたらしました。 しかしながら、必要な学習データが多い・計算効率があまりよくないなどの課題がありました。 そこでそれらの課題の解決を図るために、階層型 ViT の研究が 2021 年頃に多く発表され ました。 本書では階層型 ViT の中でも Convolutional vision Transformer で導入 された「Transformer への CNN の導入」をメインテーマに詳しく取りまと めました。