直感的に理解する Transformer への CNN の導入
- 電子版ダウンロード商品¥ 1,500
- 電子版+物理版支払いから発送までの日数:7日以内在庫なし物販商品(自宅から発送)¥ 1,500







2020 年に発表された ViT(Vision Transformer) はそれまで畳み込みニ ューラルネットワーク (CNN; Convolutional Neural Network) が支配的で あった Computer Vision 分野における DeepLearning に新たなトレンドを もたらしました。 しかしながら、必要な学習データが多い・計算効率があまりよくないなどの課題がありました。 そこでそれらの課題の解決を図るために、階層型 ViT の研究が 2021 年頃に多く発表され ました。 本書では階層型 ViT の中でも Convolutional vision Transformer で導入 された「Transformer への CNN の導入」をメインテーマに詳しく取りまと めました。






