出版社内容情報
CNNとViTによる画像認識を本格的に学ぶために!
本書は、深層学習(ディープラーニング)に基づく2つの技術、畳込みニューラルネットワーク(CNN)とVision Transformer(ViT)を通して、画像認識の基礎を実践例とともに解説するものです。
画像認識技術は、顔認証や異常検知など、現代社会に欠かせない技術として広く応用されており、研究開発も盛んに行われています。本書では、確かな理解のもとに画像認識技術の研究開発が可能となるよう、前半において理論的な基盤(深層学習の基本事項、畳込みニューラルネットワーク(CNN)、Vision Transformer(ViT))を、紙数を割いてわかりやすく解説していきます。また後半では、代表的な画像認識技術である物体検出と領域分割、学習データの大規模化に欠かせない自己教師あり学習を実例とともに解説し、最終章では今後ますます重要になると見込まれるVision and Languageを詳細に扱います。
全体を通して、擬似コードなどでアルゴリズムを把握できるようにしたほか、Python(PyTorch)のサンプルコードも用意し、読者自身が手を動かして画像認識を実践することができるようにしました。
内容説明
現代の画像認識の理論・手法が俯瞰できる一冊。CNNからViT(Vision Transformer)まで、深層学習による画像認識の基礎がわかる。物体検出や領域分割といった基本的な手法を押さえつつ、自然言語とのマルチモーダル処理もあざやかに解説。
目次
第1章 画像認識の概要
第2章 深層学習の基礎
第3章 畳込みニューラルネットワーク
第4章 Vision Transformer
第5章 物体検出
第6章 領域分割
第7章 自己教師あり学習
第8章 画像と自然言語
著者等紹介
菅沼雅徳[スガヌママサノリ]
2017年横浜国立大学大学院環境情報学府情報メディア環境学専攻博士後期課程修了(半期短縮修了)、博士(工学)。2021年理化学研究所革新知能統合研究センター客員研究員(現職、兼務)(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。