出版社内容情報
画像認識の分野において、近年急速に発展しているTransformerベースの手法とその派生モデルに焦点を当て、キーポイント検出、物体セグメンテーション、画像キャプショニングの実装方法を詳細に解説したのが本書です。好評の既刊『Vision Transformer/最新CNNアーキテクチャ画像分類入門』、最新刊の『DETR最新・物体検出アーキテクチャ入門』に続く第3弾となります。
本書の特徴を以下となります。
・セグメンテーション実装を本格的に解説する入門書。 PyTorch×timmライブラリでデータ準備→学 習→推論→可視化までをコード中心に一気に学べます。
・4大タスクを網羅。キーポイント検出・姿勢制御・セグメンテーション・キャプショニングにおける共通パターンとタスクごとの差分を整理して理解できます。
姿勢制御、セグメンテーション、キャプショニングにおけるCOCOデータのフルセットを用いた学習は、実務エンジニア/研究者/学生などの読者層におすすめです。
【目次】
内容説明
本書は、キーポイント検出・姿勢制御・画像セグメンテーション・キャプショニングを、Transformerを軸に横断して学べる実装書です。単なるAPI呼び出しではなく、いちから(フルスクラッチで)コードを組み立てることを基本に、データ前処理、Dataset/Collate、学習ループ、損失と評価指標、学習率スケジューラまで、内部の仕組みが見える最小実装から丁寧に積み上げていきます。併せて実務での活用を重視し、一部は事前学習済みモデルを用いたファインチューニング(timmのViTやHugging Face Hubの重み、凍結・段階的解凍など)も扱います。これにより、「仕組みの理解」と「現場での応用力」を目指します。
目次
1章 開発環境について
2章 キーポイント検出(Keras)
3章 キーポイント検出(PyTorch)
4章 ViTPoseスタイルモデルによるキーポイント検出
5章 ViTPoseスタイルモデルによる姿勢推定
6章 セマンティックセグメンテーション(Semantic Segmentation)
7章 インスタンスセグメンテーション(Instance Segmentation)
8章 パノプティックセグメンテーション(ファインチューニング版)
9章 画像キャプショニング
-
- 電子書籍
- ワケあり救世主の異世界ライフ【タテヨミ…



