Vision AI実装プログラミング―キーポイント検出・姿勢制御・画像セグメンテーション・キャプショニング入門 ViT/ViTPos/Segmenter/MaskFormerを活用した最新AIプログラミング

個数:
電子版価格
¥3,762
  • 電子版あり

Vision AI実装プログラミング―キーポイント検出・姿勢制御・画像セグメンテーション・キャプショニング入門 ViT/ViTPos/Segmenter/MaskFormerを活用した最新AIプログラミング

  • ウェブストアに10冊在庫がございます。(2026年01月31日 08時29分現在)
    通常、ご注文翌日~2日後に出荷されます。
  • 出荷予定日とご注意事項
    ※上記を必ずご確認ください

    【ご注意事項】 ※必ずお読みください
    ◆在庫数は刻々と変動しており、ご注文手続き中に減ることもございます。
    ◆在庫数以上の数量をご注文の場合には、超過した分はお取り寄せとなり日数がかかります。入手できないこともございます。
    ◆事情により出荷が遅れる場合がございます。
    ◆お届け日のご指定は承っておりません。
    ◆「帯」はお付けできない場合がございます。
    ◆画像の表紙や帯等は実物とは異なる場合があります。
    ◆特に表記のない限り特典はありません。
    ◆別冊解答などの付属品はお付けできない場合がございます。
  • ●3Dセキュア導入とクレジットカードによるお支払いについて
    ●店舗受取サービス(送料無料)もご利用いただけます。
    ご注文ステップ「お届け先情報設定」にてお受け取り店をご指定ください。尚、受取店舗限定の特典はお付けできません。詳細はこちら
  • サイズ B5判/ページ数 616p/高さ 24cm
  • 商品コード 9784798075617
  • NDC分類 007.1
  • Cコード C3055

出版社内容情報

画像認識の分野において、近年急速に発展しているTransformerベースの手法とその派生モデルに焦点を当て、キーポイント検出、物体セグメンテーション、画像キャプショニングの実装方法を詳細に解説したのが本書です。好評の既刊『Vision Transformer/最新CNNアーキテクチャ画像分類入門』、最新刊の『DETR最新・物体検出アーキテクチャ入門』に続く第3弾となります。
本書の特徴を以下となります。
・セグメンテーション実装を本格的に解説する入門書。 PyTorch×timmライブラリでデータ準備→学 習→推論→可視化までをコード中心に一気に学べます。
・4大タスクを網羅。キーポイント検出・姿勢制御・セグメンテーション・キャプショニングにおける共通パターンとタスクごとの差分を整理して理解できます。

姿勢制御、セグメンテーション、キャプショニングにおけるCOCOデータのフルセットを用いた学習は、実務エンジニア/研究者/学生などの読者層におすすめです。


【目次】

内容説明

本書は、キーポイント検出・姿勢制御・画像セグメンテーション・キャプショニングを、Transformerを軸に横断して学べる実装書です。単なるAPI呼び出しではなく、いちから(フルスクラッチで)コードを組み立てることを基本に、データ前処理、Dataset/Collate、学習ループ、損失と評価指標、学習率スケジューラまで、内部の仕組みが見える最小実装から丁寧に積み上げていきます。併せて実務での活用を重視し、一部は事前学習済みモデルを用いたファインチューニング(timmのViTやHugging Face Hubの重み、凍結・段階的解凍など)も扱います。これにより、「仕組みの理解」と「現場での応用力」を目指します。

目次

1章 開発環境について
2章 キーポイント検出(Keras)
3章 キーポイント検出(PyTorch)
4章 ViTPoseスタイルモデルによるキーポイント検出
5章 ViTPoseスタイルモデルによる姿勢推定
6章 セマンティックセグメンテーション(Semantic Segmentation)
7章 インスタンスセグメンテーション(Instance Segmentation)
8章 パノプティックセグメンテーション(ファインチューニング版)
9章 画像キャプショニング

最近チェックした商品