Build a Text-to-Image Generator (from Scratch)

個数：

ポイントキャンペーン

Build a Text-to-Image Generator (from Scratch)

Liu, Mark

ウェブストア価格 ¥12,397（本体¥11,270）
Manning Publications（2026/01発売）
外貨定価 US$ 59.99
【ウェブストア限定】洋書・洋古書ポイント5倍対象商品（～2/28）
ポイント 560pt

在庫がございません。海外の書籍取次会社を通じて出版社等からお取り寄せいたします。
通常6～9週間ほどで発送の見込みですが、商品によってはさらに時間がかかることもございます。
【重要ご説明事項】
1. 納期遅延や、ご入手不能となる場合がございます。
2. 複数冊ご注文の場合は、ご注文数量が揃ってからまとめて発送いたします。
3. 美品のご指定は承りかねます。

●3Dセキュア導入とクレジットカードによるお支払いについて

【入荷遅延について】
世界情勢の影響により、海外からお取り寄せとなる洋書・洋古書の入荷が、表示している標準的な納期よりも遅延する場合がございます。
おそれいりますが、あらかじめご了承くださいますようお願い申し上げます。

◆画像の表紙や帯等は実物とは異なる場合があります。

◆ウェブストアでの洋書販売価格は、弊社店舗等での販売価格とは異なります。
また、洋書販売価格は、ご注文確定時点での日本円価格となります。
ご注文確定後に、同じ洋書の販売価格が変動しても、それは反映されません。

製本 Hardcover:ハードカバー版／ページ数 360 p.
言語 ENG
商品コード 9781633435421

Full Description

AI images flood feeds, yet the models behind them feel mysterious. Relying on black boxes risks bias, errors, and costly creative dead ends. You deserve hands-on skills to build, audit, and improve these generators yourself. This book starts from a blank notebook, guiding every line of Python code. Learn transformers for vision, then craft diffusion models that sharpen noise into art. Finish with a custom system generating high-resolution images from any text prompt.

Vision transformer anatomy: Decode image patches and attention flows for transparent decision paths.

End-to-end diffusion pipeline: Transform random noise into detailed, photorealistic pictures you can trust.

Captioning and classification builds: Extend models to describe or categorize images for downstream tasks.

Fine-tuning walkthroughs: Adapt pretrained networks quickly, saving compute while boosting domain accuracy.

Deepfake detection skills: Differentiate authentic photos from generated fakes to safeguard projects and brands.

Fully runnable notebooks: Experiment, tweak, and visualize results without configuration hassles.

In Build a Text-to-Image Generator (from Scratch), the author combines clear prose, diagrams, and production-ready Python to deliver practical authority.

Starting with patch tokenization, you implement a vision transformer, then pivot to diffusion. Step-by-step chapters layer theory, code, and visual outputs, ensuring concepts click before you move on. By the final page you can craft, tune, and deploy image generators that suit your data, budget, and ethical standards. You control every hyperparameter and understand every pixel produced.

Ideal for data scientists and Python-savvy enthusiasts eager to master state-of-the-art image generation.

PART 1: UNDERSTANDING ATTENTION AND TRANSFORMERS

1 A TALE OF TWO MODELS: TRANSFORMERS AND DIFFUSIONS

2 BUILD A TRANSFORMER

3 CLASSIFY IMAGES WITH A VISION TRANSFORMER (VIT)

4 ADD CAPTIONS TO IMAGES

PART 2: INTRODUCTION TO DIFFUSION MODELS

5 GENERATE IMAGES WITH DIFFUSION MODELS

6 CONTROL WHAT IMAGES TO GENERATE IN DIFFUSION MODELS

7 GENERATE HIGH-RESOLUTION IMAGES WITH DIFFUSION MODELS

PART 3: TEXT-TO-IMAGE GENERATION WITH DIFFUSION MODELS

8 CLIP: A MODEL TO MEASURE THE SIMILARITY BETWEEN IMAGE AND TEXT

9 TEXT-TO-IMAGE GENERATION WITH LATENT DIFFUSION

10 A DEEP DIVE INTO STABLE DIFFUSION

PART 4: TEXT-TO-IMAGE GENERATION WITH TRANSFORMERS

11 VQGAN: CONVERT IMAGES INTO SEQUENCES OF INTEGERS

12 A MINIMAL IMPLEMENTATION OF DALL-E

PART 5: NEW DEVELOPMENTS AND CHALLENGES

13 NEW DEVELOPMENTS AND CHALLENGES IN TEXT-TO-IMAGE GENERATION

APPENDIX

INSTALL PYTORCH AND ENABLE GPU TRAINING LOCALLY AND IN COLAB