出版社内容情報
【推薦の言葉】
あなたのLLMスキル、「実戦」で通用しますか?
ファインチューニング、RAG、量子化、モデルマージ……
知識や理論を知っているだけでは、性能を引き出すことはできません。
トップKagglerたちはスコアを削り出すために、
何を試し、何を捨て、なぜその手法を選んだのか。
課題解決のための「本物」の技術を身につけられる一冊です。
――秋葉拓哉氏(Sakana AI Staff Research Scientist)
従来のKaggle関連書籍では、十分に取り扱うことができずにいたテキストデータを扱うコンペティション(NLPコンペ)に焦点を当てた初の書籍です。注目が集まっている大規模言語モデルに関する内容をふんだんに盛り込み、基本的な使い方から、性能を底上げする応用的な使い方までを幅広く解説しています。
・実践的な課題解決の場で得られた知見をもとに内容を構成し、教科書的な書籍とは異なる実用的な視点を提供。コンペ参加者に限らず、大規模言語モデルに関心を持つエンジニアや研究者にとっても有益!
・基礎編では、基礎知識のみにとどめず、大規模言語モデルの性能をさらに引き出すための、実践的な暗黙知や勘所などのウラ側も詳しく解説。コンペの上位スコアを追体験できるサンプルコードも提供。
・応用編では、多彩な8つのKaggleコンペを題材に、概要・データ構造・評価指標を整理し、ベースラインとして公開されている手法および上位解法を紹介。
【編著者】
高野海斗(主に1、3章)/齋藤慎一朗(主に4、5、10章)/石原祥太郎(主に2章と全体の編集)
【応用編の寄稿者】
坂見耕輔さん(6章)/chumajinさん(7章)/郭林升さん(8章)/三好拓志さん(9章)/村上直輝さん(11章)/洪立航さん(12章)/吉原浩之さん(13章)/井ノ上雄一さん(13章)/山口大器さん(13章)
【サポートサイト】
サンプルコード・参考文献・正誤表・編著者および寄稿者のプロフィール一覧を掲載します。
https://github.com/sinchir0/kaggle_llm_book/
【目次】
《基礎編》
1. 自然言語処理の基礎
2. データサイエンスコンペティションの基礎
3. 「atmaCup #17」に挑戦
4. 大規模言語モデルの性能改善
5. 大規模言語モデルの軽量化・高速化・省メモリ化
《応用編》
6. Jigsaw Unintended Bias in Toxicity Classification
7. CommonLit - Evaluate Student Summaries
8. Kaggle - LLM Science Exam
9. Bengali.AI Speech Recognition
10. The Learning Agency Lab -PII Data Detection
11. Eedi - Mining Misconceptions in Mathematics
12. WSDM Cup - Multilingual Chatbot Arena
13. AI Mathematical Olympiad - Progress Prize 2



