出版社内容情報
【推薦の言葉】
あなたのLLMスキル、「実戦」で通用しますか?
ファインチューニング、RAG、量子化、モデルマージ……
知識や理論を知っているだけでは、性能を引き出すことはできません。
トップKagglerたちはスコアを削り出すために、
何を試し、何を捨て、なぜその手法を選んだのか。
課題解決のための「本物」の技術を身につけられる一冊です。
――秋葉拓哉(Sakana AI Staff Research Scientist)
従来のKaggle関連書籍では、十分に取り扱うことができずにいたテキストデータを扱うコンペティション(NLPコンペ)に焦点を当てた初の書籍です。注目が集まっている大規模言語モデルに関する内容をふんだんに盛り込み、基本的な使い方から、性能を底上げする応用的な使い方までを幅広く解説しています。
・実践的な課題解決の場で得られた知見をもとに内容を構成し、教科書的な書籍とは異なる実用的な視点を提供。コンペ参加者に限らず、大規模言語モデルに関心を持つエンジニアや研究者にとっても有益!
・基礎編では、基礎知識のみにとどめず、大規模言語モデルの性能をさらに引き出すための、実践的な暗黙知や勘所などのウラ側も詳しく解説。コンペの上位スコアを追体験できるサンプルコードも提供。
・応用編では、多彩な8つのKaggleコンペを題材に、概要・データ構造・評価指標を整理し、ベースラインとして公開されている手法および上位解法を紹介。
【編著者】
高野海斗(主に1、3章)/齋藤慎一朗(主に4、5、10章)/石原祥太郎(主に2章と全体の編集)
【応用編の寄稿者】
坂見耕輔さん(6章)/中真人さん(7章)/郭林升さん(8章)/三好拓志さん(9章)/村上直輝さん(11章)/洪立航さん(12章)/吉原浩之さん(13章)/井ノ上雄一さん(13章)/山口大器さん(13章)
【サポートサイト】
サンプルコード・参考文献・正誤表・編著者および寄稿者のプロフィール一覧を掲載します。
https://github.com/sinchir0/kaggle_llm_book/
【目次】
《基礎編》
1. 自然言語処理の基礎
2. データサイエンスコンペティションの基礎
3. 「atmaCup #17」に挑戦
4. 大規模言語モデルの性能改善
5. 大規模言語モデルの軽量化・高速化・省メモリ化
《応用編》
6. Jigsaw Unintended Bias in Toxicity Classification
7. CommonLit - Evaluate Student Summaries
8. Kaggle - LLM Science Exam
9. Bengali.AI Speech Recognition
10. The Learning Agency Lab - PII Data Detection
11. Eedi - Mining Misconceptions in Mathematics
12. WSDM Cup - Multilingual Chatbot Arena
13. AI Mathematical Olympiad - Progress Prize 2
内容説明
トップKagglerたちはスコアを削り出すために、何を試し、何を捨て、なぜその手法を選んだのか。圧巻の情報量で唯一無二の価値を誇る決定版!
目次
基礎編(自然言語処理の基礎;データサイエンスコンペティションの基礎;「atmaCup #17」に挑戦;大規模言語モデルの性能改善;大規模言語モデルの軽量化・高速化・省メモリ化)
応用編(Jigsaw Unintended Bias in Toxicity Classification;CommonLit‐Evaluate Student Summaries;Kaggle‐LLM Science Exam;Bengali.AI Speech Recognition;The Learning Agency Lab‐PII Data Detection;Eedi‐Mining Misconceptions in Mathematics;WSDM Cup‐Multilingual Chatbot Arena;AI Mathematical Olympiad‐Progress Prize 2)
著者等紹介
高野海斗[タカノカイト]
Kaggle Master。資産運用会社で自然言語処理技術を活用した投資戦略の開発や業務効率化ツールの開発を担当。Kaggleでは「LLM‐Detect AI Generated Text」コンペで単独で金メダルを獲得したほか、さまざまなコンペでメダルを獲得。博士(理工学)。大阪公立大学客員研究員。人工知能学会企画委員(コンペ担当)
齋藤慎一朗[サイトウシンイチロウ]
Kaggle Master。Sansan株式会社研究開発部シニアリサーチャー。業務ではファインチューニングしたLLMを活用したプロダクト改善に従事。Kaggleでは「MAP‐Charting Student Math Misunderstandings」コンペで金メダルを獲得したほか「The Learning Agency Lab‐PII Data Detection」コンペや「LMSYS‐Chatbot Arena Human Preference Predictions」コンペにて銀メダルを獲得。LLMの技術記事を多く投稿。Kaggle Competitions MasterおよびNotebooks Master
石原祥太郎[イシハラショウタロウ]
Kaggle Master。株式会社日本経済新聞社でLLMの開発や利活用を推進。Kaggleでは「PetFinder.my Adoption Prediction」コンペの優勝をはじめ、Kaggle Days Tokyoでのコンペ開催、「Kaggle Days Championship Final 2022」進出など、幅広い経験を持つ。2019年から「Weekly Kaggle News」を配信している。人工知能学会企画委員(コンペ担当)、Google Developer Expert(AI、Kaggle)(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。



