出版社内容情報
スモールなデータの解析手法・ノウハウが身につく!
人工知能によるビッグデータ解析が近年、広く注目されています。しかし、製造メーカなどのほとんどの一般企業においてはデータ量が少なかったり偏っていたりする、スモールデータがデータの中心です。本書はそのようなスモールデータの解析手法を解説するものです。
Webデータや気象データに代表されるようなビッグデータが注目される一方で、機械の故障データのように発生自体がまれであったり、臨床データのように倫理的な問題からデータ収集が困難、あるいはラベリングが専門家以外困難で教師データが集まらなかったりするスモールなデータ、すなわちスモールデータが存在します。
これらのデータは測定されている変数の数に比べて統計モデリングに必要なデータが不足していたり、正負双方のサンプルが必要となる分析において、その取得が困難といったような問題があり、そのままビッグデータの考え方を適用するのは適当ではありません。
本書は、はじめにスモールデータとは何かから、データの作り方となる次元削減と回帰分析の手法、つづいてスパースなデータのモデリング、クラスタリング、不均衡なデータの解析手法、異常検出を述べていきます。そして最後にスモールデータの解析においてのポイント・考え方を述べて、読者がスモールデータを有効に解析できるようになるようまとめました。
感想・レビュー
※以下の感想・レビューは、株式会社ブックウォーカーの提供する「読書メーター」によるものです。
ぶう
12
実業務をしていると機械学習をしたいのに十分なデータ量がないというのはよくあること。寧ろ十分な量のデータが揃っていることのほうが少ないのではないだろうか?本書はそういった場面で活用できるテクニックについて書かれた書籍。ビッグデータの取り扱いについて書かれた本は多いが、スモールデータを対象としている本はあまり聞かない。主成分分析や最小二乗法などのメジャーどころをはじめとして、部分的最小二乗法(PLS)といった優れた手法まで学ぶことができる。Pythonのサンプルコードが多く手を動かして学びやすいのもメリット。2023/02/07
オザマチ
12
実務上出会うデータはN数が少ないことが多いので、結構役に立つことが書いてある。こういう本がもう少し増えてもいいと思う。2022/10/10
Taizo
4
「とりあえず初手LightGBMでござる」とか「Deep Learningすればなんとでもなりますわガハハ」とかいってませんか?背景になる数学をちゃんと理解してますか?といったニュアンスの本。内容自体はオーソドックスで主成分分析、線形回帰、説明変数選択、不均衡データの取り扱い、異常検知といった感じ。とはいえ線形回帰のPLSなんかは知らなかったし、しかもコンセプトとして非常に洗練されてると感じたので、改めて統計の有用なコンセプトをざっと攫いたい人なんかにはおすすめかも。2022/08/21
PenguinTrainer
3
ビックデータの対義語となるであろうスモールデータを対象とした解析を扱った書籍。 現実問題使えるビックデータというのはそこまで身近に存在しない。 本書で扱っているようなそもそもデータが少ないであったり、標本数に対して標本が持つパラメータが大きかったり、取得できるデータのクラスに偏りがあるような現実的な問題に対する一定の対策が示されている。2024/07/16
ONE_shoT_
3
部分的最小二乗法(PLS)の解説が載っていたので読んだ一冊。データが少ない状況での機械学習に主眼を置いているため、あまり馴染みがない手法が多く解説されていて興味深かった。公開されているコードは誤りが多かったものの、それを直しつつ動かしてみることで、結果勉強にはなった。2022/12/17