Pythonで学ぶ音源分離 機械学習実践シリーズ

戸上真人

インプレス

発売:2020/08/24

発行形態:書籍

ファイル:EPUB画像形式/82.5MB

ポイント:35pt

¥3,850( 本体 ¥3,500 )

商品詳細

※この商品は固定レイアウトで作成されており、タブレットなど大きいディスプレイを備えた端末で読むことに適しています。また、文字列のハイライトや検索、辞書の参照、引用などの機能が使用できません。

中級者以上に向けた、特定の技術分野のアルゴリズムの紹介と、そのアルゴリズムを実装したコードを解説する、より技術的・実践的な「機械学習実践シリーズ」の1冊目として、「音源分離」をテーマとしています。近年、AIスピーカをはじめとした、人が話した音声を理解する音声認識システムがさまざまな場面で使われています。一般的に音声認識システムは、1人の人の声を聞き取ることを想定しており、聞きたい人の声以外の音が入ってくると、どうしても聞きたい人の声を正確に聞き取ることが難しくなります。「音源分離」とはこのようにさまざまな音が混ざった中から、欲しい音だけを抽出するという技術です。本書では、音源分離の基礎から、Pythonを用いた実装までを詳しく解説しています。また、音源分離で用いる数学的知識の基礎として、線形代数や行列・ベクトルの微分の方法、確率統計の基礎について示しています。音源分離を理解しコードを書くためには、プログラミングに関する知識はもちろん、線形代数、微分積分、確率・統計といった数学的知識も必要不可欠です。とくに音源分離では複素数の行列・ベクトルを用いるので、複素数の計算方法について重点的に示しています。

表紙
本書の前提
目次
序章
第1章 音源分離とは?
第1節 不要な音を除去する音源分離技術
第2節 音源分離を直感的に理解しよう 
第3節 本書の構成
コラム:人間の聴覚機能と音源分離技術の関係 
第2章 音声処理の基礎
第1節 音声ファイルを開いてみよう 
第2節 時間周波数領域への変換
第3節 音声を可視化する
第4節 音声を時間領域の信号に戻す
第5節 時間周波数領域での音声の加工
コラム:発話内容を簡単に把握可能にする便利ツール
第3章 音源分離で用いる数学的知識の基礎(線形代数、ベクトル・行列の微分)
第1節 音源分離で用いる線形代数
第2節 逆行列
第3節 ベクトル・行列の微分
第4節 確率・統計の基礎知識
コラム:AI分野全般で必要とされる数学の知識
第4章 「最適化」に関する技法を理解する
第1節 本章の概要 
第2節 凸関数最小化 
第3節 ラグランジュ未定乗数法による制約付き最適化問題
第4節 確率・統計的なフレームワークに基づくパラメータ最適化
第5節 MM(Maximization-Majorization)法に基づくパラメータ最適化
コラム:音源分離で好まれるパラメータ最適化法の特徴
第5章 シミュレータで音を作ってみる
第1節 シミュレータを用いた音の生成法 
コラム:シミュレータと実収録データによる実験の併用について
第6章 古典的な音源分離方法~ビームフォーミング~
第1節 本書で紹介する音源分離法の分類と本章で紹介するビームフォーミング法の概要
第2節 入力信号のモデル化
第3節 ステアリングベクトルの計算方法 
第4節 遅延和アレイDSBF
第5節 最小分散無歪ビームフォーマ(MVDR)
第6節 最大SNRビームフォーマ(MaxSNR)
第7節 マルチチャンネルウィナーフィルタ(MWF)
コラム:単純だが奥が深いビームフォーミング法 
第7章 音源方向推定に基づく音源分離
第1節 本章の概要
第2節 音声のスパース性に基づく音源分離
第3節 音声のスパース性とビームフォーミングの統合
コラム:ビームフォーミング法の実用化
第8章 現代的な統計的モデルに基づく音源分離法
第1節 本章の概要
第2節 独立成分分析
第3節 独立ベクトル分析 
第4節 独立低ランク分析 
第5節 マルチチャンネル時変ガウスモデル 
コラム:業界を賑わせたブラインド音源分離法
第9章 響きのある音を響きのない音に変える残響除去法
第1節 残響除去問題の定義
第2節 空間的な逆フィルタ
第3節 線形予測に基づく残響除去 
第4節 時変ガウスモデルを用いた残響除去 
コラム:地味だが実用性の高い残響除去技術
第10章 音源分離と残響除去を統合的に実行する
第1節 本章の概要
第2節 マルチチャンネルの時変ガウスモデルに基づく音源分離と残響除去の同時実行
第3節 独立低ランク分析に基づく音源分離と残響除去の同時実行
第11章 音源分離関連のライブラリ紹介・その他のトピック・参考文献
第1節 音源分離関連Pythonライブラリ
第2節 その他のトピック
第3節 参考文献
おわりに
索引
スタッフリスト
奥付

購入前の注意点

3Dセキュア導入とクレジットカードによるお支払いについて
・この書籍はKinoppy for iOS、Kinoppy for Android、Kinoppy for Windows または Kinoppy for Mac(いずれも最新版)でお読みください。
・電子書籍は会員サービス利用規約に則してご利用いただきます。
・海外会員様にはプレゼントを贈れません。

著者情報

戸上真人[トガミマサヒト]
2017年1月~2018年5月、スタンフォード大学のStanford Data Science Initiative(SDSI) Visiting Scholar。2018年6月にLINE株式会社入社。現在、同社のAI研究組織であるData LabsのSpeech TeamのManager兼Principal Researcher。(一社)人工知能学会理事。16年以上に渡り、音声処理の研究開発に従事。東京大学工学系研究科より2011年に博士(工学)授与。登録特許20件以上、査読あり国際会議での採択論文数60件以上。IEEE Senior Member(本データはこの書籍が刊行された当時に掲載されていたものです)