Pythonで学ぶ音源分離機械学習実践シリーズ

戸上真人

インプレス

発売：2020/08/24

発行形態：書籍

ファイル：EPUB画像形式／82.5MB

ポイント：35pt

¥3,850( 本体 ¥3,500 )

試し読み

商品詳細

※この商品は固定レイアウトで作成されており、タブレットなど大きいディスプレイを備えた端末で読むことに適しています。また、文字列のハイライトや検索、辞書の参照、引用などの機能が使用できません。

中級者以上に向けた、特定の技術分野のアルゴリズムの紹介と、そのアルゴリズムを実装したコードを解説する、より技術的・実践的な「機械学習実践シリーズ」の1冊目として、「音源分離」をテーマとしています。近年、AIスピーカをはじめとした、人が話した音声を理解する音声認識システムがさまざまな場面で使われています。一般的に音声認識システムは、1人の人の声を聞き取ることを想定しており、聞きたい人の声以外の音が入ってくると、どうしても聞きたい人の声を正確に聞き取ることが難しくなります。「音源分離」とはこのようにさまざまな音が混ざった中から、欲しい音だけを抽出するという技術です。本書では、音源分離の基礎から、Pythonを用いた実装までを詳しく解説しています。また、音源分離で用いる数学的知識の基礎として、線形代数や行列・ベクトルの微分の方法、確率統計の基礎について示しています。音源分離を理解しコードを書くためには、プログラミングに関する知識はもちろん、線形代数、微分積分、確率・統計といった数学的知識も必要不可欠です。とくに音源分離では複素数の行列・ベクトルを用いるので、複素数の計算方法について重点的に示しています。

表紙
本書の前提
目次
序章
第1章音源分離とは？
第1節不要な音を除去する音源分離技術
第2節音源分離を直感的に理解しよう　
第3節本書の構成
コラム：人間の聴覚機能と音源分離技術の関係　
第2章音声処理の基礎
第1節音声ファイルを開いてみよう　
第2節時間周波数領域への変換
第3節音声を可視化する
第4節音声を時間領域の信号に戻す
第5節時間周波数領域での音声の加工
コラム：発話内容を簡単に把握可能にする便利ツール
第3章音源分離で用いる数学的知識の基礎（線形代数、ベクトル・行列の微分）
第1節音源分離で用いる線形代数
第2節逆行列
第3節ベクトル・行列の微分
第4節確率・統計の基礎知識
コラム：AI分野全般で必要とされる数学の知識
第4章「最適化」に関する技法を理解する
第1節本章の概要　
第2節凸関数最小化　
第3節ラグランジュ未定乗数法による制約付き最適化問題
第4節確率・統計的なフレームワークに基づくパラメータ最適化
第5節 MM（Maximization-Majorization）法に基づくパラメータ最適化
コラム：音源分離で好まれるパラメータ最適化法の特徴
第5章シミュレータで音を作ってみる
第1節シミュレータを用いた音の生成法　
コラム：シミュレータと実収録データによる実験の併用について
第6章古典的な音源分離方法～ビームフォーミング～
第1節本書で紹介する音源分離法の分類と本章で紹介するビームフォーミング法の概要
第2節入力信号のモデル化
第3節ステアリングベクトルの計算方法　
第4節遅延和アレイDSBF
第5節最小分散無歪ビームフォーマ（MVDR）
第6節最大SNRビームフォーマ（MaxSNR）
第7節マルチチャンネルウィナーフィルタ（MWF）
コラム：単純だが奥が深いビームフォーミング法　
第7章音源方向推定に基づく音源分離
第1節本章の概要
第2節音声のスパース性に基づく音源分離
第3節音声のスパース性とビームフォーミングの統合
コラム：ビームフォーミング法の実用化
第8章現代的な統計的モデルに基づく音源分離法
第1節本章の概要
第2節独立成分分析
第3節独立ベクトル分析　
第4節独立低ランク分析　
第5節マルチチャンネル時変ガウスモデル　
コラム：業界を賑わせたブラインド音源分離法
第9章響きのある音を響きのない音に変える残響除去法
第1節残響除去問題の定義
第2節空間的な逆フィルタ
第3節線形予測に基づく残響除去　
第4節時変ガウスモデルを用いた残響除去　
コラム：地味だが実用性の高い残響除去技術
第10章音源分離と残響除去を統合的に実行する
第1節本章の概要
第2節マルチチャンネルの時変ガウスモデルに基づく音源分離と残響除去の同時実行
第3節独立低ランク分析に基づく音源分離と残響除去の同時実行
第11章音源分離関連のライブラリ紹介・その他のトピック・参考文献
第1節音源分離関連Pythonライブラリ
第2節その他のトピック
第3節参考文献
おわりに
索引
スタッフリスト
奥付

購入前の注意点

・3Dセキュア導入とクレジットカードによるお支払いについて
・この書籍はKinoppy for iOS、Kinoppy for Android、Kinoppy for Windows または Kinoppy for Mac（いずれも最新版）でお読みください。
・電子書籍は会員サービス利用規約に則してご利用いただきます。
・海外会員様にはプレゼントを贈れません。

著者情報

戸上真人［トガミマサヒト］
２０１７年１月～２０１８年５月、スタンフォード大学のＳｔａｎｆｏｒｄ　Ｄａｔａ　Ｓｃｉｅｎｃｅ　Ｉｎｉｔｉａｔｉｖｅ（ＳＤＳＩ）　Ｖｉｓｉｔｉｎｇ　Ｓｃｈｏｌａｒ。２０１８年６月にＬＩＮＥ株式会社入社。現在、同社のＡＩ研究組織であるＤａｔａ　ＬａｂｓのＳｐｅｅｃｈ　ＴｅａｍのＭａｎａｇｅｒ兼Ｐｒｉｎｃｉｐａｌ　Ｒｅｓｅａｒｃｈｅｒ。（一社）人工知能学会理事。１６年以上に渡り、音声処理の研究開発に従事。東京大学工学系研究科より２０１１年に博士（工学）授与。登録特許２０件以上、査読あり国際会議での採択論文数６０件以上。ＩＥＥＥ　Ｓｅｎｉｏｒ　Ｍｅｍｂｅｒ（本データはこの書籍が刊行された当時に掲載されていたものです）