聴覚尺度
Last-modified: 2014-09-11 (木) 03:45:54
Top / 聴覚尺度
聴覚系の特性を再現したモデルに関する技術報告 †
バーク尺度 †
ERB(Equivalent Rectangular Bandwidth)尺度 †
- ヒトの内耳の蝸牛基底膜では、音声の周波数スペクトル解析を行っている。工学的に基底膜の信号変換を再現したモデルが、ERB尺度である*1。
- mel尺度とBark尺度とERB尺度とはどのようなもので聴覚の周波数軸としてはどれを使えばよいのでしょうか?
- Fletcherが提唱した聴覚フィルタの概念から得られた尺度で、基底膜上の最大振動位置との対応関係が良く、聴覚末梢系のモデルとして有効と考えられている。
- 日本語文末イントネーションの類型 ―聴覚・機能・音響からの分析と教育への応用― 第4章 名詞一語文における[疑問/平叙]の知覚的手がかり2 (田中先生) に、聴覚尺度全般の詳しい情報がある。
- erblog.m
function [ erbs ] = erblog( f ) %ERBLOG ERB尺度に変換 erbs = 21.4 * log10( (4.37 * f) / 1000 + 1 ); end
- 対数の底は10であることに注意
- 聴覚的な意義
- ERB尺度によるフォルマントプロットに関する議論
メル尺度 †
- メル尺度(Wikipedia)
- mel尺度とBark尺度とERB尺度とはどのようなもので聴覚の周波数軸としてはどれを使えばよいのでしょうか?
- mel尺度は音の高さの知覚特性から得られた尺度で、1000Hz、40dB SPLの純音を基準の音(1000mel)として、これより2倍の高さあるいは1/2の高さに知覚される音をマグニチュード測定法などで測定し、それぞれ2000mel、500melと決めたものである。
- mel尺度は、ERB尺度に比べると実際の末梢系を厳密に再現できていないが、周波数軸をメル尺度で変形した対数スペクトラムから得られるケプストラム(メルケプストラム)の計算が容易なため、従来の音声認識技術の特徴量として広く使われている(一部編集して引用)。
- メル周波数ケプストラム(MFCC) も参照して下さい。
- 経験的に、13次元のメルケプストラムにデルタパラメータ、デルタデルタパラメータを加えた39次元の特徴量を使用すれば、音声認識に十分な精度が得られることが分かっている。
- MATLAB Note/音声の分析/フィルタバンク分析 で、メルスケールのデジタルフィルタについて説明しています。
オクターブスケール †
- MATLAB Note/音声の分析/フィルタバンク分析 で、オクターブスケールのデジタルフィルタについて説明しています。
セミトーン(semitone) †
- 基本周波数の対数スケールの一種。12セミトーン = 1オクターブ。
- ピッチレンジ(特定の発話区間の最大ピッチと最小ピッチの差分値)などはセミトーンであらわされることが多い。
- 計算方法:マルソリ・ラボ セミトーン(名古屋大 宇都木先生)
メリン変換 †
*1 参考:赤木正人, "聴覚フィルタとそのモデル," 電子情報通信学会誌, Vol.77, No.9, pp.948-956, 1994.
*2 参考:人間は何オクターブまで聞けるか?
*3 詳細な情報が 小野測器-音質評価とは-2 にあります。