トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索   ヘルプ   最終更新のRSS

聴覚尺度 の変更点

Top / 聴覚尺度
  • 追加された行はこの色です。
  • 削除された行はこの色です。
  • 聴覚尺度 へ行く。

#freeze
#access
#analog

*聴覚系の特性を再現したモデルに関する技術報告 [#l59b9b91]

#contents

**バーク尺度 [#z8cbec08]
-[[バーク尺度(wikipedia):http://ja.wikipedia.org/wiki/%E3%83%90%E3%83%BC%E3%82%AF%E5%B0%BA%E5%BA%A6]]
--[[arctanはtanの逆関数:http://lowlife.jp/mft/stories/3.html]]

**ERB(Equivalent Rectangular Bandwidth)尺度 [#h4e2ad1d]
-ヒトの内耳の蝸牛基底膜では、音声の周波数スペクトル解析を行っている。工学的に基底膜の信号変換を再現したモデルが、ERB尺度である((参考:赤木正人, "聴覚フィルタとそのモデル," 電子情報通信学会誌, Vol.77, No.9, pp.948-956, 1994.))。

-[[mel尺度とBark尺度とERB尺度とはどのようなもので聴覚の周波数軸としてはどれを使えばよいのでしょうか?:http://www.asj.gr.jp/qanda/answer/30.html]]
--'''Fletcherが提唱した聴覚フィルタの概念から得られた尺度で、基底膜上の最大振動位置との対応関係が良く、聴覚末梢系のモデルとして有効と考えられている。'''

-[[日本語文末イントネーションの類型 ―聴覚・機能・音響からの分析と教育への応用― 第4章 名詞一語文における[疑問/平叙]の知覚的手がかり2:http://www012.upp.so-net.ne.jp/nick1129/fcchapter4.pdf]] (田中先生) に、聴覚尺度全般の詳しい情報がある。

-[[erblog.m:http://shower.human.waseda.ac.jp/~m-kouki/matlab/erblog.m]]
 function [ erbs ] = erblog( f )
 %ERBLOG ERB尺度に変換
     erbs = 21.4 * log10( (4.37 * f) / 1000 + 1 );
 end
--対数の底は10であることに注意

-聴覚的な意義
--[[Master Studio for Violinmaking - Martin Schleske Munich, Germany » Frequency group ERB:http://www.schleske.de/en/our-research/handbook-violinacoustics/frequency-group-erb.html]]
-'''[[ERB尺度によるフォルマントプロットに関する議論:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki/index.php?20091228%20%E3%82%B9%E3%83%9A%E3%82%AF%E3%83%88%E3%83%AB%E8%A7%A3%E6%9E%90%E5%A0%B1%E5%91%8A%E4%BC%9A#j5317ea1]]'''

**メル尺度 [#lbf3c463]
-[[メル尺度(Wikipedia):http://ja.wikipedia.org/wiki/%E3%83%A1%E3%83%AB%E5%B0%BA%E5%BA%A6]]
-[[mel尺度とBark尺度とERB尺度とはどのようなもので聴覚の周波数軸としてはどれを使えばよいのでしょうか?:http://www.asj.gr.jp/qanda/answer/30.html]]
--'''mel尺度は音の高さの知覚特性から得られた尺度で、1000Hz、40dB SPLの純音を基準の音(1000mel)として、これより2倍の高さあるいは1/2の高さに知覚される音をマグニチュード測定法などで測定し、それぞれ2000mel、500melと決めたものである。'''
--'''mel尺度は、ERB尺度に比べると実際の末梢系を厳密に再現できていないが、周波数軸をメル尺度で変形した対数スペクトラムから得られるケプストラム(メルケプストラム)の計算が容易なため、従来の音声認識技術の特徴量として広く使われている(一部編集して引用)。'''

-[[mellog.m:http://shower.human.waseda.ac.jp/~m-kouki/matlab/mellog.m]]

-[[メル周波数ケプストラム(MFCC):http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/66.html]] も参照して下さい。
--経験的に、13次元のメルケプストラムに[[デルタパラメータ、デルタデルタパラメータ:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/107.html]]を加えた39次元の特徴量を使用すれば、音声認識に十分な精度が得られることが分かっている。

-[[MATLAB Note/音声の分析/フィルタバンク分析:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/73.html#tb4d530b]] で、メルスケールのデジタルフィルタについて説明しています。

**オクターブスケール [#d421ea05]
-周波数が二倍になったら1オクターブ上がる((参考:[[人間は何オクターブまで聞けるか?:http://www.hikoshima.com/bbs/hikoshima/100982.html]]))
-周波数スケールを対数変換したもの、といえる。
-1/3オクターブスケールは、ヒトの聴感との相関が高いといわれている。((詳細な情報が [[小野測器-音質評価とは-2:http://www.onosokki.co.jp/HP-WK/c_support/newreport/soundquality/soundquality_2.htm]] にあります。))

-[[MATLAB Note/音声の分析/フィルタバンク分析:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/73.html#tb4d530b]] で、オクターブスケールのデジタルフィルタについて説明しています。

**セミトーン(semitone) [#n822db4a]
-基本周波数の対数スケールの一種。12セミトーン = 1オクターブ。
-ピッチレンジ(特定の発話区間の最大ピッチと最小ピッチの差分値)などはセミトーンであらわされることが多い。
-計算方法:[[マルソリ・ラボ セミトーン:http://utsakr.blog65.fc2.com/blog-entry-120.html]](名古屋大 宇都木先生)

**メリン変換 [#o1f3d4b0]
-[[初期聴覚系におけるスケール理論(和歌山大 入野先生):http://www.wakayama-u.ac.jp/~irino/Papers/PDFpub/ASJscale_Mar03.pdf]]