Praat の変更点
Top / Praat
- 追加された行はこの色です。
- 削除された行はこの色です。
- Praat へ行く。
- Praat の差分を削除
#access #analog &color(red){2015/08/28 誤記および古い記法を一部修正しました。};[[西川賢哉 様:http://speechcorpus.seesaa.net/]]、ご指摘ありがとうございます。((Praatの記法については、[[「音声コーパス屋の雑記帳」>「Praatスクリプト:シンタクスの変遷」:http://speechcorpus.seesaa.net/article/413192525.html]](西川様)に詳しくまとめられています。))~ &color(red){2015/02/10 フォルマント解析のパラメータについて検討結果を載せました。};~ &color(red){2013/12/11 Praat 5.3.60 に合わせて内容を新しくしました。};~ *音声解析ソフトウェア Praat((Copyright (C) 1992-2014 by Paul Boersma and David Weenink.))(('''[[北原真冬, 田嶋圭一, "言語学者の道具箱: Praatで音声を可視化する", 月刊言語, 2008年7月 - 2008年12月(全6回):http://shower.human.waseda.ac.jp/~m-kouki/pass/Gekkan_Gengo_Praat.pdf]]'''(リンク切れ)にも詳細な情報があります([[サポートページ:http://www9.atwiki.jp/praatman/]]参照)。)) [#oca35b5a] #contents **ダウンロード [#u9b8fe90] -[[ここ:http://www.fon.hum.uva.nl/praat/]]から(左上「Download Praat」) **音声ファイル読み込み&視覚化 [#h963d505] -まず、Praatを開く。 -Praat Objects ウインドウで、「Open」>「Read from file...」>解析したいファイルを指定 -Praat Objects ウインドウで、右の「View & Edit」を選択 > 波形画面が表示される --「View」>「Zoom in」(もしくは''Ctrl+I'')で拡大、「View」>「Zoom out」(もしくは''Ctrl+O'')で縮小、ある程度拡大されれば自動的にスペクトログラム、ピッチの推定値(青線)を表示してくれます --「Formant」>「Show formants」でフォルマントの推定値(赤線)も表示します #ref(praat_edit.jpg,,60%); --【注】音声ファイルがモノラルの場合は波形は一つ、ステレオの場合は波形は二つ表示されますが、スペクトログラムはチャンネル1のもののみ表示されるようです。ステレオ音声のチャンネルを別々に扱いたい場合は、音声ファイルを読み込む際に「Open」>「Read separate channnels from sound file...」を選択します。「Sound (ファイル名)_ch1」と「Sound (ファイル名)_ch2」オブジェクトが Praat Objects ウインドウに表示されます。 --【注】ここで表示されるフォルマントやピッチ曲線は、高速で視覚化するための簡略的なアルゴリズムであるようです(マニュアルには詳細な記述なし)。そのため、ウインドウをずらしたり、ズーム率を変えるなどすると解析結果は変わります。((田中邦佳 様に教えて頂きました。))正確な値を知りたい場合は、以下の[[フォルマント解析:http://speechresearch.fiw-web.net/41.html#x669156c]]や[[ピッチ解析:http://speechresearch.fiw-web.net/41.html#udbb1c0c]]を行なって下さい。 **音声ファイルの各種情報を得る [#mdf38025] -[[音声ファイルを読み込み:http://speechresearch.fiw-web.net/41.html#h963d505]]、読み込んだサウンドオブジェクトを選択する。 -Query > Get ~ を選択することで各種情報が表示される。 --例えばサンプリング周波数が知りたい場合は、Query > Query time sampling > Get sampling frequency **変換 [#d65f8fa2] ***サンプリング周波数を変換する [#oac298d5] -[[音声ファイルを読み込み:http://speechresearch.fiw-web.net/41.html#h963d505]]、右のウインドウで「Convert -」>「Resample...」>「New sampling frequency [Hz]」に変換後のサンプリング周波数を指定して「OK」 --解説:[[Sound: Resample...:http://www.fon.hum.uva.nl/praat/manual/Sound__Resample___.html]] -[[Praatスクリプト:http://speechresearch.fiw-web.net/41.html#oebdbd17]] では、例えば以下のように書きます(16kHzに変換したい場合)。 #geshi(bash){{ do ("Read from file...", "(ファイルパス)/(ファイル名).wav") do ("Resample...", 16000, 50) do ("Save as WAV file...", "(ファイルパス)/(ファイル名)_16000.wav") }} --【注】Praat右のウインドウで「Modify」>「Override sampling frequency」を選んでも、サンプリング周波数の指定が変わるだけでリサンプルは行われないので注意してください(再生速度が伸びたり縮んだりするだけ)。 --【注】大きなサイズの音声ファイルのサンプリング周波数を変換しようとすると、「Out of memory」エラーが出ます。[[メモリーオーバーエラーが出て解析が止まってしまったとき:http://speechresearch.fiw-web.net/41.html#eeccecde]] を参照して下さい。 -大量のファイルを一括処理する方法は[[オブジェクトの削除:http://speechresearch.fiw-web.net/41.html#xf9054c6]]を参照してください。 **フォルマント解析 [#x669156c] -[[MATLAB Note/音声の分析/VoiceSauce/フォルマント解析結果の検討:http://speechresearch.fiw-web.net/112.html#b8f42b40]] で、Praat と Snack(Wavesurfer) のフォルマント解析結果を比較しています。((MATLABパッケージ [[VoiceSauce (Yen-Liang Shue, EDU, 2011) :http://www.ee.ucla.edu/~spapl/voicesauce/]] を使用しています。)) ***指定したファイルのフォルマントの値を取得する [#p32fb10b] -[[音声ファイルを読み込み:http://speechresearch.fiw-web.net/index.php?Praat#h963d505]]、できた Sound オブジェクトを選択して、ウインドウ右から「Analyse spectrum -」>「To Formant(burg)」を選択 --パラメータを設定して「OK」 #ref(praat_formant.jpg); ---デフォルト値で 0.0 になっているところは、Praat が適当なパラメータを指定して解析してくれます。手動で指定したい場合は [[フォルマント解析(burg法)のパラメータについて:http://speechresearch.fiw-web.net/index.php?Praat#fd57d9f3]] を参照して下さい。 ---number of formants はフォルマント解析の精度に大きく影響します。%%この値が4だと、自然発話音声のF1, F2の推定値に誤りが多くなりました。5にすると誤りの値は少なくなるようです。読み上げ音声では誤りの数に大きな違いはないようです。%% → %%音声の種類にかかわらず5や6を推奨します。%% → 2015/02/09 &color(red){Number of formants = 6 は、音声の種類によらず、''4や5よりも外れ値が多くなる''ようです。上の記述は誤りです。誠に申し訳ありません。};詳しい議論は[[フォルマント解析(burg法)のパラメータについて:http://speechresearch.fiw-web.net/41.html#fd57d9f3]]を参照して下さい。 --解析が終わると、Praat Objects ウインドウに Formant オブジェクトが作られます。 -Praatスクリプトは [[指定した.wavファイルのフォルマント周波数を求める:http://speechresearch.fiw-web.net/41.html#f82570ef]] を参照して下さい。 ***解析したデータの書き出し(上に続いて実行) [#v043ea2b] -タブ区切りのテキストファイルで書き出したいとき --Formant オブジェクトを選択して、ウインドウ右の「Tabulate -」>「Down to Table...」> パラメータを選択して(デフォルトでも可)「OK」> Tableオブジェクトができるので、そのオブジェクトを選択して「Save」 >「Save as tab-separated file...」> 書き出し --書き出されたテキストファイル(例) time(s) nformants F1(Hz) B1(Hz) F2(Hz) B2(Hz) F3(Hz) ... 0.024682 4 1080.832 693.576 1986.333 275.479 2793.186 ... 0.034682 5 256.895 71.533 1186.697 405.533 2104.542 ... 0.044682 5 267.422 58.941 1115.706 444.280 2105.796 ... 0.054682 5 284.791 90.876 1045.615 1249.046 1945.385 ... ... --Praatスクリプトでの実行方法:[[指定した.wavファイルのフォルマント周波数を求める:http://speechresearch.fiw-web.net/41.html#f82570ef]] -Praat標準の形式((Formantオブジェクトを書き出したテキストファイルは、「TextGrid形式(Praatのアノテーション形式)」とは異なります。[[西川様:http://speechcorpus.seesaa.net/]]、ご指摘ありがとうございました。))で書き出したいとき --Formant オブジェクトを選択して、「Save」>「Save as text file...」> 書き出し --書き出されたPraat標準の形式のテキストファイル(例) File type = "ooTextFile" Object class = "Formant 2" xmin = 0 xmax = 1.9681875 nx = 981 dx = 0.002 x1 = 0.004093749999999896 maxnFormants = 5 frame []: frame [1]: intensity = 2.467072818385887e-07 nFormants = 3 formant []: formant [1]: frequency = 1709.0579979105942 bandwidth = 550.5559909690334 formant [2]: frequency = 2757.1904024912733 bandwidth = 1506.7589741423592 formant [3]: frequency = 3677.525893148506 bandwidth = 997.3536122646018 frame [2]: ... --Praatスクリプトでの実行方法:[[指定した.wavファイルのフォルマント周波数を求める:http://speechresearch.fiw-web.net/41.html#f82570ef]] -Praat標準の形式のファイルを、単純な csv 形式に変換したいとき --Praatスクリプト : [[TextGridの数値の集計(フォルマント):http://speechresearch.fiw-web.net/41.html#ha0d4707]] --Java : &ref(ConvertPraatFormantTxt.java); ---実行例 java ConvertPraatFormantTxt 変換前のファイル名 変換後のファイル名 ---実行結果の例 time(s),forment1(Hz),formant2(Hz) 0.004,1709.058,2757.19 0.006,398.766,2138.314 ... ***フォルマント解析(burg法)のパラメータについて [#fd57d9f3] -以下は、公式マニュアル [[Sound: To Formant (burg)...:http://www.fon.hum.uva.nl/praat/manual/Sound__To_Formant__burg____.html]] の訳です。 --Time step (seconds) 連続的な分析フレームの中心と中心の間の時間。もしも2秒の長さの音声で、time step が 0.01秒であるなら、分析フレームの数は約200です。フレームの端はあまりよく測定できないので、実際の数はやや少なくなります(通常は195)。あなたが time step に 0.0 (デフォルト)を指定した場合、praat は下記の window length の長さの 25% を time step として使用します。 --Maximum number of formants 人のスピーチの大部分を解析するためには、各フレームについて5つのフォルマントが必要です。この値と Maximum formant の値を組み合わせて設定することが、母音と互換性のあるフォルマントの結果(すなわち、母音の高さ(F1)と母音の場所(F2))を得るための唯一の方法です。そうでないなら、Maximum number of formants は 0.5 のどのような倍数でも有り得ます。あなたは 4, 4.5, 5, 5.5, 6 などを選ぶことができます。 ---詳しくは[[リンク先:http://www.fon.hum.uva.nl/praat/manual/Sound__To_Formant__burg____.html]]の Algorithm 以下を参照。 ---[[FAQ: Formant analysis:http://www.fon.hum.uva.nl/praat/manual/FAQ__Formant_analysis.html]] に詳細な議論があります。(([[西川賢哉 様:http://speechcorpus.seesaa.net/]]に教えていただきました。いつも本当にありがとうございます。))Number of formants の値はスペクトル包絡にいくつのフォルマントがあると考えるかの値(モデルパラメータ)のようです。''女性音声の第一~第三フォルマントを推定したいなら、Number of formants = 5, Maximum formant = 5500 が推奨されています。'' --Maximum formant (Hz) --Window length (s) 分析ウインドウの(実効的な)長さ。praatはサイドローブが -120dB 以下のガウス的な分析ウインドウを使うので、実際の長さはこの値の2倍になります。例えば、window length が 0.025 秒であるなら、実際のガウスウインドウの長さは 0.050 秒です。このウインドウでは、(フレームの)中心の0.025秒の範囲から外れる値は 4% 以下で、その周波数分解能(-3 dB point)は 1.298 / 0.025[秒] = 51.9[Hz] であり、[Sound: To Spectrogram...] で使われる計算手法と同じです。これは、0.025秒のハミング・ウインドウの帯域幅に相当します(それは 1.303 / 0.025[秒] = 52.1[Hz] です)、しかし、そのウインドウ(他の分析プログラムで最も多く使われるウインドウです)は両側に約-42dBの3つのスペクトルの極大値をもちます。 --Pre-emphasis from (Hz) -最適な Maximum number of formants の検討 --/a/の単独発話ファイル &ref(a.wav); を使って、 Maximum number of formants の値が 4, 5, 6 のときの F1 と F2 の値を比べてみます。 --Praatスクリプトで解析します。 clearinfo #wavフォルダのパス directory$ = "E:/Users/m-kouki/Desktop" #wavファイル名 wavfile$ = "a.wav" #ファイル読み込み Read from file: "'directory$'/'wavfile$'" #拡張子を除去したファイル名(オブジェクト名)を得る objname$ = wavfile$ - ".wav" selectObject: "Sound 'objname$'" To Formant (burg): 0, 4, 5500, 0.025, 50 Down to Table... no yes 6 no 3 yes 3 yes Write to table file: "'directory$'/'objname$'_NoF4.Table" selectObject: "Sound 'objname$'" To Formant (burg): 0, 5, 5500, 0.025, 50 Down to Table... no yes 6 no 3 yes 3 yes Write to table file: "'directory$'/'objname$'_NoF5.Table" selectObject: "Sound 'objname$'" To Formant (burg): 0, 6, 5500, 0.025, 50 Down to Table... no yes 6 no 3 yes 3 yes Write to table file: "'directory$'/'objname$'_NoF6.Table" --a_NoF4.Table, a_NoF5.Table, a_NoF6.Table が書き出されるので、Excelでグラフ化します。&ref(a_NoF.xls); #ref(a_NoF.png,,80%); ---Number of Formants の値は小さいほうが、推定結果の値は安定している(外れ値が少ない)ようです。 --続いて、日本語話し言葉コーパスの2名の話者が発声した母音 /i/, /a/, /u/ を各100個取り出して(([[コーパス加工用プログラム/日本語話し言葉コーパス(CSJ)/音素の開始・終了時間を取得する:http://speechresearch.fiw-web.net/88.html#k0d2ee8b]] を参照して下さい。))、各ファイルの[[時間的中心点のF1, F2を取り出して:http://speechresearch.fiw-web.net/41.html#gc250001]]プロットしてみます。 ---音声ファイル [[CSJ_samplevowels.zip:http://shower.human.waseda.ac.jp/~m-kouki/pg_public/corpus/CSJ_samplevowels.zip]](リンク切れ) ---以下のPraatスクリプトを使います。以下は Number of fotmants = 4 の解析をしています。 -- clearinfo #フォルダのパス directory$ = "E:/Users/m-kouki/Desktop/CSJ_samplevowels" #出力ファイル名 output$ = "E:/Users/m-kouki/Desktop/CSJ_samplevowels_NoF4.txt" #Number of Formants number_of_formants = 4 #フォルダ内の全ての.wav形式のファイル名を取得 Create Strings as file list... list 'directory$'/*.wav number_files = Get number of strings #各ファイルを順番に処理 for i from 1 to number_files #今回のファイルの名前を取得 selectObject ("Strings list") current_token$ = Get string... 'i' #拡張子を除去したファイル名(オブジェクト名)を得る objname$ = current_token$ - ".wav" #.wavファイルを読み込む do ("Read from file...", "'directory$'/'current_token$'") # 開始時間・終了時間を得る start_time = Get start time end_time = Get end time # 時間的中心点の時間を得る center_time = (end_time - start_time) / 2 # フォルマント解析 do ("To Formant (burg)...", 0.01, 'number_of_formants', 5500, 0.02, 50) # 時間的中心点の第一・第二フォルマントを得る formant_one = Get value at time: 1, center_time, "Hertz", "Linear" formant_two = Get value at time: 2, center_time, "Hertz", "Linear" # 情報ウインドウに表示する print 'objname$','center_time','formant_one','formant_two''newline$' # ファイルに出力する fileappend 'output$' 'objname$','center_time','formant_one','formant_two''newline$' #オブジェクトを削除する Remove selectObject ("Sound 'objname$'") Remove endfor selectObject ("Strings list") Remove ---得られた結果をまとめたファイル &ref(CSJ_samplevowels_NoF.txt); を、以下のRスクリプトで視覚化(([[R Note/音響解析データの統計解析/散布図:http://speechresearch.fiw-web.net/121.html#madd8730]] を参照して下さい)) #geshi(rsplus){{ library(ggplot2) data <- read.table("E:/Users/m-kouki/Desktop/CSJ_samplevowels_NoF.txt", header = T) ggplot(data) + geom_point(aes(x=NoF4_F1, y=NoF4_F2, color=vowel)) + labs(title="Number of formants = 4") + facet_wrap( ~ speaker) + xlim(0, 1500) + ylim(500, 3500) ggplot(data) + geom_point(aes(x=NoF5_F1, y=NoF5_F2, color=vowel)) + labs(title="Number of formants = 5") + facet_wrap( ~ speaker) + xlim(0, 1500) + ylim(500, 3500) ggplot(data) + geom_point(aes(x=NoF6_F1, y=NoF6_F2, color=vowel)) + labs(title="Number of formants = 6") + facet_wrap( ~ speaker) + xlim(0, 1500) + ylim(500, 3500) }} #ref(CSJ_samplevowels_NoF.png,,50%); ---/i/の推定値にかなりのばらつきがあります。[[音声1:http://media.sys.wakayama-u.ac.jp/kawahara-lab/LOCAL/diss/diss7/S3_6.htm]](和歌山大河原先生)の母音の図と比べてみてください。''Number of formants = 6 のとき、最も /i/ のF2方向の外れ値が多くなっている''ようです。 -Number of formants, Maximum formant の値とフォルマント解析結果 --以下は「二番目が」と発話された音声(女性話者)を解析した結果です。例えば「pF1 4 5500」は Number of formants = 4, Maximum formant = 5500 で解析したF1を表しています。細い線がF1、太い線がF2です。 #ref(NoFandMaxF.png,,50%); ---Number of formants = 6(ピンク)では、F2をF1に間違う例が多いようです。また、Number of formants = 4, Maximum formant = 6000(黒)では、F1をF2に間違う例があるようです(?) ---ここで検討したパラメータの中では、Number of formants = 4 or 5, Maximum formant = 5500 が良さそうです。 **ピッチ(基本周波数, F0)解析 [#udbb1c0c] -[[MATLAB Note/音声の分析/VoiceSauce/F0解析結果の検討:http://speechresearch.fiw-web.net/112.html#fb4cce52]] で、Praat と Snack(Wavesurfer)、[[STRAIGHT:http://www.wakayama-u.ac.jp/~kawahara/STRAIGHTadv/index_j.html]](和歌山大 河原英紀先生) のF0解析結果を比較しています。((MATLABパッケージ [[VoiceSauce (Yen-Liang Shue, EDU, 2011) :http://www.ee.ucla.edu/~spapl/voicesauce/]] を使用しています。)) -参考:[[Praatによる音声分析 (2):http://lab2015.net/doc/warehouse/May192008.pdf]](流通科学大学 山本先生 - YamCat's 極私的研究室)((山本先生、リンク情報をお教えいただき、誠にありがとうございました。)) -[[音声ファイルを読み込み:http://speechresearch.fiw-web.net/index.php?Praat#h963d505]]、できた Sound オブジェクトを選択して、ウインドウ右から「Analyse periodicity -」>「To Pitch」を選択 --パラメータを設定して「OK」 #ref(praat_pitch.jpg); ---デフォルト値で 0.0 になっているところは、Praat が適当なパラメータを指定して解析してくれます。 --ピッチ解析のパラメータの詳細は [[To Pitch (ac)...:http://www.fon.hum.uva.nl/praat/manual/Sound__To_Pitch__ac____.html]] を参照して下さい。以下は大雑把な訳です。 ---基底ピッチ周波数(pitch floor)はデフォルトでは 75[Hz]、この値に基づいてウインドウ長(Window length)も決まるようです(基底ピッチ周波数に相当する時間長の3倍)。具体的には、「(1/(pitch floor)) * 3 [s]」がウインドウ長になるようです。 ---ウインドウシフト長(Time step)はデフォルトでは 0.75 / (pitch floor) の値に自動設定されます。例えば、もしもピッチの底値が75Hzであるなら、0.01秒です。この例では、praatは毎秒100回ピッチの値を計算します。 --解析が終わると、Praat Objects ウインドウに Pitch オブジェクトが作られます。 ---データをタブ区切りで書き出すには、できた Pitch オブジェクトを選択して、「Convert -」>「Down to PitchTier」> できた PitchTier オブジェクトを選択して、「Save」>「Save as headerless spreadsheet file...」 -Praatスクリプトは [[指定したフォルダ内の全.wavファイルの平均ピッチ・ピッチレンジを求める:http://speechresearch.fiw-web.net/41.html#face897e]] を参照して下さい。 **音響インテンシティ解析 [#lefe5826] -音響インテンシティとは:[[音の進行する方向性を考慮に入れた、音の大きさのこと:http://www.tri.pref.osaka.jp/group/acoustic/research/dictionary/yougo013.htm]] --[[橘秀樹, "音響インテンシティ法による音響測定," 建材試験情報, Vol.44, 2008.:http://www.jtccm.or.jp/library/jtccm/public/mokuji08/kikansi/0802_kikou.pdf]] に詳述(p.1 のみ読める) -執筆中... **MFCC解析 [#cae343d4] -[[MFCC(Praatマニュアル):http://www.fon.hum.uva.nl/praat/manual/MFCC.html]] -[[MFCC解析のツール/MATLAB Auditory Toolbox, Praat, HTK の比較:http://speechresearch.fiw-web.net/106.html#adc90242]] も参照して下さい。 -[[音声ファイルを読み込み:http://speechresearch.fiw-web.net/index.php?Praat#h963d505]]、できた Sound オブジェクトを選択して、ウインドウ右から「Analyse spectrum -」>「To MFCC」を選択 --パラメータを設定して「OK」 #ref(praat_mfcc.jpg); -解析が終わると、Praat Objects ウインドウに MFCC オブジェクトが作られます。 --できた MFCC オブジェクトを選択して、「Save」>「Save as text file...」を選択すると、以下のようなファイルが保存されます。 File type = "ooTextFile" Object class = "MFCC 1" xmin = 0 xmax = 18.5298125 nx = 3700 dx = 0.005 x1 = 0.017406250000001008 fmin = 100 fmax = 2700 maximumNumberOfCoefficients = 12 frame []: frame [1]: numberOfCoefficients = 12 c0 = 24.36560329075726 c []: c [1] = 82.28431789991208 c [2] = -16.406116271253623 c [3] = 17.948883291899406 c [4] = 26.182123443407328 c [5] = 1.4004139248903602 c [6] = -28.63868916512294 c [7] = 3.456068179796329 c [8] = 10.503555237099786 c [9] = 12.208769119473299 c [10] = -2.552543112600171 c [11] = -16.38476565418306 c [12] = -6.106540020839194 frame [2]: numberOfCoefficients = 12 c0 = 23.3904395317179 c []: c [1] = 98.12248910653565 c [2] = -18.160192859174146 c [3] = 31.530121962755366 (以下略) --データをタブ区切りで書き出すには、できた MFCC オブジェクトを選択して、「To TableOfReal...」>「OK」を選択 > できた TableOfReal オブジェクトを選択して、「Save」>「Save as headerless spreadsheet file...」 -ファイルの長さがウインドウ長よりある程度長くないと解析に失敗し、「shorter than window length」エラーが出ます。 --ウインドウ長 = 0.025[s] のとき、0.050[s] のファイルでエラーが出ました。 --ファイルの持続時間がウインドウ長の2倍「より」大きい値のときは、エラーが出ませんでした。 -Praatスクリプトは [[指定したフォルダ内の全.wavファイルのMFCCを求めてテキストファイルに出力する:http://speechresearch.fiw-web.net/41.html#f66a8a5c]] を参照して下さい。 **発話区間(無音区間)推定(([[西川賢哉 様:http://speechcorpus.seesaa.net/]]、小西隆之 様に教えていただきました。)) [#ad0bfe77] -[[音声ファイルを読み込み:http://speechresearch.fiw-web.net/index.php?Praat#h963d505]]、ウインドウ右の「Annotate」>「To TextGrid (Silences)...」> パラメータを設定して「OK」を押します。 --Minimum silent interval duration[s] の値は、小さすぎると破裂音などが無音区間に判定されてしまいます。日本語話し言葉コーパス等に準拠する場合は、「0.2(200ms)」が適当ですが、この値でも促音「っ」が誤って無音区間に判定される場合があります。 --Silence threshold[dB] の値は、背景雑音の程度によって変えます。値が小さすぎると、摩擦音や長母音が誤って無音に判定されてしまいます。値が大きすぎると、背景雑音も発話区間に判定されてしまいます。 -TextGridオブジェクトが作られるので、結果を見たければ解析に使った Sound オブジェクトとできた TextGrid オブジェクトを両方選択して、ウインドウ右の「View & Edit」を押します。 --結果を書き出したければ TextGrid オブジェクトを選択して、「Save」>「Save as text file...」を押します。 --【注】音声ファイルは長すぎるとエラーになってしまうので、事前にファイルを分割するか、サンプリング周波数を落とす必要があるかもしれません。[[メモリーオーバーエラーが出て解析が止まってしまったとき:http://speechresearch.fiw-web.net/index.php?Praat#eeccecde]] も参照して下さい。 **Praatスクリプトの書き方 [#oebdbd17] -Praat上で手動で行った分析手順を自動化したい場合(ファイル名だけ変えて実行したいなど)は、[[ここ:http://speechresearch.fiw-web.net/index.php?Praat#y51e8c3f]] で例示したように、Paste History コマンドを使えば簡単にできます。 --各処理を行うためのPraatの操作方法は、Praat の Helpを参照して下さい。[[リンク:http://speechresearch.fiw-web.net/index.php?Praat#fdd7fe63]] も参照して下さい。 -もう少し複雑な操作をしたい場合はPraatスクリプトを直接編集します。以下の説明は、全て Praat script ウインドウ(Praat Objectsウインドウで「Praat」>「New Praat script」> untitled script)での操作です。 -参考:[[Scripting (Praat 公式マニュアル):http://www.fon.hum.uva.nl/praat/manual/Scripting.html]] --特にPraatスクリプトで使える関数については、[[Formulas:http://www.fon.hum.uva.nl/praat/manual/Formulas.html]] を参照 //--なお、Praatのウェブマニュアルは最新の情報とは限らないそうです。Praatのソフトウェア同梱のヘルプが最新のバージョンとのことですので、そちらを参照して下さい。 ***メッセージ表示&変数操作&型変換&予約語&文字列操作 [#ae52e245] -&color(red){2015/08/28 【注】以下で説明している、シングルクオートで囲む変数展開法は古いため、動かないかもしれません。};[[Praatスクリプト:文字列を数値に変換、数値を文字列に変換:http://speechcorpus.seesaa.net/article/415688459.html]](西川様)を参照して下さい。 -メッセージを表示するには、untitled script ウインドウに以下を貼り付けて「Run」 > 「Run」 #geshi(bash){{ print Hello World! }} --「Praat Info」ウインドウが立ち上がり「Hello World!」と表示される。 -変数を操作してみる #geshi(bash){{ clearinfo num = 1 + 2 print num print 'newline$' print 'num' }} --%%シングルクオートで囲まないと変数扱いにならない。 --改行は 'newline$' --「Praat Info」ウインドウを空白にするには clearinfo を実行する -文字列型と数値型(([[西川賢哉 様:http://speechcorpus.seesaa.net/]]に教えていただきました。)) --名前の最後に「$」がついた変数は文字列として扱われます。 #geshi(bash){{ clearinfo num1$ = "1" + "2" num2 = 1 + 2 print 'num1$''newline$''num2' }} --文字列型を数値型に変更するには、「num = 'num$'」のように書きます。 --数値型を文字列型に変更するには、「num$ = "'num'"」のように書きます。 -予約語として ''newline$''(改行)、''tab$''(タブ)、''shellDirectory$''(ホームディレクトリ)があります。詳しくは[[Scripting 5.1. Variables:http://www.fon.hum.uva.nl/praat/manual/Scripting_5_1__Variables.html]]を参照して下さい。 #geshi(bash){{ clearinfo predefined$ = "newline$ : "+newline$+" tab$ : "+tab$+" shellDirectory$ : "+shellDirectory$ print 'predefined$' }} -ファイル名がわかっていて拡張子を除去したい場合などは、以下のように書きます。((Ricardo Bion 様のスクリプトを参考にさせていただきました。)) #geshi(bash){{ clearinfo filename1$ = "R00M0036.TextGrid" filename2$ = filename1$ - ".TextGrid" print 'filename1$''newline$''filename2$''newline$' #ついでに、ファイル名の冒頭1文字を取得するには head$ = left$(filename1$,1) print 'head$' }} --その他の文字列操作関数は [[Formulas 5. String functions:http://www.fon.hum.uva.nl/praat/manual/Formulas_5__String_functions.html]] を参照。 ***ファイル入出力 [#j3f45056] -ファイルを新規で作って文字列を書き出すには、untitled script ウインドウに以下を貼り付けて「Run」 > 「Run」(ファイルパスは適宜書き換えて下さい) #geshi(bash){{ #ファイルの新規作成(指定した文字列の書き込み) output$ = "Hello World!" output$ > C:\\Users\\miyazawa\\Desktop\\output.txt }} --ファイルのディレクトリパスを変数で指定することもできます。 #geshi(bash){{ #ファイルの新規作成(ディレクトリパスを指定して書き込み) output$ = "Hello World!" directory$ = "C:\Users\miyazawa\Desktop\" output$ > 'directory$'output.txt }} -ファイルに文字列を追記するには、上に続けて以下を実行します。 #geshi(bash){{ #追記 fileappend "C:\\Users\\miyazawa\\Desktop\\output.txt" 'newline$''Hello World 2!!' }} ***指定した.wavファイルのフォルマント周波数を求める [#f82570ef] -C:\sound フォルダのモノラル音声ファイル sound1.wav を読み込んで、フォルマント解析を行った結果を C:\sound の sound1.TextGrid に書き出したい場合、その操作のPraatスクリプトは以下のようになります。 do ("Read from file...", "C:/sound/sound1.wav") selectObject ("Sound sound1") do ("To Formant (burg)...", 0.01, 5, 5500, 0.02, 50) do ("Save as text file...", "C:/sound/sound1.TextGrid") do ("Remove") selectObject ("Sound sound1") do ("Remove") --To Formant (burg)... の後の値は、[[「Analyse spectrum -」>「To Formant(burg)」で指定する解析パラメータ:http://speechresearch.fiw-web.net/41.html#p32fb10b]]に対応します。任意の値を指定してください。 //--【注】Praatスクリプトでは、「do ("List...", "no", "yes", 6, "no", 3, "yes", 3, "yes")」の結果をファイルに書き出す方法がうまくいきません。 -解析した結果をタブ区切りのテキストファイルで書き出したい場合、以下のようにします。 do ("Read from file...", "E:/Users/m-kouki/Desktop/a.wav") selectObject ("Sound a") do ("To Formant (burg)...", 0.01, 5, 5500, 0.02, 50) Down to Table... no yes 6 no 3 yes 3 yes Write to table file: "E:/Users/m-kouki/Desktop/a.Table" do ("Remove") selectObject ("Sound a") do ("Remove") ***指定したフォルダ内の全.wavファイルの平均ピッチ・ピッチレンジを求める((東大のH様にご指摘いただきました。誠にありがとうございました。)) [#face897e] -[[連番のファイルを順番に解析する:http://speechresearch.fiw-web.net/41.html#z5a9eb9c]] も参照して下さい。持続時間の短いファイルを分析対象外にしたい場合は、[[指定したフォルダ内の全.wavファイルのMFCCを求めてテキストファイルに出力する:http://speechresearch.fiw-web.net/41.html#f66a8a5c]] を参照して下さい。 #geshi(bash){{ clearinfo #フォルダのパス(書き換えて下さい) directory$ = "C:/sound" #フォルダ内の全ての.wav形式のファイル名を取得 Create Strings as file list... list 'directory$'/*.wav number_files = Get number of strings #各ファイルを順番に処理 for i from 1 to number_files #今回のファイルの名前を取得 selectObject ("Strings list") current_token$ = Get string... 'i' #拡張子を除去したファイル名(オブジェクト名)を得る objname$ = current_token$ - ".wav" #.wavファイルを読み込む do ("Read from file...", "'directory$'/'current_token$'") do ("To Pitch...", 0.01, 75, 600) selectObject ("Pitch 'objname$'") # ピッチの平均値を得る f_mean = Get mean... 0 0 Hertz # ピッチの最大値を得る f_max = Get maximum... 0 0 Hertz Parabolic # ピッチの最小値を得る f_min = Get minimum... 0 0 Hertz Parabolic # ピッチレンジを求める f_range = f_max - f_min # 結果をinfoウインドウに出力する print 'directory$','current_token$','f_mean','f_range''newline$' do ("Remove") selectObject ("Sound 'objname$'") do ("Remove") endfor }} ***指定したフォルダ内の全.wavファイルのMFCCを求めてテキストファイルに出力する [#f66a8a5c] -[[連番のファイルを順番に解析する:http://speechresearch.fiw-web.net/41.html#z5a9eb9c]] も参照して下さい。 -以下では、フレームサイズ25ms、フレームシフトサイズ1msでc1~c12を求めています。 #geshi(bash){{ clearinfo #WAVファイルのフォルダパス(書き換えて下さい) directoryW$ = "C:/sound" #出力ファイルのフォルダパス(書き換えて下さい) directoryO$ = "E:\Users\m-kouki\Desktop\MFCCtxt" #フォルダ内の全ての.wav形式のファイル名を取得 Create Strings as file list... list 'directoryW$'/*.wav number_files = Get number of strings #各ファイルを順番に処理 for i from 1 to number_files #今回のファイルの名前を取得 selectObject ("Strings list") current_token$ = Get string... 'i' #拡張子を除去したファイル名(オブジェクト名)を得る objname$ = current_token$ - ".wav" #.wavファイルを読み込む do ("Read from file...", "'directoryW$'/'current_token$'") #このファイルの持続時間を得る duration = Get total duration #このファイルの持続時間がフレーム長の2倍より長いときだけ以下の処理 if duration > 0.050 #MFCC解析 do ("To MFCC...", 12, 0.025, 0.001, 100, 100, 0) selectObject ("MFCC 'objname$'") #テーブルに書き出す do ("To TableOfReal...", "no") do ("Save as headerless spreadsheet file...", "'directoryO$'/'current_token$'.txt") do ("Remove") selectObject ("MFCC 'objname$'") do ("Remove") endif selectObject ("Sound 'objname$'") do ("Remove") endfor }} ***連番のファイルを順番に解析する [#z5a9eb9c] -C:\sound フォルダに入っているモノラルの音声ファイル sound1.wav sound2.wav sound3.wav を順番にフォルマントを解析して、sound1.TextGrid sound2.TextGrid sound3.TextGrid で書きだすには --for文で連番のファイル名を指定して順番に処理できます(参考:[[Scripting 3.6. "For" loops:http://www.fon.hum.uva.nl/praat/manual/Scripting_3_6___For__loops.html]]) -untitled script ウインドウに以下を貼り付けて「Run >「Run」 #geshi(bash){{ #フォルダのパス directory$ = "C:/sound" #1~3までループ for i from 1 to 3 #「(フォルダのパス)sound(ループ番号).wav」を読み込む do ("Read from file...", "'directory$'/sound'i'.wav") # フォルマント解析 To Formant (burg)... 0.01 5 5500 0.02 50 #「(フォルダのパス)sound(ループ番号).wav」を書きだす do ("Write to text file...", "'directory$'/sound'i'.TextGrid") # オブジェクトを削除する Remove # Soundオブジェクト"sound'i'"を選択する selectObject ("Sound sound'i'") Remove endfor }} ***特定フォルダ内の全ファイルを順番に解析する [#z5a9eb9c] -C:\sound フォルダに入っている任意の数・任意の名称の .wav 形式ファイル(モノラル)を順番にフォルマント解析して、解析結果を各ファイル名に「.TextGrid」を追記した名前で書きだすには -untitled script ウインドウに以下を貼り付けて「Run」>「Run」 #geshi(bash){{ clearinfo #フォルダのパス directory$ = "C:/sound" #フォルダ内の全ての.wav形式のファイル名を取得 Create Strings as file list... list 'directory$'/*.wav number_files = Get number of strings #各ファイルを順番に処理 for i from 1 to number_files #今回のファイルの名前を取得 selectObject ("Strings list") current_token$ = Get string... 'i' #拡張子を除去したファイル名(オブジェクト名)を得る objname$ = current_token$ - ".wav" #.wavファイルを読み込む do ("Read from file...", "'directory$'/'current_token$'") do ("To Formant (burg)...", 0.01, 5, 5500, 0.02, 50) #Praat標準の形式で書きだす do ("Save as text file...", "'directory$'/'objname$'.TextGrid") #オブジェクトを削除する Remove selectObject ("Sound 'objname$'") Remove endfor selectObject ("Strings list") Remove }} -指定したフォルダから見て3階層下にあるフォルダの中の全ての.wavファイルに対して処理を行うには #geshi(bash){{ clearinfo #フォルダのパス(第一階層) directory_1$ = "C:/sound" #第一階層のフォルダ内の全てのフォルダ名を取得 Create Strings as directory list... directoryList 'directory_1$' number_directries_1 = Get number of strings #各フォルダを順番に処理 for i from 1 to number_directries_1 #第二階層のフォルダ名を取得 selectObject ("Strings directoryList") thisdirectory_2$ = Get string... 'i' directory_2$ = directory_1$+"/"+thisdirectory_2$ print lv2: 'directory_2$''newline$' #第二階層のフォルダ内の全てのフォルダ名を取得 Create Strings as directory list... directoryList 'directory_2$' number_directries_2 = Get number of strings #各フォルダを順番に処理 for j from 1 to number_directries_2 #第三階層のフォルダ名を取得 selectObject ("Strings directoryList") thisdirectory_3$ = Get string... 'j' directory_3$ = directory_2$+"/"+thisdirectory_3$ print lv3: 'directory_3$''newline$' #第三階層のフォルダ内の全ての.wav形式のファイル名を取得 Create Strings as file list... list 'directory_3$'/*.wav number_files = Get number of strings #各ファイルを順番に処理 for l from 1 to number_files #今回のファイルの名前を取得 selectObject ("Strings list") current_token$ = Get string... 'l' #.wavファイルを読み込む Read from file... 'directory_3$'/'current_token$' #ここで処理を記述する endfor selectObject ("Strings list") Remove endfor selectObject ("Strings directoryList") Remove endfor selectObject ("Strings directoryList") Remove }} --このように、大量のファイルを読み込んで処理する場合は、各オブジェクトをRemoveしておかないとメモリエラーが出てしまいます。[[オブジェクトの削除:http://speechresearch.fiw-web.net/41.html#xf9054c6]]を参照してください。 ***特定フォルダ内の全ファイルの持続時間を得る [#w15dc987] #geshi(bash){{ clearinfo directory$ = "(フォルダのパス)" #フォルダ内の全ての.wav形式のファイル名を取得 Create Strings as file list... list 'directory$'/*.wav number_files = Get number of strings #各ファイルを順番に処理 for i from 1 to number_files #今回のファイルの名前を取得 selectObject ("Strings list") current_token$ = Get string... 'i' #拡張子を除去したファイル名(オブジェクト名)を得る objname$ = current_token$ - ".wav" #.wavファイルを読み込む do ("Read from file...", "'directory$'/'current_token$'") output$ = Get total duration print 'objname$' print 'output$' print 'newline$' #オブジェクトを削除する selectObject ("Sound 'objname$'") Remove endfor selectObject ("Strings list") Remove }} ***TextGridを読み込んで、特定の要素のみを書き出す [#h8ef0c7f] -ここでは例として、[[日本語話し言葉コーパス:http://www.ninjal.ac.jp/products-k/katsudo/seika/corpus/]] で提供している TextGrid を解析してみます。(([[日本語話し言葉コーパス:TextGridの利用方法:http://www.ninjal.ac.jp/csj/data/3rd-alternation/hwtu-tg/]] も参照して下さい。)) --以下のサンプルファイルを使います。((サンプルファイル公開に関しまして、問題があれば大変お手数ですがご指摘下さい。すぐに公開を停止いたします。)) #ref(CSJsample.TextGrid); --これは以下のような構造になっています。 File type = "ooTextFile" Object class = "TextGrid" (略) size = 4 item []: item [1]: class = "IntervalTier" name = "word" xmin = 0 xmax = 1421.7640000000001 intervals: size = 4232 intervals [1]: xmin = 0 xmax = 7.273889 text = "#" intervals [2]: xmin = 7.273889 xmax = 7.737846 text = "(F eH)" (略) item [2]: class = "IntervalTier" name = "seg" (略) item [3]: class = "TextTier" name = "break" (略) item [4]: class = "TextTier" name = "tone" (略) ---item数はCSJでは7ですが、このサンプルファイルでは4までです。 --C:/sound/CSJsample.TextGrid の item[1](word層)のテキスト、開始時間、終了時間のみを取り出して、C:/sound/CSJsample.TextGrid.txt に書きだすスクリプト #geshi(bash){{ # ファイルを読み込む do ("Read from file...", "C:/sound/CSJsample.TextGrid") selectObject ("TextGrid CSJsample") # 書きだすファイルを初期化 filedelete ("C:/sound/CSJsample.TextGrid.txt") # item[1](word層)の intervals の総数(word要素の総数)を得る number_of_intervals = Get number of intervals... 1 # intervals(各要素)を順番に処理していく for i from 1 to number_of_intervals selectObject ("TextGrid CSJsample") # item[1] の intervals[i] の text を得る interval_label$ = Get label of interval... 1 'i' # item[1] の intervals[i] の xmin を得る begin_time = Get starting point... 1 'i' # item[1] の intervals[i] の xmax を得る end_time = Get end point... 1 'i' # ファイルに書き出す fileappend "C:/sound/CSJsample.TextGrid.txt" 'interval_label$''tab$''begin_time:3''tab$''end_time:3''newline$' endfor selectObject ("TextGrid CSJsample") Remove }} ---書きだすとき、「begin_time:3」と書けば小数点以下3位まで書き出します(4位で四捨五入) ---以下のようなタブ区切りのファイルが出力されます。 # 0 7.274 (F eH) 7.274 7.738 (略) ---同様の処理をデータテーブルを使って行った結果は[[こちら:http://speechresearch.fiw-web.net/index.php?Praat#oaa55a09]] --なお、書きだすファイルの先頭行にヘッダ情報を書き出したい場合は、上記スクリプトの for 文の直前に以下を追記します。 #geshi(bash){{ #ヘッダを書き出す header$ = "word"+tab$+"begintime"+tab$+"endtime"+newline$ header$ > C:/sound/CSJsample.TextGrid.txt }} ---以下のようなタブ区切りのファイルが出力されます。 word begintime endtime # 0 7.274 (F eH) 7.274 7.738 (略) --前後の行にアクセスすることも可能です。例えば、直前の word とその開始時間、直後の word とその終了時間を書き出すには、上記のfor文を以下のように変更します。 #geshi(bash){{ (略) # intervals(各要素)を順番に処理していく ※ エラー回避のため i の開始、終了番号が変わっています for i from 2 to number_of_intervals - 1 selectObject ("TextGrid CSJsample") # item[1] の intervals[i] の text を得る interval_label$ = Get label of interval... 1 'i' # item[1] の intervals[i] の xmin を得る begin_time = Get starting point... 1 'i' # item[1] の intervals[i] の xmax を得る end_time = Get end point... 1 'i' # item[1] の intervals[i-1](一つ前のword要素)の text を得る interval_label_preceding$ = Get label of interval... 1 i - 1 # item[1] の intervals[i-1](一つ前のword要素)の xmin を得る begin_time_preceding = Get starting point... 1 i - 1 # item[1] の intervals[i+1] (一つ後のword要素)の text を得る interval_label_following$ = Get label of interval... 1 i + 1 # item[1] の intervals[i+1] (一つ後のword要素)の xmax を得る end_time_following = Get end point... 1 i + 1 # ファイルに書き出す fileappend "C:/sound/CSJsample.TextGrid.txt" 'interval_label$''tab$''begin_time:3''tab$''end_time:3''tab$''interval_label_preceding$''tab$''begin_time_preceding:3''tab$''interval_label_following$''tab$''end_time_following:3''newline$' endfor (略) }} ---以下のようなタブ区切りのファイルが出力されます。1列目から順番に「単語名, 単語開始時間, 単語終了時間, 一つ前の単語名, 一つ前の単語の開始時間, 一つ後の単語名, 一つ後の単語の終了時間」です。 (F eH) 7.274 7.738 # 0 (F eH) 8.214 (F eH) 7.738 8.214 (F eH) 7.274 seNse'H 8.726 seNse'H 8.214 8.726 (F eH) 7.738 no 8.86 no 8.726 8.86 seNse'H 8.214 go 8.973 (略) ***TextGridを読み込んで、指定した条件の値のみを書き出す(&正規表現&文字列操作) [#d1f5891e] -if文を使います(参考:[[Example: doing something to every selected Sound:http://www.fon.hum.uva.nl/praat/manual/Scripting_4__Object_selection.html]]) --C:/sound/CSJsample.TextGrid の item[1](word層)を解析して、「持続時間が 0.50[s] 以上の語のみ」をC:/sound/CSJsample.TextGrid.txt に書きだしたいなら、以下のように書きます。 #geshi(bash){{ # ファイルを読み込む do ("Read from file...", "C:/sound/CSJsample.TextGrid") selectObject ("TextGrid CSJsample") # 書きだすファイルを初期化 filedelete ("C:/sound/CSJsample.TextGrid.txt") # item[1](word層)の intervals の総数(word要素の総数)を得る number_of_intervals = Get number of intervals... 1 # intervals(各要素)を順番に処理していく for i from 1 to number_of_intervals selectObject ("TextGrid CSJsample") # item[1] の intervals[i] の text を得る interval_label$ = Get label of interval... 1 'i' # item[1] の intervals[i] の xmin を得る begin_time = Get starting point... 1 'i' # item[1] の intervals[i] の xmax を得る end_time = Get end point... 1 'i' # 持続時間を求める duration = end_time - begin_time # 条件判断 if duration >= 0.50 # ファイルに書き出す fileappend "C:/sound/CSJsample.TextGrid.txt" 'interval_label$''tab$''begin_time:3''tab$''end_time:3''tab$''duration:3''newline$' endif endfor selectObject ("TextGrid CSJsample") Remove }} ---結果は以下のようになります(4列目が持続時間) # 0 7.274 7.274 seNse'H 8.214 8.726 0.512 # 10.991 11.564 0.573 (略) --複数の条件指定も可能です。0.50[秒]以上に加えて、「"#"以外の単語」のみを取り出すには、上記のif文を以下のように変更します。 #geshi(bash){{ (略) # 条件判断 if duration >= 0.50 and interval_label$ != "#" # ファイルに書き出す fileappend "C:/sound/CSJsample.TextGrid.txt" 'interval_label$''tab$''begin_time:3''tab$''end_time:3''tab$''duration:3''newline$' endif (略) }} ---結果は以下のようになります。 seNse'H 8.214 8.726 0.512 --正規表現で抽出条件を指定することも出来ます。0.40[秒]以上に加えて、「aH,eH,iH,oH,uH」のいずれかをどこかに含む単語のみを取り出すには、if文を以下のように変更します。(([[西川賢哉 様:http://speechcorpus.seesaa.net/]]に教えていただき、記述のご監修をいただきました。ありがとうございます!!)) #geshi(bash){{ (略) # 条件判断 if duration >= 0.40 and index_regex(interval_label$, "[aeiou]H") != 0 # ファイルに書き出す fileappend "C:/sound/CSJsample.TextGrid.txt" 'interval_label$''tab$''begin_time:3''tab$''end_time:3''tab$''duration:3''newline$' endif (略) }} ---index_regexは「第一引数で指定した文字列の中で、第二引数で指定した文字列が出現する位置を返す」関数です([[Formulas 5. String functions:http://www.fon.hum.uva.nl/praat/manual/Formulas_5__String_functions.html]] を参照)。指定した文字列が存在しなければ0を返します。ここでは「0でないとき」という条件を指定して、出現したかどうかを判定しています。 ---「[aeiou]H」は正規表現です(([] は「その中のどれか1文字」を表します([[西川さん:http://speechcorpus.seesaa.net/]]にご指摘いただきました)))。詳しくは [[Regular expressions:http://www.fon.hum.uva.nl/praat/manual/Regular_expressions.html]] を参照。 ---結果は以下のようになります。 (F eH) 7.274 7.738 0.464 (F eH) 7.738 8.214 0.476 kyoHdoH 11.763 12.174 0.410 --上記の正規表現は、必ず a, e, i, o, u に H が後続する文字列にしかマッチしません。アクセント核記号「'」を含む「e'H」のようなwordにもマッチさせたい場合は、正規表現 [aeiou]'?H を使います。ここで、"?"は「直前の文字が0個または1個」を意味していて、a, e, i, o, u と H の間に「'」があっても、なくてもマッチします。(([[西川賢哉 様:http://speechcorpus.seesaa.net/]]にいただいたコメントを引用しています。)) ---参考用スクリプト(by [[西川賢哉 様:http://speechcorpus.seesaa.net/]]) #---------------------------------------------- str$ = "kawai'H" clearinfo if index_regex(str$,"[aiueo]'?H") <> 0 appendInfoLine: str$ endif #---------------------------------------------- --その他の文字列操作関数は [[Formulas 5. String functions:http://www.fon.hum.uva.nl/praat/manual/Formulas_5__String_functions.html]] を参照。 ***指定した時間区間の切り出しと解析 [#gc250001] -C:\sound フォルダに入っている sound1.wav を読み込んで、1.100[秒]~1.600[秒]の区間だけを取り出してフォルマントを解析して、sound1_soundpart.TextGrid で書きだすには、以下のスクリプトを実行します。((新谷敬人 様、五十嵐陽介 様のスクリプトを参考にさせていただきました。)) #geshi(bash){{ # ファイルを読み込む do ("Read from file...", "C:/sound/sound1.wav") selectObject ("Sound sound1") do ("Extract part...", 1.100, 1.600, "rectangular", 1, "no") do ("To Formant (burg)...", 0.01, 5, 5500, 0.02, 50) do ("Save as text file...", "C:/sound/sound1_soundpart.TextGrid") select all Remove }} //--Extract part... の時間(第一・第二引数)を変数で指定する場合は、変数名を「''」で囲む --第三引数のRectangularは(おそらく)方形窓で切り出し。(≒切り出した端の平滑化処理なし) -C:\sound フォルダに入っている sound1.wav を読み込んで、全体のフォルマントを解析し、ファイルの''時間的中心点( (終了時間 - 開始時間) / 2)''のフォルマントの値を得るには、以下のスクリプトを実行します。 clearinfo # ファイルを読み込む do ("Read from file...", "C:/sound/sound1.wav") selectObject ("Sound sound1") # 開始時間・終了時間を得る start_time = Get start time end_time = Get end time # 時間的中心点の時間を得る center_time = (end_time - start_time) / 2 # フォルマント解析 do ("To Formant (burg)...", 0.01, 5, 5500, 0.02, 50) # 時間的中心点の第一・第二フォルマントを得る formant_one = Get value at time: 1, center_time, "Hertz", "Linear" formant_two = Get value at time: 2, center_time, "Hertz", "Linear" # 情報ウインドウに表示する print 'center_time','formant_one','formant_two''newline$' # メモリ開放 Remove selectObject ("Sound sound1") Remove --結果は以下のようになります。 0.11665532879818594,630.9603036852504,1192.343426813945 ***指定した時間を含むTier要素の抽出 [#lfc3f7c9] -C:\sound フォルダに入っている &ref(CSJsample.TextGrid); を読み込んで、3.200[秒]の時点を含む item[1](word層)の intervals(word要素)のラベルと、開始・終了時間を取り出すには、以下のスクリプトを実行します。 #geshi(bash){{ # ファイルを読み込む do ("Read from file...", "C:/sound/CSJsample.TextGrid") selectObject ("TextGrid CSJsample") # 3.200[秒]の時点を含むword要素のインデックス番号を得る(第一引数はitem番号) word_index = Get interval at time... 1 3.200 # そのラベルと開始・終了時間を得る(第一引数はitem番号) word$ = Get label of interval... 1 word_index begin_time = Get starting point... 1 word_index end_time = Get end point... 1 word_index print 'word$''newline$''begin_time''newline$''end_time' selectObject ("TextGrid CSJsample") Remove }} ***TextGridのTier間の照合 [#k5165d07] -[[TextGridを読み込んで、特定の要素のみを書き出す:http://speechresearch.fiw-web.net/index.php?Praat#h8ef0c7f]] と同様に「item[1](word層)の終了時間」を求めて、その時間に最も近い「item [3](brake層)」の値を出力するには((Ricardo Bion 様のスクリプトを参考にさせていただきました。)) #geshi(bash){{ # ファイルを読み込む do ("Read from file...", "C:/sound/CSJsample.TextGrid") selectObject ("TextGrid CSJsample") # 書きだすファイルを初期化 filedelete ("C:/sound/CSJsample.TextGrid.txt") # item[1](word層)の intervals の総数(word要素の総数)を得る number_of_intervals = Get number of intervals... 1 # intervals(各要素)を順番に処理していく for i from 1 to number_of_intervals selectObject ("TextGrid CSJsample") # item[1] の intervals[i] の text を得る interval_label$ = Get label of interval... 1 'i' # item[1] の intervals[i] の xmax を得る end_time = Get end point... 1 'i' # end_time と item[3](break層)の各要素の時間を比較して、最も値が近いitem[3](break層)の要素番号を取得する break_index = Get nearest index from time... 3 end_time # item[3](break層)の break_index 番目の要素のラベルを取得する boundary$ = Get label of point... 3 break_index # item[3](break層)の break_index 番目の要素の時間を取得する boundary_time = Get time of point... 3 break_index # ファイルに書き出す fileappend "C:/sound/CSJsample.TextGrid.txt" 'interval_label$''tab$''end_time:3''tab$''boundary$''tab$''boundary_time:3''newline$' endfor selectObject ("TextGrid CSJsample") Remove }} --結果は以下のようになります。 # 7.274 F 7.738 (F eH) 7.738 F 7.738 (F eH) 8.214 F 8.214 ---2列目がword層の終了時間、新しく追記された3列目がbrake層のラベル、4列目がbrake層の終了時間 ***TextGridの数値の集計(フォルマント) [#ha0d4707] -[[ここ:http://speechresearch.fiw-web.net/index.php?Praat#v043ea2b]] で作ったフォルマント解析結果のファイル C:\sound\sound1.TextGrid を読み込んで、第二フォルマントの1.500[秒]時点の値、全体の平均値、中央値、最大値、最小値、を順番に表示するには、以下のスクリプトを実行します。((新谷敬人 様、五十嵐陽介 様のスクリプトを参考にさせていただきました。)) #geshi(bash){{ clearinfo # ファイルを読み込む do ("Read from file...", "C:/sound/sound1.TextGrid") # フォルマント型のTextGridであれば、以下のオブジェクトができる(selectを明示しなくても選択されている) selectObject ("Formant sound1") # 第二フォルマントの1.500[秒]時点の値を得る f_two_point = Get value at time... 2 0.150 Hertz Linear print 'f_two_point''newline$' # 第二フォルマントの平均値を得る f_two_mean = Get mean... 2 0 0 Hertz print 'f_two_mean''newline$' # 第二フォルマントの中央値を得る f_two_median = Get quantile... 2 0 0 Hertz 0.50 print 'f_two_median''newline$' # 第二フォルマントの最大値を得る f_two_max = Get maximum... 2 0 0 Hertz Parabolic print 'f_two_max''newline$' # 第二フォルマントの最小値を得る f_two_min = Get minimum... 2 0 0 Hertz Parabolic print 'f_two_min''newline$' Remove }} --各処理の引数の「0 0」に任意の開始時間、終了時間を与えることで、指定した時間区間のみの集計も可能です。 --Formant: Get value at time... コマンドは、指定した時間と一致するフレームがなかった場合、フレームとフレームの間を補完して((この例では引数に 'Linear' を指定しているので線形補完されます。))、予測値を出力します。 --各処理の詳細、およびその他のフォルマント型のオブジェクトに対して実行可能な操作は、公式マニュアルの[[Formant:http://www.fon.hum.uva.nl/praat/manual/Formant.html]] を参照してください。 ***TextGridの数値の集計(ピッチ) [#k68bbabf] -[[TextGridの集計(フォルマント):http://speechresearch.fiw-web.net/index.php?Praat#ha0d4707]]と同じ要領でできるはずですが、引数の指定方法が若干違います。第一引数(上の例では「2」を指定していたところ)を除いて実行してください。 --ピッチ型のオブジェクトに対して実行可能な操作は、公式マニュアルの[[Pitch:http://www.fon.hum.uva.nl/praat/manual/Pitch.html]] を参照してください。((Get maximum... や Get minimum... などはウェブマニュアルに説明がありませんが、実行することはできます。)) ***データテーブルを作る [#oaa55a09] -Praat では New > Tables > Create Table with column names... でデータテーブルを作ることができます。 --[[TextGridを読み込んで、特定の要素のみを書き出す:http://speechresearch.fiw-web.net/index.php?Praat#h8ef0c7f]] で行った「item[1](word層) のテキスト、開始時間、終了時間」をテーブルに代入して、最後に出力するには、以下のようにします。((Ricardo Bion 様のスクリプトを参考にさせていただきました。)) #geshi(bash){{ # テーブルを作る word_table = Create Table with column names... word_table 1 table_word_label table_begin_time table_end_time # ファイルを読み込む do ("Read from file...", "C:/sound/CSJsample.TextGrid") selectObject ("TextGrid CSJsample") # item[1](word層)の intervals の総数(word要素の総数)を得る number_of_intervals = Get number of intervals... 1 # intervals(各要素)を順番に処理していく for i from 1 to number_of_intervals selectObject ("TextGrid CSJsample") # item[1] の intervals[i] の text を得る interval_label$ = Get label of interval... 1 'i' # item[1] の intervals[i] の xmin を得る begin_time = Get starting point... 1 'i' # item[1] の intervals[i] の xmax を得る end_time = Get end point... 1 'i' # テーブルに各要素を代入 selectObject ("Table word_table") Set string value... i table_word_label 'interval_label$' Set string value... i table_begin_time 'begin_time' Set string value... i table_end_time 'end_time' # テーブルの行数を増やす Append row endfor selectObject ("TextGrid CSJsample") Remove # テーブルをタブ区切りで保存 selectObject ("Table word_table") do ("Save as tab-separated file...", "C:/sound/word_table.txt") Remove }} ---「Create Table with column names...」の第一引数はテーブル名、第二引数は行数(この時点では行数が不明なので1とし、for文の中で「Append row」を実行しています((列数を追加したいときは「Append column... (列のラベル名)」とします。)))、第三引数以降は各列のラベル ---実行すると Praat Objectsウインドウに Tableオブジェクトができるので、選択して「Edit」を押すと以下のように表示されます。 #ref(Praat_tablesample01.png,,70%); ---また、タブ区切りのテキストファイル word_table.txt が保存されます。 ***オブジェクトの削除(Remove) [#xf9054c6] -【注】以下はオブジェクト名を使ったやり方です。''「音声コーパス屋の雑記帳」> [[「Praatスクリプト:オブジェクトの選択」:http://speechcorpus.seesaa.net/article/413968839.html]] および [[「Praatスクリプト:オブジェクトの削除」:http://speechcorpus.seesaa.net/article/414028187.html]](西川様)に、オブジェクトIDを使った新しい方法がまとめられています。'' -大量のwavファイルを順番に処理するときなどは、オブジェクトの削除をしないとすぐメモリエラーになってしまいます。 -Removeコマンドを使います。 --例:C:\sound フォルダに入っている全ての .wav 形式ファイルを順番にサンプリング周波数を16kHzに変換して、「ファイル名_16000.wav」という名前で書き出すには #geshi(bash){{ #フォルダのパス directory$ = "C:/sound/" #フォルダ内の全ての.wav形式のファイル名を取得 Create Strings as file list... list 'directory$'/*.wav number_files = Get number of strings #各ファイルを順番に処理 for i from 1 to number_files #今回のファイルの名前を取得 selectObject ("Strings list") current_token$ = Get string... 'i' #.wavファイルを読み込む do ("Read from file...", "'directory$'/'current_token$'") #このオブジェクトの名前を得ておく info$ = Info objectname$ = extractLine$(info$, "Object name: ") #サンプリング周波数を変換する Resample... 16000 50 do ("Write to WAV file...", "'directory$'/'objectname$'_16000.wav") print wav: 'directory$'/'objectname$'_16000.wav'newline$' #サンプリング周波数変換後のオブジェクトを削除する Remove #サンプリング周波数変換前のオブジェクトを削除する selectObject ("Sound 'objectname$'") Remove endfor selectObject ("Strings list") Remove }} ---オブジェクトが作られた直後であれば、そのオブジェクトが選択されているので、ただ「Remove」をすればOK。 ---listオブジェクトであれば、オブジェクト名は「Strings list」であるので、「select Strings list」でそのオブジェクトを選択して「Remove」でOK。 --Soundオブジェクト名は、「Sound (拡張子を除いたそのファイル名)」なので、selectでも正確なオブジェクト名を指定しなければエラーになってしまう。ここではInfoコマンドで、事前にファイル名 objectname$ を得ておいて、それをオブジェクト名に指定した。拡張子を除いたファイル名が得られるので、ファイル名のリネーム時にも便利。 **音素自動ラベリング(音声認識)との連携 [#l9746598] -音素自動ラベリングの結果をPraat標準の形式に変換してPraatに読み込ませることができます。 -Julius((Copyright (c) 1991-2009 京都大学 河原研究室, Copyright (c) 1997-2000 情報処理振興事業協会(IPA), Copyright (c) 2000-2005 奈良先端科学技術大学院大学 鹿野研究室, Copyright (c) 2005-2009 名古屋工業大学 Julius開発チーム)) の音素セグメンテーションキットによる方法 --[[JuliusとJulian/音素自動ラベリング:http://speechresearch.fiw-web.net/119.html]] と、リンク先の変換スクリプト transalign2textgrid.pl を参照。 -HTK の HVite コマンドによる方法 --[[HTKによる音響モデル構築/自動ラベリング:http://speechresearch.fiw-web.net/92.html#wf331b9e]] と、リンク先の変換スクリプト transalignHTK2textgrid.pl を参照。 -'''[[西川先生作成の音素ラベリング自動化ツール:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki/index.php?%E9%9F%B3%E7%B4%A0%E3%83%A9%E3%83%99%E3%83%AA%E3%83%B3%E3%82%B0%E8%87%AA%E5%8B%95%E5%8C%96%E3%83%84%E3%83%BC%E3%83%AB]]'''(リンク切れ) **Tips [#t10149ad] ***メモリーオーバーエラーが出て解析が止まってしまったとき [#eeccecde] -[[オブジェクトの削除:http://speechresearch.fiw-web.net/41.html#xf9054c6]] がうまくいっていない場合が多いです。Praat Objectsウインドウを開いて、「Objects:」に何かオブジェクトが残っているなら、毎回の処理でRemoveコマンドを使ってオブジェクトを削除することを検討します。 -仮想メモリの上限を上げる。常駐ソフトを停止させる。エクスプローラを停止させるなどで解決できるかもしれません。 -メモリ容量の大きいPCを使うのが一番手っ取り早いようです。 -重たい解析(リサンプリングや、短い窓長でフォルマント解析をするなど)を行う場合は上記の対応でもどうしてもエラーが出ます。その場合は、LongSoundオブジェクトとして読み込んで(「Open」>「Open long sound file...」)、Soundオブジェクトに分割して(「Exract part...」>Time range[s]で開始・終了時間を指定((Preserve timesのチェックは外しても問題ありませんが、%%どのような機能かは未確認%% → 2014/12/07 切り出した各ファイルの最初の秒数を0から開始するか、元ファイルの開始秒数からとするかの設定とのこと、''流通科学大学 山本先生に教えていただきました。誠にありがとうございました。'')))、別々に解析を行います。 --[[指定した時間区間の切り出しと解析:http://speechresearch.fiw-web.net/index.php?Praat#gc250001]] を参考にPraatスクリプト化も検討できます。 ***半角括弧「(」「)」をファイル名に含む場合 [#q201b90d] -半角括弧のファイル名は、Praatオブジェクトに取り込まれた際にアンダーバー「_」に置き換わります。例えば「data(1).wav」を読み込むと、オブジェクト名は「data_1_.wav」になります。 -Praatスクリプトでオブジェクト名を指定する場合、例えば以下のようにしてアンダーバーに置換する必要があります(参考:[[Formulas 5. String functions:http://www.fon.hum.uva.nl/praat/manual/Formulas_5__String_functions.html]])。 #geshi(bash){{ (略) #拡張子を除去したファイル名(オブジェクト名)を得る objname$ = current_token$ - ".wav" #ファイル名の半角括弧はオブジェクト名では「_」に置換される objname$ = replace$ (objname$, "(", "_", 0) objname$ = replace$ (objname$, ")", "_", 0) (略) }} ***コマンドラインで Praat を実行したいとき [#g6beae09] -[[sendpraat.exe:http://www.fon.hum.uva.nl/praat/sendpraat.html]] を使う -sendpraatの引数としてPraatスクリプトを指定すればOK. ***録音とラベリング [#y401615e] -北原先生の [[Praat Tutorial:http://www.f.waseda.jp/kitahara/Notes/praat.html]] が参考になる。 ***動画ラベリングツールとの連携 [#mec9d57f] -[[ELAN:http://speechresearch.fiw-web.net/16.html]] がPraatとの連携をサポートしている。 ***TSV/CSVデータファイルから .TextGrid ファイルを生成する [#o7470636] -参考:[[Praatの音声アノテーション(.TextGrid)を自動生成:https://qiita.com/Syuparn/items/d86e77c39527539b16c5]] -- [[TextGridConverter:https://github.com/Syuparn/TextGridConverter]] の convert_label.py が非常に便利。(f文字列を使っているため Python 3.6 以上でなければ使えない) **リンク [#fdd7fe63] -[[Paul Boersma's writings on the Praat program:http://www.fon.hum.uva.nl/paul/praat.html]] - Praat作者の一人 Paul 先生(アムステルダム大)のページ、Praatを使った論文のリスト等。 -[[Praat Tutorial:http://www.f.waseda.jp/kitahara/Notes/praat.html]](早稲田大北原先生) -[[Akira Utsugi's web site Praat入門:https://sites.google.com/site/utsakr/Home/praat]](筑波大宇都木先生) --[[マルソリ・ラボ 研究関連メモ(Praat):http://utsakr.blog65.fc2.com/blog-category-8.html]] -[[PraatLauncher:http://language.world.coocan.jp/scripts/?PraatLauncher]](理研西川様)