Miyazawa’s Pukiwiki
コーパスのXML解析
はすでに存在します。
開始行:
#access
#analog
*コーパス付属のXMLファイルをXSLTで解析する [#bdc2ce09]
#contents
**日本語話し言葉コーパス(CSJ) [#e58710fd]
***XMLファイルのパスを取得する [#sba6de10]
-[[コーパス加工用プログラム/ディレクトリをサーチしてXMLフ...
***お題:イントネーション境界以外の母音のリストを取得する...
-参考
--[[『日本語話し言葉コーパス』XML文書について:http://www....
--[[CSJのXMLデータの解析(菊池先生):http://www.f.waseda.jp...
--[[CSJ-XSLサンプル(菊池先生):http://www.f.waseda.jp/kiku...
--[[共同研究動画データのXML化:http://shower.human.waseda....
--[[XML-XSLTスタイルシートの基本:http://ykr414.com/xml/x...
--[[JavaでHelloWorld XSLT編:http://www.hellohiro.com/xslt...
-[[『日本語話し言葉コーパス』のイントネーションラベリング...
--菊池先生からいただいたご指摘
BIには、3以外にも、2, 2+p, 2+b, 2+bpなどがあります。
「イントネーション境界」が何を指すのかにもよりますが、2...
#2をイントネーション境界とすることによって結果が変わっ...
--[[『日本語話し言葉コーパス』XML文書について:http://www....
--したがって、<XJToBILabelBreak>要素の値が「3」以外で、か...
-XSLTテンプレートの作成
--CSJのXMLの構造
---[[CSJのXML要素一覧:http://www.kokken.go.jp/katsudo/sei...
---階層構造は以下のとおり。
<talk>
<IPU>
<LUW>
<SUW>
<TransSUW>
<Mora>
<Phoneme>
<Phone>
<XJToBILabelBreak>
---例:[[R00M0036_short.xml:http://shower.human.waseda.ac...
--お題を実現するには、以下のようなスタイルシート(('''[[te...
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.o...
<xsl:output method="text" indent="yes" encoding="Shift_J...
<xsl:strip-space elements="*"/>
<!--イントネーション境界以外の母音のリストを取得する-->
<!--まず音素ラベル(Phone要素)を見つける-->
<xsl:template match="Phone">
<!--Phone要素の属性 PhoneClass の値が「vowel」であるも...
<xsl:if test= "@PhoneClass='vowel'">
<!-- Phone の下位要素 XJToBILabelBreak の値が「3」でな...
<xsl:if test= "descendant::XJToBILabelBreak != '3'">
<!--条件を満たすときの PhoneEntity 属性の値を表示-->
<xsl:value-of select="@PhoneEntity" />
<xsl:text>,</xsl:text>
<!--条件を満たすときの XJToBILabelBreak の値を表示-->
<xsl:value-of select="descendant::XJToBILabelBreak" />
<xsl:text>,</xsl:text>
<!--改行記号を表示-->
<xsl:text>
</xsl:text>
</xsl:if>
</xsl:if>
</xsl:template>
</xsl:stylesheet>
-XSLTを実行する
--Java
---[[JavaでHelloWorld XSLT編:http://www.hellohiro.com/xsl...
--MATLAB
---xslt コマンドが使える。
>> xslt A01F0055.xml makePROMPT.xsl resut.txt
--実行結果
---以下のテキストファイルが出力される。
o,F,
o,2,
o,1,
e,1+p,
u,D,
(省略)
***お題:アクセント核を持たない名詞・形容詞のリストを作成...
-'''[[20091110 無アクセント名詞句・形容詞句リスト作成:htt...
***お題:HTK学習用の転記テキストファイル(.PROMPTファイル...
-形式
*/(ファイル番号)_(文番号) \t スペース区切りの単語 \t 音...
-例
*/0001_0005 発表 し ます h,a,Q,py,o,H, sj,i, m,a,s,u, ...
-XSLTファイル
--[[makePROMPT.xsl:http://shower.human.waseda.ac.jp/~m-ko...
--出力される文字列の例
0005 発表 し ます ハ,ッ,ピョ,ー, シ, マ,ス, 00005.549 ...
---コアデータ以外のXMLファイルには、mora層までしかないの...
-実行
--音素・モーラ対応表を準備
---[[MoraPhonemeList.txt:http://shower.human.waseda.ac.jp...
---&color(red){''注意'' : 長音記号「ー」は、ここでは独立...
--[[コーパス加工用プログラム/ディレクトリをサーチしてXML...
--makePROMPT.xsl と xmlfilelist.txt と MoraPhonemeList.tx...
java HtkMakePromptCSJ xmlfilelist.txt result.PROMPT Mora...
---最後の引数は MoraPhonemeList.txt の文字コード
---result.PROMPT ファイルができます。
***IPUの開始・終了時間およびノイズマスク区間((CSJのXMLに...
#ref(searchTimeIPUandNoise.xsl);
-- MATLABでの実行例
xslt('R00M0036.xml', 'searchTimeIPUandNoise.xsl', 'resul...
***音素の開始・終了時間を取得する [#t24a217e]
-【注意!】以下はノイズマスク区間も出力されてしまっていま...
-母音
#ref(searchTimeVowel.xsl);
--長母音記号「H」も独立した音素扱いで出力されます。((CSJ...
-子音
#ref(searchTimeConsonant.xsl);
--「SclS」「N」も独立した音素扱いで出力されます。
-全音素
#ref(searchTimeAllophone.xsl);
***お題:話者情報を取得する [#l36bde62]
#ref(searchSpeakerInfo.xsl);
**現代日本語書き言葉均衡コーパス(BCCWJ) [#ree4d593]
***お題:短単位ごとに情報を出力する [#fdb302fe]
文ID,連番(短単位の並び順、10刻み),文境界(Bは文頭、Iは...
-参考
--テンプレート間で変数のやりとり
---http://www.asahi-net.or.jp/~PS8A-OKZK/xml/xslt10_2/pas...
---http://www.res-system.com/weblog/item/433
--要素に番号をふる
---http://www.dab.hi-ho.ne.jp/sasa/biboroku/xml-xslt/posi...
-スクリプトとサンプルデータとマニュアル
--[[searchBCCWJ.zip:http://shower.human.waseda.ac.jp/~m-k...
終了行:
#access
#analog
*コーパス付属のXMLファイルをXSLTで解析する [#bdc2ce09]
#contents
**日本語話し言葉コーパス(CSJ) [#e58710fd]
***XMLファイルのパスを取得する [#sba6de10]
-[[コーパス加工用プログラム/ディレクトリをサーチしてXMLフ...
***お題:イントネーション境界以外の母音のリストを取得する...
-参考
--[[『日本語話し言葉コーパス』XML文書について:http://www....
--[[CSJのXMLデータの解析(菊池先生):http://www.f.waseda.jp...
--[[CSJ-XSLサンプル(菊池先生):http://www.f.waseda.jp/kiku...
--[[共同研究動画データのXML化:http://shower.human.waseda....
--[[XML-XSLTスタイルシートの基本:http://ykr414.com/xml/x...
--[[JavaでHelloWorld XSLT編:http://www.hellohiro.com/xslt...
-[[『日本語話し言葉コーパス』のイントネーションラベリング...
--菊池先生からいただいたご指摘
BIには、3以外にも、2, 2+p, 2+b, 2+bpなどがあります。
「イントネーション境界」が何を指すのかにもよりますが、2...
#2をイントネーション境界とすることによって結果が変わっ...
--[[『日本語話し言葉コーパス』XML文書について:http://www....
--したがって、<XJToBILabelBreak>要素の値が「3」以外で、か...
-XSLTテンプレートの作成
--CSJのXMLの構造
---[[CSJのXML要素一覧:http://www.kokken.go.jp/katsudo/sei...
---階層構造は以下のとおり。
<talk>
<IPU>
<LUW>
<SUW>
<TransSUW>
<Mora>
<Phoneme>
<Phone>
<XJToBILabelBreak>
---例:[[R00M0036_short.xml:http://shower.human.waseda.ac...
--お題を実現するには、以下のようなスタイルシート(('''[[te...
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.o...
<xsl:output method="text" indent="yes" encoding="Shift_J...
<xsl:strip-space elements="*"/>
<!--イントネーション境界以外の母音のリストを取得する-->
<!--まず音素ラベル(Phone要素)を見つける-->
<xsl:template match="Phone">
<!--Phone要素の属性 PhoneClass の値が「vowel」であるも...
<xsl:if test= "@PhoneClass='vowel'">
<!-- Phone の下位要素 XJToBILabelBreak の値が「3」でな...
<xsl:if test= "descendant::XJToBILabelBreak != '3'">
<!--条件を満たすときの PhoneEntity 属性の値を表示-->
<xsl:value-of select="@PhoneEntity" />
<xsl:text>,</xsl:text>
<!--条件を満たすときの XJToBILabelBreak の値を表示-->
<xsl:value-of select="descendant::XJToBILabelBreak" />
<xsl:text>,</xsl:text>
<!--改行記号を表示-->
<xsl:text>
</xsl:text>
</xsl:if>
</xsl:if>
</xsl:template>
</xsl:stylesheet>
-XSLTを実行する
--Java
---[[JavaでHelloWorld XSLT編:http://www.hellohiro.com/xsl...
--MATLAB
---xslt コマンドが使える。
>> xslt A01F0055.xml makePROMPT.xsl resut.txt
--実行結果
---以下のテキストファイルが出力される。
o,F,
o,2,
o,1,
e,1+p,
u,D,
(省略)
***お題:アクセント核を持たない名詞・形容詞のリストを作成...
-'''[[20091110 無アクセント名詞句・形容詞句リスト作成:htt...
***お題:HTK学習用の転記テキストファイル(.PROMPTファイル...
-形式
*/(ファイル番号)_(文番号) \t スペース区切りの単語 \t 音...
-例
*/0001_0005 発表 し ます h,a,Q,py,o,H, sj,i, m,a,s,u, ...
-XSLTファイル
--[[makePROMPT.xsl:http://shower.human.waseda.ac.jp/~m-ko...
--出力される文字列の例
0005 発表 し ます ハ,ッ,ピョ,ー, シ, マ,ス, 00005.549 ...
---コアデータ以外のXMLファイルには、mora層までしかないの...
-実行
--音素・モーラ対応表を準備
---[[MoraPhonemeList.txt:http://shower.human.waseda.ac.jp...
---&color(red){''注意'' : 長音記号「ー」は、ここでは独立...
--[[コーパス加工用プログラム/ディレクトリをサーチしてXML...
--makePROMPT.xsl と xmlfilelist.txt と MoraPhonemeList.tx...
java HtkMakePromptCSJ xmlfilelist.txt result.PROMPT Mora...
---最後の引数は MoraPhonemeList.txt の文字コード
---result.PROMPT ファイルができます。
***IPUの開始・終了時間およびノイズマスク区間((CSJのXMLに...
#ref(searchTimeIPUandNoise.xsl);
-- MATLABでの実行例
xslt('R00M0036.xml', 'searchTimeIPUandNoise.xsl', 'resul...
***音素の開始・終了時間を取得する [#t24a217e]
-【注意!】以下はノイズマスク区間も出力されてしまっていま...
-母音
#ref(searchTimeVowel.xsl);
--長母音記号「H」も独立した音素扱いで出力されます。((CSJ...
-子音
#ref(searchTimeConsonant.xsl);
--「SclS」「N」も独立した音素扱いで出力されます。
-全音素
#ref(searchTimeAllophone.xsl);
***お題:話者情報を取得する [#l36bde62]
#ref(searchSpeakerInfo.xsl);
**現代日本語書き言葉均衡コーパス(BCCWJ) [#ree4d593]
***お題:短単位ごとに情報を出力する [#fdb302fe]
文ID,連番(短単位の並び順、10刻み),文境界(Bは文頭、Iは...
-参考
--テンプレート間で変数のやりとり
---http://www.asahi-net.or.jp/~PS8A-OKZK/xml/xslt10_2/pas...
---http://www.res-system.com/weblog/item/433
--要素に番号をふる
---http://www.dab.hi-ho.ne.jp/sasa/biboroku/xml-xslt/posi...
-スクリプトとサンプルデータとマニュアル
--[[searchBCCWJ.zip:http://shower.human.waseda.ac.jp/~m-k...
ページ名:
既存のページ名で編集する