Miyazawa’s Pukiwiki
雑談対話システム
はすでに存在します。
開始行:
#contents
*雑談対話・自由対話システム [#qac2076d]
-2014年7月現在
--あらゆる状況で自然に雑談を継続できる対話システムは、ま...
--[[NTTドコモ 雑談対話API:https://dev.smt.docomo.ne.jp/?p...
---[[雑談対話API test:http://shinzan.human.waseda.ac.jp/~...
--先行研究では、ある程度トピックを限定した雑談をテーマに...
---[[柴田雅博, 冨浦洋一, 西口友美, "雑談自由対話を実現す...
---[[水野淳太, 乾健太郎, 松本裕治, "ウェブニュースを利用...
---などなど。
--近年では、学習アルゴリズムは「部分観測マルコフ決定過程...
---[[吉野幸一郎, 河原達也, "ユーザの焦点に適応的な雑談型...
**[[柴田, 冨浦 & 西口, 2009.:https://www.jstage.jst.go.jp...
-&color(red){''注:このプログラムは2009年に作成したもので...
-[[柴田雅博, 冨浦洋一, 西口友美, "雑談自由対話を実現する...
***[[柴田, 冨浦 & 西口, 2009.:https://www.jstage.jst.go.j...
-&color(red){''注:以下は、[[柴田, 冨浦 & 西口, 2009.:htt...
+''候補文コーパス作成''
++コーパスのジャンルを決める(例:「映画」)
++メインテーマを決める(例:「ゴッドファーザー」)
++YahooAPIを使ってWebページを収集する(クエリ:「映画 ゴ...
++各文を切り出して、メインテーマ、文書ID(URL)、文ID(そ...
+''センタリング理論'':ある文の話題の中心となる語を選ぶ規則
++ゼロ代名詞のときの、前の文の「~が」「~は」の名詞。以...
++「~は」の名詞
++「~が」の名詞
++「~を」の名詞
+''対話処理''
++まず、ユーザに話させる(「映画の話をしましょう」などと...
++ユーザ発話の話題の中心語を調べる(なければ i に戻る)。...
++ユーザ発話と同じ中心語の文を選び、後述する方法で一つの...
++以上を繰り返す。
+''意味的整合度''
++ユーザ発話の内容語(名詞、動詞、形容詞、形容動詞)ωと、...
r(ω,ω') = logP(ω'|ω) - logP_D(ω')
で決まる([[論文のp.512、式(1):https://www.jstage.jst.go....
---P(ω'|ω) は、ωを含む文があらわれたとき、その次の文がω'...
---P_D(ω') は、文書集合Dの中で、ω'を含む割合 df(ω')/|D| ...
++ωを含む文の数が4以下なら、r(ω,ω')= -∞ として扱う([[論...
+''候補文選択'':ユーザ発話文に対して「意味的整合度」が高...
++候補文コーパスの中から、前のユーザ発話の中心語と同じ中...
---「~が」「~は」「~を」の~がユーザ発話の中心語と同じ...
++ユーザ発話文と上記の候補文に対して、「中心語以外の内容...
---このとき、内容語が3に満たない候補文は除外する。((ユー...
++意味的整合度の値が大きかった上位3組を合計し、これを「ユ...
++文書間の意味的整合度が最も高く、かつその値が -2.5 以上...
---条件を満たす文がなかった場合、メインテーマを中心語にし...
---それでも条件を満たす文がなかった場合、システム発話は「...
++選ばれた文をゼロ代名詞化する。
++選ばれた文の冒頭に接続詞があった場合、「ちなみに」「そ...
***実装 [#fcc283c7]
-プログラム((2010/12/16 早稲田の学内から使いたい場合は、S...
--HariboteDialogSystem.java はSenもコーパスも使わないハリ...
---入出力部分だけ本プログラムと同じにしてあります。詳しい...
--&color(red){''注:2014年現在、MakeCorpus.java でWebコー...
-Webコーパスサンプル &ref(web_corpus.zip);
--&color(red){''個人サイトのテキスト、URLを含みます。もし...
--ユーザの入力した内容語を含む文が必要なので、&color(red)...
***使い方 [#ob674b83]
+Senの実行環境をインストール
--はじめに、[[Senで形態素解析/インストール/Windows:http:/...
--また、話題にしたいメインテーマの名詞(アーティスト名な...
---[[Senで形態素解析/辞書に単語を追加:http://shower.human...
--SenSample.java の System.setProperty("sen.home","c:/sen...
+HTMLパーサーをインストール
--[[ブログ検索システム/HTMLパース:http://shower.human.was...
+Webから情報を収集してコーパスを作ります。
--はじめに、メインテーマリストファイル(例えば mainTheme_...
--クローリングを開始します。
java MakeCorpus ゾイド ./corpus ./mainTheme_zoids.txt UT...
---第一引数はジャンル名
---第二引数はコーパスファイルの出力先ディレクトリ名
---第三引数はメインテーマリストファイル
---第四引数はメインテーマリストファイルの文字コード(UTF-...
---第五引数は検索結果を何件まで取得するか
+対話を試します。(&color(red){※[[柴田, 冨浦 & 西口, 2009...
java DialogSystem ゾイド ./mainTheme_zoids.txt ./output....
>> システム : ゾイドの話をしましょう。 (1)()
java DialogSystem ゾイド ./mainTheme_zoids.txt ./output....
>> システム : 隣町の祭りでLBアイアンコングが叩き売りされ...
java DialogSystem ゾイド ./mainTheme_zoids.txt ./output....
>> システム : 強力なゾイドは気性が荒いせいで操縦が難しい...
--第一引数はジャンル名
--第二引数はメインテーマリストファイル
--第三引数はシステム発話文を書き出すファイル名
--outputSystemSpeak.txt にシステムの発話文が書き出されま...
--log.txt に対話のログが書き出されます。
--その他、システムの内部処理用に以下が書き出されます。
---used.txt は対話に使った候補文のリストです。
---theme.txt は今回のメインテーマです。
---center.txt は直前の対話の中心語です。
---cache.txt は意味的整合度の計算過程で出力した候補文一覧...
-以上です。未実装・独自解釈で作った点はコード中にメモして...
終了行:
#contents
*雑談対話・自由対話システム [#qac2076d]
-2014年7月現在
--あらゆる状況で自然に雑談を継続できる対話システムは、ま...
--[[NTTドコモ 雑談対話API:https://dev.smt.docomo.ne.jp/?p...
---[[雑談対話API test:http://shinzan.human.waseda.ac.jp/~...
--先行研究では、ある程度トピックを限定した雑談をテーマに...
---[[柴田雅博, 冨浦洋一, 西口友美, "雑談自由対話を実現す...
---[[水野淳太, 乾健太郎, 松本裕治, "ウェブニュースを利用...
---などなど。
--近年では、学習アルゴリズムは「部分観測マルコフ決定過程...
---[[吉野幸一郎, 河原達也, "ユーザの焦点に適応的な雑談型...
**[[柴田, 冨浦 & 西口, 2009.:https://www.jstage.jst.go.jp...
-&color(red){''注:このプログラムは2009年に作成したもので...
-[[柴田雅博, 冨浦洋一, 西口友美, "雑談自由対話を実現する...
***[[柴田, 冨浦 & 西口, 2009.:https://www.jstage.jst.go.j...
-&color(red){''注:以下は、[[柴田, 冨浦 & 西口, 2009.:htt...
+''候補文コーパス作成''
++コーパスのジャンルを決める(例:「映画」)
++メインテーマを決める(例:「ゴッドファーザー」)
++YahooAPIを使ってWebページを収集する(クエリ:「映画 ゴ...
++各文を切り出して、メインテーマ、文書ID(URL)、文ID(そ...
+''センタリング理論'':ある文の話題の中心となる語を選ぶ規則
++ゼロ代名詞のときの、前の文の「~が」「~は」の名詞。以...
++「~は」の名詞
++「~が」の名詞
++「~を」の名詞
+''対話処理''
++まず、ユーザに話させる(「映画の話をしましょう」などと...
++ユーザ発話の話題の中心語を調べる(なければ i に戻る)。...
++ユーザ発話と同じ中心語の文を選び、後述する方法で一つの...
++以上を繰り返す。
+''意味的整合度''
++ユーザ発話の内容語(名詞、動詞、形容詞、形容動詞)ωと、...
r(ω,ω') = logP(ω'|ω) - logP_D(ω')
で決まる([[論文のp.512、式(1):https://www.jstage.jst.go....
---P(ω'|ω) は、ωを含む文があらわれたとき、その次の文がω'...
---P_D(ω') は、文書集合Dの中で、ω'を含む割合 df(ω')/|D| ...
++ωを含む文の数が4以下なら、r(ω,ω')= -∞ として扱う([[論...
+''候補文選択'':ユーザ発話文に対して「意味的整合度」が高...
++候補文コーパスの中から、前のユーザ発話の中心語と同じ中...
---「~が」「~は」「~を」の~がユーザ発話の中心語と同じ...
++ユーザ発話文と上記の候補文に対して、「中心語以外の内容...
---このとき、内容語が3に満たない候補文は除外する。((ユー...
++意味的整合度の値が大きかった上位3組を合計し、これを「ユ...
++文書間の意味的整合度が最も高く、かつその値が -2.5 以上...
---条件を満たす文がなかった場合、メインテーマを中心語にし...
---それでも条件を満たす文がなかった場合、システム発話は「...
++選ばれた文をゼロ代名詞化する。
++選ばれた文の冒頭に接続詞があった場合、「ちなみに」「そ...
***実装 [#fcc283c7]
-プログラム((2010/12/16 早稲田の学内から使いたい場合は、S...
--HariboteDialogSystem.java はSenもコーパスも使わないハリ...
---入出力部分だけ本プログラムと同じにしてあります。詳しい...
--&color(red){''注:2014年現在、MakeCorpus.java でWebコー...
-Webコーパスサンプル &ref(web_corpus.zip);
--&color(red){''個人サイトのテキスト、URLを含みます。もし...
--ユーザの入力した内容語を含む文が必要なので、&color(red)...
***使い方 [#ob674b83]
+Senの実行環境をインストール
--はじめに、[[Senで形態素解析/インストール/Windows:http:/...
--また、話題にしたいメインテーマの名詞(アーティスト名な...
---[[Senで形態素解析/辞書に単語を追加:http://shower.human...
--SenSample.java の System.setProperty("sen.home","c:/sen...
+HTMLパーサーをインストール
--[[ブログ検索システム/HTMLパース:http://shower.human.was...
+Webから情報を収集してコーパスを作ります。
--はじめに、メインテーマリストファイル(例えば mainTheme_...
--クローリングを開始します。
java MakeCorpus ゾイド ./corpus ./mainTheme_zoids.txt UT...
---第一引数はジャンル名
---第二引数はコーパスファイルの出力先ディレクトリ名
---第三引数はメインテーマリストファイル
---第四引数はメインテーマリストファイルの文字コード(UTF-...
---第五引数は検索結果を何件まで取得するか
+対話を試します。(&color(red){※[[柴田, 冨浦 & 西口, 2009...
java DialogSystem ゾイド ./mainTheme_zoids.txt ./output....
>> システム : ゾイドの話をしましょう。 (1)()
java DialogSystem ゾイド ./mainTheme_zoids.txt ./output....
>> システム : 隣町の祭りでLBアイアンコングが叩き売りされ...
java DialogSystem ゾイド ./mainTheme_zoids.txt ./output....
>> システム : 強力なゾイドは気性が荒いせいで操縦が難しい...
--第一引数はジャンル名
--第二引数はメインテーマリストファイル
--第三引数はシステム発話文を書き出すファイル名
--outputSystemSpeak.txt にシステムの発話文が書き出されま...
--log.txt に対話のログが書き出されます。
--その他、システムの内部処理用に以下が書き出されます。
---used.txt は対話に使った候補文のリストです。
---theme.txt は今回のメインテーマです。
---center.txt は直前の対話の中心語です。
---cache.txt は意味的整合度の計算過程で出力した候補文一覧...
-以上です。未実装・独自解釈で作った点はコード中にメモして...
ページ名:
既存のページ名で編集する