Miyazawa’s Pukiwiki
Senで形態素解析
はすでに存在します。
開始行:
#access
#analog
*Sen [#o99f6a88]
-javaで形態素解析を行うためのオープンソースパッケージ Sen...
**インストール [#y63839a8]
***Linux [#q58f92c7]
-[[日本語形態素解析器Senを導入する その1 Senのインストー...
--[[ここ:https://sen.dev.java.net/servlets/ProjectDocumen...
--上記サイトにしたがって、sen-1.2.2.1/conf/sen.xml、 sen-...
--上記サイトにしたがって、辞書をインストールする。
--環境変数の設定((定義済みの環境変数は printenv コマンド...
---以下のコードを実行する(毎回実行するのが面倒なら、.bas...
$ export SEN_HOME=(senディレクトリのパス)/sen-1.2.2.1
$ export CLASSPATH=$CLASSPATH:$SEN_HOME/lib/sen.jar
---[[参考 環境変数マニュアル:http://x68000.q-e-d.net/~68u...
--実行
$ sh $SEN_HOME/bin/sen.sh
---「すもももももももものうち」と入力
すもも (すもも) 名詞-一般(0,3,3) スモモ ...
も (も) 助詞-係助詞(3,4,1) モ モ
もも (もも) 名詞-一般(4,6,2) モモ モモ
も (も) 助詞-係助詞(6,7,1) モ モ
もも (もも) 名詞-一般(7,9,2) モモ モモ
の (の) 助詞-連体化(9,10,1) ノ ノ
うち (うち) 名詞-非自立-副詞可能(10,12,2) ウチ ...
---上記で実行されるのは [[StringTaggerDemo.java:http://ww...
***Windows [#l285c8ca]
+必要なファイルのダウンロード
--[[Sen本体:https://sen.dev.java.net/servlets/ProjectDocu...
---sen-1.2.2.1.zipをダウンロード
---解凍したフォルダは「Sen」などと改名して、適当な場所に...
--辞書構築用
---[[Cygwin:http://sohda.net/cygwin/setup.html]]
---[[Active Perl:http://shower.human.waseda.ac.jp/~m-kouk...
---[[Apache Ant:http://www.javadrive.jp/ant/install/index...
+文字コード設定
--[[日本語形態素解析器Senを導入する その1 Senのインストー...
---C:\Users\miyazawa\Documents\My Dropbox\ecripse_workspa...
+辞書構築
--[[Luceneの概要Lucene-TECHSCORE-:http://www.techscore.co...
--コマンドプロンプトで、
> cd [senのインストール先]\dic
> ant -Dperl.bin=[ActivePerlのインストール先]\perl.exe
--うまくいけば、辞書が更新される。
+パスとクラスパスを追加
--%%システム環境変数に、「SEN_HOME」> [Senのインストール...
--[Senのインストール先]/lib/sen.jar、[Senのインストール先...
+Senを実行してみる。
--[[Senの使用法Lucene-TECHSCORE-:http://www.techscore.com...
---%%エラーが出たが、エラーメッセージにあるとおりの場所に...
---プログラムの冒頭で、Senのインストール先のパスを指定する
--実行結果
今日(名詞,副詞可能,*,*,*,*,今日,キョウ,キョー)
は(助詞,係助詞,*,*,*,*,は,ハ,ワ)
良い(形容詞,自立,*,*,形容詞・アウオ段,基本形,良い,ヨイ,...
天気(名詞,一般,*,*,*,*,天気,テンキ,テンキ)
です(助動詞,*,*,*,特殊・デス,基本形,です,デス,デス)
。(記号,句点,*,*,*,*,。,。,。)
**辞書に単語を追加 [#dcbacfec]
-参考:[[Sen 用辞書の作成方法:http://mytexpert.sourceforg...
-[Senのインストール先]/dic/dic.csv に単語を追記する。((参...
--追記する文字列の例
ガンスナイパー,4000,名詞,一般,*,*,*,*,ガンスナイパー,ガ...
---最後に改行を入れないように注意(エラーになります)
-[Senのインストール先]/dic/build.xml に辞書のパスを追記す...
--112行目以降
...
<!--
<arg line="customize_dic.csv" />
-->
<arg line="dic.csv" />
</java>
...
-ant を実行
cd [Senのインストール先]/dic
ant -Dperl.bin=[ActivePerlのインストール先]\perl.exe
-実行してみる
ガンスナイパー(名詞,一般,*,*,*,*,ガンスナイパー,ガンスナ...
が(助詞,格助詞,一般,*,*,*,が,ガ,ガ)
好き(名詞,形容動詞語幹,*,*,*,*,好き,スキ,スキ)
です(助動詞,*,*,*,特殊・デス,基本形,です,デス,デス)
。(記号,句点,*,*,*,*,。,。,。)
**その他の辞書 [#a63e04ce]
-[[形態素解析辞書UniDic:http://www.tokuteicorpus.jp/dist/]]
終了行:
#access
#analog
*Sen [#o99f6a88]
-javaで形態素解析を行うためのオープンソースパッケージ Sen...
**インストール [#y63839a8]
***Linux [#q58f92c7]
-[[日本語形態素解析器Senを導入する その1 Senのインストー...
--[[ここ:https://sen.dev.java.net/servlets/ProjectDocumen...
--上記サイトにしたがって、sen-1.2.2.1/conf/sen.xml、 sen-...
--上記サイトにしたがって、辞書をインストールする。
--環境変数の設定((定義済みの環境変数は printenv コマンド...
---以下のコードを実行する(毎回実行するのが面倒なら、.bas...
$ export SEN_HOME=(senディレクトリのパス)/sen-1.2.2.1
$ export CLASSPATH=$CLASSPATH:$SEN_HOME/lib/sen.jar
---[[参考 環境変数マニュアル:http://x68000.q-e-d.net/~68u...
--実行
$ sh $SEN_HOME/bin/sen.sh
---「すもももももももものうち」と入力
すもも (すもも) 名詞-一般(0,3,3) スモモ ...
も (も) 助詞-係助詞(3,4,1) モ モ
もも (もも) 名詞-一般(4,6,2) モモ モモ
も (も) 助詞-係助詞(6,7,1) モ モ
もも (もも) 名詞-一般(7,9,2) モモ モモ
の (の) 助詞-連体化(9,10,1) ノ ノ
うち (うち) 名詞-非自立-副詞可能(10,12,2) ウチ ...
---上記で実行されるのは [[StringTaggerDemo.java:http://ww...
***Windows [#l285c8ca]
+必要なファイルのダウンロード
--[[Sen本体:https://sen.dev.java.net/servlets/ProjectDocu...
---sen-1.2.2.1.zipをダウンロード
---解凍したフォルダは「Sen」などと改名して、適当な場所に...
--辞書構築用
---[[Cygwin:http://sohda.net/cygwin/setup.html]]
---[[Active Perl:http://shower.human.waseda.ac.jp/~m-kouk...
---[[Apache Ant:http://www.javadrive.jp/ant/install/index...
+文字コード設定
--[[日本語形態素解析器Senを導入する その1 Senのインストー...
---C:\Users\miyazawa\Documents\My Dropbox\ecripse_workspa...
+辞書構築
--[[Luceneの概要Lucene-TECHSCORE-:http://www.techscore.co...
--コマンドプロンプトで、
> cd [senのインストール先]\dic
> ant -Dperl.bin=[ActivePerlのインストール先]\perl.exe
--うまくいけば、辞書が更新される。
+パスとクラスパスを追加
--%%システム環境変数に、「SEN_HOME」> [Senのインストール...
--[Senのインストール先]/lib/sen.jar、[Senのインストール先...
+Senを実行してみる。
--[[Senの使用法Lucene-TECHSCORE-:http://www.techscore.com...
---%%エラーが出たが、エラーメッセージにあるとおりの場所に...
---プログラムの冒頭で、Senのインストール先のパスを指定する
--実行結果
今日(名詞,副詞可能,*,*,*,*,今日,キョウ,キョー)
は(助詞,係助詞,*,*,*,*,は,ハ,ワ)
良い(形容詞,自立,*,*,形容詞・アウオ段,基本形,良い,ヨイ,...
天気(名詞,一般,*,*,*,*,天気,テンキ,テンキ)
です(助動詞,*,*,*,特殊・デス,基本形,です,デス,デス)
。(記号,句点,*,*,*,*,。,。,。)
**辞書に単語を追加 [#dcbacfec]
-参考:[[Sen 用辞書の作成方法:http://mytexpert.sourceforg...
-[Senのインストール先]/dic/dic.csv に単語を追記する。((参...
--追記する文字列の例
ガンスナイパー,4000,名詞,一般,*,*,*,*,ガンスナイパー,ガ...
---最後に改行を入れないように注意(エラーになります)
-[Senのインストール先]/dic/build.xml に辞書のパスを追記す...
--112行目以降
...
<!--
<arg line="customize_dic.csv" />
-->
<arg line="dic.csv" />
</java>
...
-ant を実行
cd [Senのインストール先]/dic
ant -Dperl.bin=[ActivePerlのインストール先]\perl.exe
-実行してみる
ガンスナイパー(名詞,一般,*,*,*,*,ガンスナイパー,ガンスナ...
が(助詞,格助詞,一般,*,*,*,が,ガ,ガ)
好き(名詞,形容動詞語幹,*,*,*,*,好き,スキ,スキ)
です(助動詞,*,*,*,特殊・デス,基本形,です,デス,デス)
。(記号,句点,*,*,*,*,。,。,。)
**その他の辞書 [#a63e04ce]
-[[形態素解析辞書UniDic:http://www.tokuteicorpus.jp/dist/]]
ページ名:
既存のページ名で編集する