ちょっとやりたいことがあって、MeCabとSennaをインストールしたいのです。
でも今日はMeCabだけインストールします。
MeCabは形態素解析という処理をするためのツールです。
形態素解析については、形態素解析 - Wikipediaを読むとたぶんわかります。
自然言語で書かれた文を形態素 (Morpheme, おおまかにいえば、言語で意味を持つ最小単位) の列に分割し、品詞 (Part-of-speech) を見分ける作業
Sennaは組み込み型の全文検索エンジンです。
今後、使うことができると便利だろうな、と思っています。
以下では
『MeCabでutf8な文字列を処理できるようにしつつ、Sennaことも考えつつインストール』
という、多くの人に用事がないことをしています。しかもPerlだし.
使ったOSはcoLinux上のDebian Sarge Linux(Debian GNU/Linux 3.1)です.
・いろいろ考えるの面倒な駄目人間なのでsu
$ su
# make install時にsudoすればいいか・・・
・ipadicの取得・解凍
・MeCabの取得・解凍
・解凍したipadicを、mecabを解凍したフォルダにコピー
# cp -rp ipadic-2.6.1 mecab-0.81/dic/
・Sennaを使おうと思っているのでmteパッチを取得して、あてる。
・MeCabでutf8を扱いたいので、そのようにconfigure, make, make installする
# ./configure --with-charset=utf8
# make
# make install
・puttyの文字コードをutf8にして動作確認。
$ meca
puttyの文字コードをutf8にしたわけです。
putty 未知語,*,*,*,*,*,*,*,*
の 助詞,連体化,*,*,*,*,の,ノ,ノ
文字 名詞,一般,*,*,*,*,文字,モジ,モジ
コード 名詞,一般,*,*,*,*,コード,コード,コード
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
utf 未知語,*,*,*,*,*,*,*,*
8 未知語,*,*,*,*,*,*,*,*
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
わけ 名詞,非自立,一般,*,*,*,わけ,ワケ,ワケ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。 記号,句点,*,*,*,*,。,。,。
EOS
・puttyの文字コードをeuc-jpにして、うまくいかないように祈って動作確認
$ mecab
puttyの文字コードがeuc-jpなのです
putty 罟腑茯,*,*,*,*,*,*,*,*
の 罟腑茯,*,*,*,*,*,*,*,*
文 罟腑茯,*,*,*,*,*,*,*,*
字 罟腑茯,*,*,*,*,*,*,*,*
コ 罟腑茯,*,*,*,*,*,*,*,*
ー 罟腑茯,*,*,*,*,*,*,*,*
ド 罟腑茯,*,*,*,*,*,*,*,*
が 罟腑茯,*,*,*,*,*,*,*,*
euc 罟腑茯,*,*,*,*,*,*,*,*
- 罟腑茯,*,*,*,*,*,*,*,*
jp 罟腑茯,*,*,*,*,*,*,*,*
な 罟腑茯,*,*,*,*,*,*,*,*
の 罟腑茯,*,*,*,*,*,*,*,*
で 罟腑茯,*,*,*,*,*,*,*,*
す 罟腑茯,*,*,*,*,*,*,*,*
EOS
・MeCabのPerlバインディングをインストール
Perlからも使えるようになったし,散歩でもしてこよう。
【関連リンク】
▼
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
▼
Senna 組み込み型全文検索エンジン - Senna 組み込み型全文検索エンジン