2008-10-09 Thu
日産ノート(NOTE)とゴールデンエッグスのコラボサイトでコーチとお話できる
日産ノート(NOTE)とゴールデンエッグスのコラボサイトが公開されているようです。

コーチと話すのはネセサリーだよなぁと思ったので、いろいろ見てみましたが、ゴールデンエッグスとかなりディープにコラボしているので、ファンにはたまらないサイトになっています。
ブログパーツの良い意味でのあほらしさも最高です。
で、どのへんがNOTEのプロモにつながるかというと、「試乗ムービーがゴールデンエッグス好きにとっておもしろくできている」という点かなと。
いままで作り上げてきたキャラクタの持ちネタを試乗ムービーの上で炸裂させているので、飽きずに最後までみることができました。
肝心のコーチとのお話ですが、人工知能的なアプローチはあんまり顕著に見られません。ほとんど何もしていないのでは。
でも、あんまり真剣にルールづくりをしなくても大丈夫で、むしろユーザーの話を聞かなくても、キャラが成立するならOKなのだ、ということを教えられました。
このサイト、オススメなので無くならないうちに行ってみてください。
【関連リンク】
- 日産:ノート [ NOTE ] コンパクトカー Webカタログ ホーム
-- http://www2.nissan.co.jp/NOTE/E11/0801/index.html
2008-10-03 Fri
形態素解析器 JUMAN をインストール
Tさんから「JUMAN、JUMAN」と呪文を唱えられたので、気がついたら JUMAN をインストールしていました。
以下がそのインストールメモ。
$ wget http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/juman/juman-6.0.tar.gz $ tar xfvz ./juman-6.0.tar.gz $ cd juman-6.0 $ ./configure $ make $ make install
一応 ldconfig しておく。
$ ldconfig
で、巨峰を食べたので、そういうのを例文にしてみた。
JUMAN は euc-jp しか受けつけないので注意。
$ echo '巨峰を一房食べた。おいしいおいしい。'|lv -Oe|juman|lv -Ou 巨 巨 巨 未定義語 15 その他 1 * 0 * 0 NIL 峰 みね 峰 名詞 6 普通名詞 1 * 0 * 0 "漢字読み:訓 カテゴリ:場所-自然 代表表記:峰/みね" を を を 助詞 9 格助詞 1 * 0 * 0 NIL 一 いち 一 名詞 6 数詞 7 * 0 * 0 NIL 房 ふさ 房 名詞 6 普通名詞 1 * 0 * 0 "漢字読み:訓 カテゴリ:植物-部位:人工物-その他:抽象物 代表表記:房/ふさ" 食べた たべた 食べる 動詞 2 * 0 母音動詞 1 タ形 10 "ドメイン:料理・食事 代表表記:食べる/たべる" 。 。 。 特殊 1 句点 1 * 0 * 0 NIL おいしい おいしい おいしい 形容詞 3 * 0 イ形容詞イ段 19 基本形 2 "代表表記:美味しい/おいしい" おいしい おいしい おいしい 形容詞 3 * 0 イ形容詞イ段 19 基本形 2 "代表表記:美味しい/おいしい" 。 。 。 特殊 1 句点 1 * 0 * 0 NIL EOS
ぐはっ。JUMAN は巨峰を知らないのね。orz。
ちなみに MeCab だと以下のような感じ。
$ echo '巨峰を一房食べた。おいしいおいしい。'|lv -Ou|mecab|lv -Ou 巨峰 名詞,一般,*,*,*,*,巨峰,キョホウ,キョホー を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 一 名詞,数,*,*,*,*,一,イチ,イチ 房 名詞,一般,*,*,*,*,房,ボウ,ボー 食べ 動詞,自立,*,*,一段,連用形,食べる,タベ,タベ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 。 記号,句点,*,*,*,*,。,。,。 おいしい 形容詞,自立,*,*,形容詞・イ段,基本形,おいしい,オイシイ,オイシイ おいしい 形容詞,自立,*,*,形容詞・イ段,基本形,おいしい,オイシイ,オイシイ 。 記号,句点,*,*,*,*,。,。,。 EOS
JUMAN には「UTF-8 のテキストを入出力できない」とか「え?キョミネ?」など、現代では不便に感じる点も多少あります。
でも解析結果を MeCab と比べると、タスク次第では JUMAN の方が嬉しくなることが多そうだと感じます。なので今後 JUMAN にはお世話になりそうです。
次は KNP をインストールしようかな。
2008-08-21 Thu
指定形容詞係り先検索の検索対象が狭すぎな件について、簡単に考えてみる
Yahoo! JAPAN が日本語係り受け解析のAPIを公開しました。
- Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語係り受け解析
-- http://developer.yahoo.co.jp/jlp/DAService/V1/parse.html
と、同時に「指定形容詞係り先検索」APIという聞き慣れない名前のAPIも公開されました。
- Yahoo!デベロッパーネットワーク - テキスト解析 - 指定形容詞係り先検索
-- http://developer.yahoo.co.jp/jlp/DAServiceSearch/V1/search.html
2 : 「おもしろい」が係る単語を返します。
3 : 「すごい」が係る単語を返します。
4 : 「たのしい」が係る単語を返します。
5 : 「かっこいい」が係る単語を返します。
6 : 「かわいい」が係る単語を返します。
7 : 「きれい」が係る単語を返します。
8 : 「おいしい」が係る単語を返します。
え?これだけ?
うーん。なんでこんなに取得できる条件が絞られているんだろう。
考えてみますか。
APIから得られる結果は?
APIの返す結果が『「うれしい」に係る』じゃないところがポイントですね。
おもに連体形の形容詞(名詞などの体言にかかる)が係る単語がとれそうです。
「単語を返す」と言っているのは、形容詞の係り先にある形態素を返すので、
名詞なのか、未知語なのか、固有名詞なのか、
よく分からないということなのではないかなぁ、と思います。
では、ちょっと結果を見てみます。
- 指定形容詞係り先検索 : うれしいの係る単語
-- http://jlp.yahooapis.jp/DAServiceSearch/V1/search?appid=YahooDemo&mode=1
<Surface>人気ブログランキング</Surface>
<Frequency>8</Frequency>
</Word>
Surfaceは表層、つまり見たままの文字列のことではないでしょうか。
Frequencyは頻度、つまり何かの頻度を表しているのではないでしょうか。
どんなデータから、表層と頻度を取得しているのか
頻度が出ていることから、何らかのコーパスを解析したことが分かります。
ふと気がつきましたが、結果の中に以下のような結果が混ざっています。
<Surface>金メダル</Surface>
<Frequency>24</Frequency>
</Word>
中略
<Word>
<Surface>ソフトボール</Surface>
<Frequency>9</Frequency>
</Word>
実は、この検索をした日の前日に、ソフトボールの日本代表が、
北京オリンピックで金メダルを取ったのです。
また、この一つ前の引用のように「人気ブログランキング」という単語が頻出していました。
取得できる結果からは、なんとなくブログ記事を使っている気がしますね。
もしかして、昨日以前のブログ検索結果から上位n件を取得しているのかな
ということが想像できます。
APIが結果として返してくれそうなデータを考える
APIのことと、APIで使っていそうなデータのことが、ちょっとわかったので
こんどは、結果として得られそうな「形容詞と単語の組み合わせ」と、
「組み合わせが得られそうな文」について考えてみようと思います。
形容詞「きれい」から何を得られるか
「きれい」という形容詞が係る、名詞「花」という組み合わせを考えます。
そうすると、「きれいな花」や「きれいだと思ったのは花」などの
文から、形容詞と単語の組み合わせが得られそうです。
ということは、別の形容詞についても何かを考えられますね。
APIの動きを想像して、APIの条件に無い形容詞の結果を考えてみる。
諸々考えたので、指定形容詞係り先検索と同等の結果を得る
アルゴリズムを考えてみます。
指定形容詞係り先検索っぽいアルゴリズム
1、クエリとして形容詞を与える
2、与えられた形容詞をクエリとして、ブログ検索する。その際に、形容詞は連体形に変換し、検索結果は日付順でランキングし取得する。
3、検索結果のタイトルとスニペットを取得。
4、スニペットを文に分割する。
5、タイトルとスニペットを正規化
6、与えられた形容詞を含むタイトルとスニペット文を文として取得。
7、取得した文を係り受け解析
8、構文情報から、与えられた形容詞が係っている形態素を取得。とりあえず、形容詞が係る、一番近い名詞、固有名詞、未知語を取得する。
9、形態素の頻度情報を得る
10、頻度が4件以上の単語のみを取得する
11、ストップワードリストによるフィルタリング
素朴なアルゴリズムは、こんな感じなのではないでしょうか。
アルゴリズムどおりに手を軽く動かしてみる。
アルゴリズムを想定したので、このアルゴリズムで形容詞を処理してみます。
と言っても、まずは自分の手を動かすことにします。
処理する形容詞を「嫌い」に設定してみます。
何故かというと、指定形容詞係り先検索にはネガティブな形容詞が含まれていなかったからです。
ブログ検索の結果を手作業で処理してみる。
以下の検索結果から、想定したアルゴリズムにマッチする単語を上から30個くらい取得してみます。
- 「嫌いな」の検索結果 - Yahoo!ブログ検索
-- http://blog-search.yahoo.co.jp/search?p=%E5%AB%8C%E3%81%84%E3%81%AA&ei=UTF-8
すると、試した瞬間には、以下のようになりました。
自分
季節
モノ
タイプ
ところ
子供
人
選手
タイプ
タイプ
もの
上司
人
中学校教師
男
選手
人
上司
雨降り
人間
人
私
日常
食べ物
キャラ
サウンド
奴
もの
人
具体的な名詞をあえて省いているのですが、
人や上司やタイプ、はたまた企業や物、そして自分なんてものが
「嫌い」なものとして言及されています。
少し手を動かしてみて、以下のような処理くらいはした方が良さそうだと分かりました。
- 連体形の形容詞が最初に係るのは、おもに一般名詞。おもしろくない。もう少し後ろまで取得したほうが良い。
- 言及されている対象が何かを考えるために、形容詞の係先の名詞と同格になっている名詞を取得する。
でも、なんとなく分かった。
「指定形容詞係り先検索の検索対象が狭すぎな件について、簡単に考える」が目的だったので、簡単に考えてみます。
簡単に考えると、指定できる形容詞が自由だと、
おそらくすごく便利だと思います。
現状でも、上手に検索結果を利用することで、
急激にみんなが言及している形容詞のランキングを作れますよね。
このランキングを様々な形容詞に対して適用してみると、
わりと面白いことになりそうだと分かります。
たとえば、「うれしい」の検索結果を見てみると、
「キャラメルコーン」のような固有名詞も含まれています。
ということは、最も今嬉しいワードが分かりますし、
最も今嫌われているワードも分かるわけです。
嫌い、悪い、臭いなど極めてネガティブな形容詞の係先を
Yahoo自らが明らかにする必要はなさそうですよね。
しかもネガティブな情報を発信しているユーザが特定できてしまうときに、
Yahoo側には、いろいろ面倒なことが起こりそうな気もします。
ここら辺が、指定形容詞係り先検索の検索対象が狭すぎる原因じゃないかと。
まとめ
指定形容詞係り先検索は研究用途に使うには、ちょっと物足りません。
でも、このような結果を出すしか無かった大人の事情がありそうなことも、
ちょっと試したら、微妙に分からなくもないような気がしてきました。
とはいえ、非常に有用な資源がぶら下がっている状態だと思うので、
研究用途に限り形容詞を網羅的に処理した結果を提供する枠組みを
用意していただけると、すごく嬉しいなぁと、感じました。
疲れたのでおしまい。
2008-03-20 Thu
『Redsun』 学習者の英語を対象としたローマ字語認識ツール
NLP2008で紹介されていたアプリ。Javaによる実装。
- Redsun: ローマ字語認識ツール
-- http://www.ai.info.mie-u.ac.jp/~nagata/tools/redsun/index.html
~nagata/tools以下に、他のツールもあるのでチラ見しとくと良いかも。

