2008-07-04 Fri
IIR (Introduction to Information Retrieval) 勉強会 #10
今日は IIR (Introduction to Information Retrieval) 勉強会の10回目。
- Introduction to Information Retrieval
-- http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
今までの復習資料(by naoyaさん)は以下です。
# いつもいつも良い感じの資料です。是非ご一読を!
http://bloghackers.net/~naoya/iir/ppt/
9章の今回「Relevance feedback and query expansion」は、
適合性フィードバック(関連フィードバック、関連性フィードバック)とクエリ拡張がテーマ。
# そのままですね。
いつもどおり、メモだけですが貼っておきます。
9.1 Relevance feedback and pseudo relevance feedback グローバルメソッド 全体のデータや、他の資源をもとに拡張や変形をおこなう ローカルメソッド クエリにマッチした文書を元に拡張や変形を行なう 適合性フィードバックの典型的なシナリオは以下のような感じ。 ・ユーザから与えられたクエリを元に、システムが検索結果を返す。 ・ユーザは検索結果が自分の意図と関連してるか、していないかをマークできる。 ・システムはユーザのフィードバックに基づいて、文書のスコアを再計算する。 ・再計算の結果、上位に来た文章のセットを再度提示する。 イメージサーチは適合性フィードバックを有効活用できる好例。 9.1.1 Rocchio algorithm 適合文書ベクトルの重心と不適合文書ベクトルの重心の差の 大きさでシステムの検索結果の質を評価しようとすると、 適合文書集合が全て分かっている必要があるので、 この手法は現実には利用できない。 ということでRocchio algorithmを使う場合が多い。 良くあるパラメタは、α=1、β=0.75、γは0.15 一般的に、適合フィードバックは不適合フィードバックよりも より良い結果を得るのに役立つのが知られている。 不適合フィードバックについては、不適合のうち 提示した順序の中で一番上位のものを見ると良いでしょう。 9.1.2 Probabilistic relevance feedback Naive Bayes統計モデルを使うのが良いかも。 文書xに単語tがあらわれる時をx_t = 1と表す。 x_t = 1となる確率を考えてみる。 P(x_t = 1)の時は、以下のような2通りである。 P(x_t = 1 | R = 1) = |VR_t| / |VR| P(x_t = 1 | R = 0) = (df_t - |VR_t|) / (N - |VR|) まぁ、詳しくは11章と13章に丸投げ。 9.1.3 When does relevance feedback work? RF単体では、効果的ではないケースは以下の3つ 1、ミススペリング。ユーザがミスしたらどうしようもない。 例、マリオが乗っかるYoshiをYossiで検索してもね。 2、言語横断検索。違う言語で書かれている文書は、同じ単語が同じ表層で書いてあっても、 ベクトル空間で離れる。 例、chocolate、チョコレート 3、文書コレクション検索者の語彙のミスマッチ。 そもそも文書がヒットしない場合がある。 例、たとえばrelevanceを適合と訳すか、関連と訳すか とはいえ、RFはユーザに気に入られるか分からない。 9.1.4 Relevance feedback on the web RFはあんまりWeb検索で使われなかった。 RFは平均的なユーザに説明しづらい。 RFは再現率を高めるアプローチ。 ほとんどのユーザは、検索結果のTop10しか見ない。 いろいろシステム側にとって辛い条件が揃っている。 9.1.5 Evaluation of relevance feedback strategies 適合フィードバックは、ユーザがフィードバックを行なう際に 使った文書は評価に使わないべきである。 そうすると2回目の評価セットに、適合する文書が含まれる数が減ってしまい、 良い評価結果がでないのは自明な感じがする。 そのため単純にはRFがある場合と無い場合の違いの評価は難しい。 その不具合に対処するには、最初から文書セットを2つに分けると良いかもしれない。 RFに関する評価の際には、ユーザに対して検索時間に関する調査をすれば良いかも。
9.2 Global methods for query reformulation 9.2.1 Vocabulary tools for query reformulation どのような仕組みによるかは手法により様々ですが、 検索システムが、検索語を推薦することで、ユーザが 文書集合に含まれる、検索に使う上で良い語を見つけられるのは便利。 9.2.2 Query expansion クエリ拡張の単純な方法はシソーラスの使用。 同義語や類義語を利用し、それらの語に、オリジナルの語よりも 低い重みを割り振り、クエリを構築するのは基本的な手法。 YahooやGoogleでも、クエリをユーザが対話的に拡張できる。 PubMedは自動的にクエリを拡張する。 クエリの拡張を自動的に行なうか、対話的に行なうかは、 目的や用途によって違うし、ユーザ層によっても買えるべき。 クエリ拡張には、人手で構築したシソーラス、 自動構築した共起ベースの統計的に自動構築したシソーラス。 クエリのログ、などを使うことが考えられる。 ユーザの入力は未だに必要なもの。 9.2.3 Automatic thesaurus generation 単純には、語の共起を使う。 共起頻度を見つかる語の大半について計算しておくのがシンプル。 より頑健な手法としては、文法構造(関係、依存構造)を使うと良い。 語と語の類似度は、単語-文書ベクトル間の内積を計算することで算出できる。 18章ではLSIについて言及するよ。 いろいろあったけど、まー、クエリ拡張の方がユーザが理解しやすいと思うけど、 疑似RFの方が効果があるような気がするなーということを主張してる。
輪読終了後に、関連する話題について、たつをが話してくれました。
たつをさんのトーク。 シンプソン係数を10万語に対して算出したいとき 10万×10万回の計算をするのは無茶。 ある語に対するWeb検索のスニペットから、計算する語の候補を得て、 それらに関する計算だけを行なうとリーズナブル。 とはいえ、こういうやり方より言語構造を使って抽出するのが、一番楽。 語と語の間の関連性が何かも、言語構造から探すと良い。 でも関係性は一般的に爆発するので、対処が必要。 検索ログをみんなが使えないからWikipediaを使うのが良いのでは。 スパムメールの判定を例にNB分類器の話を。
あと、13回までの担当者がきまりましたー。
2008-07-01 Tue
スタジオ・ジブリ レイアウト展が開催中
いやー、すっかりブログの書き方を忘れまくってます。
画像の縮小用のスクリプトがどこにいったのか分からなかったのは凹みました。
今、いろいろ思い出しながら書いているところです。まいったなぁ。
ところで、東京都現代美術館で、スタジオ・ジブリ レイアウト展を開催しているみたいです。

- スタジオ・ジブリ レイアウト展
| 会場 | 六本木 東京都現代美術館 |
| 開催間 | 2008/07/26から2008/09/28まで |
| 休館日 | 月曜休館(ただし8月11・18日、9月15・22日は開館) |
| チケット | 日時指定の予約制。ローソンだけで買える。 |
| 料金 | 大人1200円 |
| 開館時間 | 10:00 - 18:00 |
ちなみにレイアウトとは何でしょうか。
- 「スタジオジブリ・レイアウト展」開催のお知らせ
-- http://www.ghibli.jp/10info/004840.html
1974年のアルプスの少女制作時に、高畑・宮崎監督が初めて本格的に導入した
システムなのだそうです。
つまり、今回のレイアウト展は、あの名作の設計図を拝めるわけですか。
行きたくなってきました。
実際に見に行く方は、テレビ局による公式ページも見ておくと良いと思います。
このURLからして、このページはそのうち消えてしまう可能性が高いですが。。。
- NTVのスタジオ・ジブリ レイアウト展公式ページ
-- http://www.ntv.co.jp/layout/
【関連ページ】
- 東京都現代美術館
-- http://www.mot-art-museum.jp/
2008-06-27 Fri
インテル ブロガー・ミーティング - インテルプロセッサーの歴史
chumbyの件もほとんど片付いたし、ということで、イベント参加の自粛も解除。
今日は、有楽町のインテル株式会社で開催された、ブロガーミーティングに行ってきました。
感想から言うと、イベント自体とても楽しかったです。
個人的には、今回のようCPUに特化したマニアックな話でも楽しめます。
また次回のミーティングが開催されるのをwktkして待ってます。
イベントでは、プロセッサーの誕生から最近のCentreno Atomプロセッサに至る
インテルプロセッサの歴史を技術部長の土岐英秋さんがプレゼンしてくださいました。
土岐さんは、8/2,8/3に開催される、Intel Akibaというイベントでも会えるそうです。
探し出して、自分の思い出のCPUに関するエピソードを聞き出してみてはどうでしょう。
インテルプロセッサーの歴史
プレゼンが面白かったので、以下で印象的な部分をご紹介。
zigsow.jpにiA Legendというページがあって、そこをみると詳細が書いてあります。
- iA Legend : zigsow.jp
-- http://zigsow.jp/?m=mus&a=page_entrance&museum_id=1
Pentiumはi486より遅い!?
Pentiumは発表当初の動作周波数が60MHz。一方i486は動作周波数が100MHz。しかも、Pentium発表当初に利用可能だったアプリは、Pentium用に再コンパイルしないと最適化が不十分で、i486上で動作させた方がパフォーマンスがよかったり。ということで、Pentiumはi486より遅いと思われてた。
Pentiumは電気を食いまくるCPUだった
Pentiumは消費電力が10MW。今聞くと、そうでもないけど、当時の10Wは強烈。
バックサイドバスって聞いたことある?
1997年に、インテルMMXテクノロジーPentiumプロセッサが発表された。
近年のCPUは、2次キャッシュメモリ用のバスとCPUバスは独立している。
しかし、Pentium以前のプロセッサはCPUバスに接続されている2次キャッシュ・メモリをもっていた。
その2次キャッシュを接続しているCPUバスをバックサイドバスと呼ぶそうだ。
聞いたことの無い単語だったので、新鮮/
1997年と言えばスロット1
Pentium2やPentium3のスロット1版は、自作PC最盛期のころに激売れしたそうです。
2003年には、インテルcentrinoモバイルテクノロジーが発表。
Banias(バニアス)というコードネームで開発されたPentium Mは、
モバイル用に開発されたプロセッサでしたが、
エネルギー効率がかなり良く、自作デスクトップマシンに乗せてた人も多いはず。
周波数は低かったけれど、倍以上の周波数のものと同様のパフォーマンスだったなぁ。
2005年4月にようやく、デュアルコア時代
2005年4月にデュアルコアCPU、Pentium Dが発表された。
トランジスタの数は2億3000万から3億7000万個。
続いて、インテルCore Duoプロセッサーを発表。
コードネームはYonah(ヨナ)。
ヨナは完全に32bitだった。
2006年7月に、インテルCore2 Duo
Merom(メロム)。現在でも主流。
2006年11月についにQuad Dore
QuadコアのCPUは、高すぎてあこがれのまとを超えていた。
2007年11月に45nmプロセス化
45nmプロセスに基づく、インテルCoe2Duo Extreme プロセッサーを発表。
高速化のための微細化をすると、漏れ電流が大きくなる。
よって小さくするとパフォーマンスが出にくい。
が、このころにリーク電流対策がめちゃめちゃ進化。
その後は
2008年1月に45nmプロセスのインテルcore2quadプロセッサー
4月にCentreno Atomプロセッサー。これは世界最小。
という流れ。
そういえば、CentrenoのCMに出てくる怪しい鳥ですが、
結構前に、インテルの担当者の方がWebにアップしていたのかも。
なんだか分かりませんが、続きが見てみたい気もしますね。
- 続きはWebで。
-- http://www.intel.co.jp/jp/personal/campaign/promotion/index.htm#weekend
イベントで土岐さんのプレゼンを聞きながら、
「あー、286に下駄履かせたなぁ」とか、
「スロット1のCPUは、自分の中のCPUのイメージと違う形で驚いたなぁ」とか
「自作用にPentium3を買ったときにはスロット1時代が終わっていたなぁ」とか
「モバイルセレロンは激遅くて泣きそうだったなぁ」とか、
いろいろ思い出しました。
また、機会があれば是非参加したいです。
次は何かな。EtherNet用のカードの話とかですかね??
2008-06-22 Sun
IIR (Introduction to Information Retrieval) 勉強会 #09
今日は IIR (Introduction to Information Retrieval) 勉強会の9回目。
- Introduction to Information Retrieval
-- http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
今までの復習資料(by naoyaさん)は以下です。
# 良い資料です。是非ご一読を!
http://bloghackers.net/~naoya/iir/ppt/
今回の、8章のテーマは「Evaluation in information retrieval」です。
検索エンジンの出力結果を評価する際の手法や指標に関するお話です。
7章が、検索結果として出力する結果のスコア算出法に関してだったので、
次はそれだろうなぁ、と思います。
---- 7章の復習 - 基本はcos類似度 - cos類似度の計算量を削減する工夫が必要 -- 内積計算の積算を加算に --- クエリもベクトルとして扱える ---- 0,1で次元を構成して単位ベクトルにする? ----- クエリくらいなら内積を計算せず、スコアを足すだけで良い。 -- ソートにはヒープを使おう --- ヒープに格納しておけばTopKを、より低いコストで取得できる -- 計算対象の文書を事前に削減する --- 人間に重要そうな記事を残す ---- 全ての文書より遥かに少ない数まで絞る ----- 転置indexを使う ------ クエリの単語群からidfの高いものだけ残す ------- 紐づく文書も大量に削除できる ----- 残ったidfの高いクエリを、全て同時に含む文書だけ取得する ------ posting listの中から、最もらしいr個を求める手法 ------ tfの閾値を決めて、足切りする -- 足切りし過ぎに気をつける -- 計算のIterateを減らす --- posting listをtf順に、クエリをidf順にソートしておく ---- tf順のリストを閾値で切る ----- tfの値の変動が高い間だけ取得する ---- 重要なクエリから処理する ----- これ重要 ---- 欲しい量が集まったらおしまい - Tired index -- tfの閾値ごとにindexを分けておいてFall Backするとか - Query term proximity -- クエリの単語の、文書中での距離が近いとスコアが高い、とか - 構文解析 -- 単純なところだと、ABCというクエリを、ABC, AB, BC, - スコアリング -- スコアはさまざまある。どうやって統合するか。 --- 手動でも良い --- でも機会学習でやった方が良いだろう - ベクトル空間法と今まで勉強してきたindexの間には使えるものと、使えない物があるよ。 ---- 8.1 情報検索システムの効果の評価 必要なものは - 文書コレクション - テスト用のクエリなど - 評価方法 -- 関連しているか、していないか これらを使うような手法を、gold standardとかground truthと呼ぶ。 クエリとユーザの要求が完全に一致しなかったり、 ユーザの要求に最適なように結果をしぼりこめなかったりする。 # python -> プログラミング言語、動物 inside data(学習データ)とoutside data(評価用データ)を分けよう。 交差検定とか。 学習データでチューニングして、学習データで評価したら 良い結果になるのはあたりまえ。 8.2 標準的なテストコレクションの紹介 - Crabfield -- 小さいコレクションなので、適合性い関する評価がきちんと行なわれている - TREC -- indormation needに対して、文書コレクションから、抽出する手法を作成する - GOV2 -- 巨大 - NTICIR -- アジアの言語横断のテストコレクション - CLEF -- ヨーロッパの言語横断のテストコレクション - REUTERS -- ロイター - 20 Newsgroups -- テキスト分類のテストコレクション 8.3 ランク付けされていない検索セットの評価 適合率の定義 : 検索結果中の実際に適合している文書 再現率の定義 : 検索結果中の適合した文書数が、文書コレクション中の適合する文書を被覆する割合 判定の種類の呼び方。
| |relevant | nonrelevant | |
| retrieve | true positive(真にPo) | false positive(間違ってPo) |
| not retrieve | false negative(間違ってNe) | true negative(真にNe) |
検索結果は、適合率も重要になる場合もあるし、 適合率が重要になる場合もある。 一般には適合率を重視すると良いだろう。 適合率と再現率はトレードオフ。バランスが大切。 加重調和平均をみてみよう。式8.5。 F-measure。 頻繁に業界標準なF値は、F_B=1 = 2*P*R / (P + R)。式8.6。 調和平均の妥当性は図8.1を見ると分かる 8.4 ランク付けされた検索結果の評価 interpolater precisionを使う。 再現率を一定以上に固定された状態での、適合率。 たとえば、検索結果の評価では、一定の再現率を満たすように 検索結果を出力して、その検索結果の適合率を測定する。 現実にも、検索結果の1ページ目がそこそこの結果なら、 欲しい結果が1ページ目になくても、検索を続けるだろう。 評価時には、あまり細かいinterpolater precisionを使わず 0.1刻みで11点で測定するのが良いだろう Precision at k : k個とった時の適合率。文書セットのサイズは確定してなくても良い。 R-precision : 上位R件の時点の適合率。文書セットのサイズが分かっている必要がある。 Break even point : 適合率と再現率が等しくなる点 DCG : 検索検索の出力結果のランキングが、指標の値でソートされた場合に近いのかを判断する nDCG : さまざまな検索課題に対するDCGの平均 8.5 関連度の付与 検索結果と人の判断の一致度は興味深い。 Kappa値を良く使う。 k = (P(A) - P(E)) / (1 - P(E)) P(A) = (true positive + true negative) / document size P(E) = P(positive)^2 + P(negative)^2 P(positive) = (false negative + true negative) / 2 * (document size) P(negative) = (true positive + false positive) / 2 * (document size ) 例えば、2人のアノテータの一致度を計る。 2人の判断がばらついてたら値が低くなる。 よって、タスクの難しさなども測定できるよ。 8.6 より広い評価 8.6.1 システム的な指標 - indexingの早さ - 検索可能になるまでの早さ - クエリ言語のコスト - 文書コレクションの大きさ 8.6.2 ユーザビリティ的なことはほっとく。 8.6.3 既にデプロイされたシステムの改良 ユーザからのクリックによるフィードバック。 1から10%くらいの割合で、クリックログを得るための検索結果にとばす。 A/Bテストは、説明しやすい評価指標としてよく使われる。 8.7 スニペット スニペットにはクエリに依存するものと、依存しないものがある。 前者のような静的なスニペットは、metatagなどから作る。 NLPを使って、オリジナルの文書から内容を良く表す文書を抜き出す。 高度に、文書の要約や校正などもすることはできるけど、研究じゃなければやらない。 keyword-in-context (KWIC) snippetsというものがある。 検索キーワードの左右のコンテキストを示す。 その際に、ユーザのための工夫を、NLPなども交えておこなう。
- 英語例文検索 EReK
-- http://erek.ta2o.net/s/factor%20out.html
スニペットの生成は高速じゃないといけない。 大半の文章と、巨大な文章の主題や主要な話題を高速にキャッシュするには、現実問題、10000文字くらいの間にあるのではないか。 おしまい
2008-04-05 Sat
ブログ合宿 08春 (秋元の春) 2日目
昨日の夜から、ブログ合宿 08春 (秋元の春) に来ています。
早いものでブログ合宿も4回目ですね。
2008-04-02 Wed
インテル・ブロガーミーティング
インテル・ブロガーミーティングに参加させて頂きました。
参加者のほとんどの方が顔見知り、または、どこかで見たことがある、
または、面識が無いけど僕は顔を存じてる、という人ばかりでした。
今月はブログディナーに行かなくても良いかも、と思うような顔ぶれでした。
内容は、インテルの製品に関するプレゼンテーションと、
軽食を頂きながらのグループディスカッションでした。
実は、ミーティングの主旨は参加していても分からなかったです。
ある程度の事前説明的資料は配布されていましたが、
会場には、インテルの新しい製品を搭載したマシンは試作機しかないし、
試作機には電源を入れられなかったのです。
なかなか、電源を入れられる動作可能な端末を用意するのは難しいと思います。
でも、もしも、会場に電源を入れて自由に扱えるデバイスが無いと知っていたら、来なかったブロガーも居たのではないかと思います。
ブロガーが何に期待して、やってくるのかを考えて、
無い物は無い!と事前に伝えて頂けると、すれ違いは少ないと思いました。
ただ、よくよく考えてみると、誰が来るのか分からない状態で、
インテル側としては何か思い切ったことができないし、様子見だったのかもしれません。
インテルのブロガーに対する気遣いは異常なまでに手厚かったし、
なにが起こるのかなぁと、ちょっと怖さを感じたりもしました。
最終的には、今回のミーティングだけに絞って考えると、
新しい製品の紹介をブログ界経由でしたい、のかなと思いました。
個人的には面白かったので紹介してみます。
Intel Centrino Atom プロセッサー・テクノロジーの紹介
今回はIntel Centrino Atom プロセッサー・テクノロジーという、
新製品の紹介がメインの内容でした。
プレゼンの冒頭に、生シリコンウエハーを見ることができました。
かっこいい!枕元においておきたい!
これがマイクロプロセッサーの中に入るんですよね。
すごいなー。
インターネット利用の変化に追従するべく、
インテルは今日、モバイルインターネットデバイス(MID)用の製品を発表したそうです。
その名も、Intel Centrino Atom プロセッサー・テクノロジー!
より小さく! より省電力に! より速く!
4700万個のトランジスタが入ってるのに、こんなに小さい!!
すげええええええ。
Atom は Core 2 Duo との互換性もあるそうです。よかったよかった。
MIDやPCだけでなく、インターネットタブレット。ポータブルナビゲーション、ポータブルテレビ、ポータブルゲーム機などにも、今後搭載されるそうですよ。
僕は、今後、数字ボタンの携帯電話が主流モデルから駆逐されて、
MIDが普及する時代が来ると思っているので、夢が膨らみました。
グループディスカッション
グループディスカッションは、
「モバイルインターネット端末を、家族や、社会で使う上での、新しい使い方を考えよ」
という内容でした。
電源が入れられないけれども、外装は見ることができる状態の
モバイル端末群を眺めながら、グループで使い方を考えました。
軽食を頂きながら、楽しく議論し、内容を全体で共有しました。
今回のミーティングはこれで終了。
個人的には楽しめましたので、また機会があれば絶対参加しまーす。
2008-03-23 Sun
2008-03-21 Fri
nipotan nite と nagayaman 送別会は一応昼12時で締め切った
id:nipotanとid:nagayamaを送る会は、昼12時締め切られました。
詳しくは以下。
- [O] 【締め切りは3/21昼12時】nipotan nite & id:nagayama送別会開催のお知らせ
-- http://overlasting.dyndns.org/2008-03-18-1.html
2008-03-21 Fri
YAPC::Asia 2008 の公式サイトでスポンサーとスピーカーが公開に
YAPC::Asia 2008 の公式サイトがリニューアルしたのと同時に、
スポンサーとスピーカーが公開になりました。今年もかっこ良いデザインです!
- YAPC::Asia 2008 - May 15-16th in Tokyo, JAPAN
-- http://conferences.yapcasia.org/ya2008/

今年も多くのスポンサーに支えられ、さらに多くのスピーカーが参戦してくれます。
志の高いみなさんが、すごい勢いでイベントに足を運んでくれでしょうし、
きっと最高のイベントになるのでは。わくわくしてます。
チケットの販売開始はもうすぐみたいですから、うっかり忘れないようにしてくださいね。
チケットを購入してくださる方は、「チケットがうっかり不要になったら、頑張って他の人に譲るぜ!」という気持ちで購入して頂けると、「残念なことにチケットを買えなかった人」が、たくさん救われるような気がして嬉しいです。
ボランティアスタッフも、まだ若干名ですが募集していると思います。
僕はYAPCで多少人生が変わったので、変わろうとしている方にボランティアで貢献することをおすすめします。
YAPC::Asiaまで、あと2ヶ月を切りました。
5/15、 16付近はスケジュールをバッチリ開けておいてくださいね。 m(_ _)m
2008-03-20 Thu
言語処理学会第14回年次大会(NLP2008) 3日目
言語処理学会の全国大会の3日目に行ってきました。
午前は固有表現抽出のセッション中心。
- NLP2008 program
-- http://nlp2008.anlp.jp/program.html#C2
-- 18日〜20日(本会議)
-- 21日(ワークショップ)
- 会場: 東京大学 駒場キャンパス 5号館, 13号館
D4-5 単語正規化による固有表現の同義性判定手法 高橋いづみ, 浅野久子, 松尾義博, 菊井玄一郎 (NTT)
- 同義性判定のために、同義語を分類
-- 表記と、その読みから推測可能なもの
-- その他の知識が判定のために必要
- 前者は同義語の9割を占めると分かったので、前者に着目
- 派生方法は、表記変化、表記の追加、省略の3要素の組み合わせで起こる
- これらの派生過程が起こったのかを3ステップで判定
-- 表記の追加は、ルールでカット
-- 表記変化は音素数が同じ語を、ルールを使い比較
-- 省略は、省略後の語が省略前の語に包含されるときに、SVMで判定
--- SVMの素性は、省略前と省略後の差異を使う
- 正規化によっと、読みまたは、読みの長さが同じものだけ判定したため、既存の研究より精度を向上できた
D4-6 カーネル法を用いた意味的類似度の定義とブートストラップの一般化 小町守 (NAIST), 工藤拓 (Google), 新保仁, 松本裕治 (NAIST)
- ブートストラップと教師無し学習の組み合わせ。
- ブートストラップによるインスタンスの獲得は、生成パターン次第では。意味ドリフトが起きる可能性がある。
- 入り組んでるので論文読め。
B4-7 言語パターンを用いた検索クエリによる単語間の上位・同位関係の抽出 荻原由紀恵, 山下達雄, 前澤敏之 (ヤフー)
- 辞書にあるキーワードAと関連するキーワードBを探す
- 同意、上位、優勢の3パターンをクエリから言語パターンを使い取得する。
- 同意語と上位語は排他的である。
- パターンの重みに手作業で検出した精度を用いる
- Aは辞書ベースの最長マッチによる検出だけど、B
-- 山下氏が「Bも辞書ベースの最長マッチによる検出」と教えてくれました。
# 山下氏の補足により無意味な考察に。
A4-8 Nグラム検索エンジン -Google日本語7グラムを使って- 関根聡 (NYU)
- コーパスベース知識工学という分野
-- 近傍コンテキストを使った知識獲得
--- 精度の高いパターンを、大きなサイズのコーパスに適用するとおもしろくなるのでは
- 巨大なサイズのコーパスを使うと、計算量が。。
- n-gram(5から9)に対する検索システムを提案
-- 任意のワイルドカードを含むn-gramの検索
-- ワイルドカードの中身を返す
-- 頻度も返す
-- 1台のPCで動く。メモリは4Gだけ使う。
- 実装
-- 逆インデックスとトライ構造では?
--- 逆インデックスは高頻度単語に弱いの
--- トライだとワイルドカードに弱いの
-- n-gramのワイルドカード位置は限られてるから、トライを全部作ればいい
--- でもサイズが増えすぎるわ
-- そこで工夫
--- サフィックスを縮退、開始位置を任意にする12T->4.7T
--- 更新が不要なので、いらないノードを削る4.7T->2.9T
--- 単一末尾の削除(0.5T)
--- トライを分割したりMMap使ったりして、頑張ってメモリに乗せる
-課題
-- 任意数のワイルドカードへの対応
-- 論理演算子の使用
-- 形態素解析器への依存問題(どんなn-gramができるかは形態素解析器次第)
-- 小頻度パターンの問題(低頻度語も欲しいよ)
-- 幅広いコンテキストも見たくなる(前後も見たい)
-- インデックス作成の簡易化、軽量化
- 質疑
-- 世の中のコンテキストからの知識獲得には9-gramくらい必要だから
-- トライを分割してるので、トライ間の共通構造はまとめられている
-- ワイルドカードをポインタで持つと非効率だからやらない
# 完全に実用的な発表で面白かった。
午後は移動が面倒なので、マイニングセッションにいる。
C5-1 綴り誤りに対してロバストなローマ字語のマイニング手法 永田亮, 掛川淳一 (兵教大), 杉本洋美, 籔田由己子 (教育測定研究所)
- 英語の初学者の書く英文には、英語に混ざるローマ字語(日本語)が多い
- ローマ字語は母音か子音nで終わるし、母音の後には子音が来る
- 綴り誤りは問題だが、とりあえず横においとく
-- そうすると、簡単な正規表現でローマ字語っぽいものを見つけられる
- tri-gramベクトル空間でk-means。
- 英単語のセントロイドは辞書。ローマ字のセントロイドは正規表現。
- 謎の単語および、つづり誤り語を英単語とローマ字語に引っ張る
- 提案手法は精度80%以上で英単語とローマ字語を分類できた。
- ローマ字語を英単語は、英単語に良く似ている
- 英単語をローマ字語に認識する語は、綴り誤りが大半。英語じゃない外国語も間違う
- ツール公開してますよ。
-- http://www.ai.info.mie-u.ac.jp/~nagata/tools/
C5-3 トラブルを見つける De Saeger Stijn (NICT), 鳥澤健太郎 (JAIST)
- 人工物やものの正常な利用や楽しみ方を妨げる要素
- 検索エンジンで見つけられない
-- 例、「餃子 残留農薬」「遊園地 慎重制限」
- 物の利用コンテキストでトラブルにやすい実体の組み合わせを取得
-- 関連抽出タスク
--- 例、<自転車、雨>
-
-- トラブルの下位語の自動的な獲得
--- 構文パターンを使う「Xのようなトラブル」「X以外の障害」
--- 曖昧な表現は取り除く「バッテリーの障害」
--- バッテリーのなんだよ!
-- 係り受け情報
--- 否定形の動詞との係り受け関係
--- 仮定形の言語パターンを利用
--- 「Xで->否定形の動詞」というパターン
--- 助詞「で」の多義を解消するには、肯定形も見る
--- 肯定形の言語パターンを利用
--- 「Xで->肯定形の動詞」を否定的な証拠として考慮
- トラブル表現の抽出のための学習
-- 上記の3つの特徴を全部SVMに突っ込む
- トラブルと組み合わさる実体を探す
-- 言語パターン「実体のトラブル」を新聞コーパスの中で500回以上出現する名詞を実体候補とトラブルを組み合わせてつくり、それらを相互情報量でランキングする。
-- 「実体のトラブル」が見つかったら、トラブルが否定形の動詞と係り受け関係にあるかどうかを確認する。係り受け関係がなければ候補から外す。
- 評価してみると、60%の実体とトラブルのペアは正解だった。
C5-4 経験マイニング:Webテキストからの個人の経験の抽出と分類乾健太郎, 原一夫 (NAIST)
- 経験マイニングはまだまだ十分なんだ
-- 典型的なのは評判を抽出すること
- 意見評判以外にも、経験を抽出したいんだ
- 経験情報を膨大なUGCから抽出するための、意味解析技術を開発し、情報を意味的に索引付けする
- 経験をマイニングするには3つの意味解析が必要
-- トピックと経験主の同定
-- 事態タイプの分類(いいこと、わるいこと、とか)
-- 事実性情報の解析(ほんとにやった、やろうとしてる、とか)
- 上記の3つの解析は別に新しくないよね。できたら応用できて嬉しいでしょ?
- デモ
-- 興味ある、興味なし、欲しい、買った、使った、良く使う、満足、不満
-- とあるサイトの一連の記事に対して、解析を適用し、経験の時系列的な変化を掴むことで、お金につながる
- Synchaを使うといいんじゃない
- 事態表現「名詞+助詞+述語」の評価極性
-- 大半は名詞の極性で決まる
- テンス・アスペクト・モダリティ
- 事実性は「事態の時間情報(+時制) + 話者の態度(+時制)」で表現できる
-- Fanctional CRFで解けそうだ
--- 現状では7割超えは余裕でできていて、いい感じな雰囲気が出てきたよ。
- マーケティングや地域のトラブルの収集に使えそうだ
C5-5 "商品カテゴリ"および"取扱店舗"の統計情報を用いた商品タイトルに含まれるフレーズの重要度判定 前澤敏之, 山下達雄, 荻原由紀恵 (ヤフー)
- 本当は商品の名寄せをしたいんじゃ
- JANやISBNで名寄せすると、幅が狭い。
- なので大量のWebデータを活かせるようにテキストベースの名寄せをする
- 手法概要
-- 商品タイトルを分割してバラバラにする。
-- バラバラにした塊単位の類似度をみれば、名寄せできそうだ
- 実際には商品タイトルには、商品タイトルと関係ない塊が多く含まれる
- 重要度の高いシードと重要度の低いシードがある、と仮定すれば良くないか
- シードフレーズとノイズフレーズの概念、シードの重要度の概念があれば、より良く類似度を算出できるはずだ
- 事前にノイズとシードのリストをつくればいいよね
-- 手法
- 機械学習手法による、ノイズシード比
-- Voted Perceptronを使う
--- 入力、フレーズ
--- 出力、シード or ノイズ
- フレーズとは 「名詞形態素の連続」「記号を含まない(記号を無視した?)形態素の連続」
- 学習素性
-- 入力店舗が同じ場合、共通のノイズが出現する
-- 入力店舗が異なる場合、共通のシードが出現する
-- ということで、ストアとカテゴリのDFを考えてあげれば良さそう
-- フレーズDF比 = ストアDF / カテゴリDF
- シードの判定精度は9割、ノイズは6割程度
-- ノイズリストは少ない。なので、リストからノイズじゃないのを人手で削除すればいいよ
- 学習時のラベルは、シード、中立、ノイズの3値。
- 今後は実際に名寄せする
- ?
-- 学習時に未知のフレーズってどうなるの?とくにシード。
2008-03-19 Wed
言語処理学会第14回年次大会(NLP2008) 2日目
言語処理学会の全国大会の2日目に行ってきました。
とりあえずは、午前の要約セッションだけ。
- NLP2008 program
-- http://nlp2008.anlp.jp/program.html#C2
-- 18日〜20日(本会議)
-- 21日(ワークショップ)
- 会場: 東京大学 駒場キャンパス 5号館, 13号館
C3-5 要約文の選定による用例利用型要約の可読性向上 牧野恵, 山本和英 (長岡技科大)
- タイトルを構文解析を使わない統計に基づく文短縮手法に変更
- 構文解析結果を模した単語重み付け(IPDW)
-- 主語が出やすい文の先頭付近と、述語が出やすい文末付近の重みを高める
- 言語モデルによる処理(PLM)
- 一般的なnグラム確率は長短ざまざまな長さを含むコーパスで計算される
- しかし、大量の原文およびその短縮分があれば、言語モデルを構築できる
-- 語が隣り合うなら1, となり合わないなら巨大コーパスのbi-gramを使う
-- POSのbi-gramも素性に入れるよ
- 2つの要素をくっつけて、λを誤り最小化学習を行ない決める
- 人間が正解を作成する際に、その短縮率をあらかじめ0.6に指定した
- IPDWとPLMは両方とも有効だが、これらに係り受け確率を混ぜると結果が悪くなる
- 結果的には、構文解析を保存しない文短縮が実現できている(かも)、と思われる
- 速度的には係り受け解析を利用する場合に比べて3倍早い
- 学習された混合正規分布は、日本語と英語で全然違う形になる
-- 主語述語の出る位置が違うから
- 体現止めに有効じゃないかもしれないPLM以外に、IPDWを使ってる
-- 細かく見ると微妙かもしれないけどなぁ
C3-5 要約文の選定による用例利用型要約の可読性向上 牧野恵, 山本和英 (長岡技科大)
- 人間は単語の重要度を考慮した要約をするとは限らない
- 複数文の情報を含んだ要約文が機械的にできるとは限らない
- 重要度の決定を行なわずに、複数文の情報を含む要約文をつくる
- 類似用例文を獲得し、類似用例文と入力文の文節を、1対多で対応づける。
-- 入力文の文節を助詞、固有表現タグ、単語類似度の観点から類似用例文の文節に対応づける
- 対応文節の組み合わせ
-- 要約文である類似用例文と入力文を対応付けし、エッジを引くと、ラティスを作れる
-- ノードには、文節の対応付けに使った要素を用いたスコア
-- エッジには文節間距離を考慮したスコア
-- 類似用例文と対応するノードを通り抜けたときに、スコアが最大になるようなノードを入力文から順に抜き出してシーケンスを構成する
- 可読性と内容適切性が、既存研究より良かった。
- 要約文の選定
-- 上位10件の要約を選定し、その中から考案した尺度に基づきより良い要約文を選ぶ(ランキングする)。
-- 10件の中から選定した方が、よりよい要約文を選ぶことができた
- 文をまたぐ場合のような、文節間距離が長い文節も取得できている。全体の80から60%の文は2文以上の内容を含む要約文だった
- 入力も用例もニュースであったためにうまくいった。似た用例分をもってくるのが難しい。
C3-6 HTML文書からのリスティング広告の自動生成 幾島克洋, 藤田篤, 佐藤理史 (名大), 横川睦, 岩本宜式, 片岡亮 (リクルート)
- リスティング広告は、キーワード、タイトル、説明文の3要素から構成される
- ページの内容を良く表すキーワード、キーワードを含むタイトル、ページの内容を表す説明文
- 要約や抽出につかう、語の重み付けはTF-IDF
- メタタグやタイトルタグ中の語のTF-IDF値をみて、キーワードを選定する
- タイトル、キーワードと含む名詞句と動詞句を抽出する、言い換えるなどして、タイトル生成
- 本文の構文情報から文節対を抽出し、TF-IDFと関係によってランキングする
-- 動詞関係に最も強い重み
- コアの一方をもつ文節対も集め、全体で35文字以内になるように構成する
- 実験を実際に検索サイトに出稿して評価。
- 自動生成の1文目に加え、2文目に人手による説明文を追加した
- 50%程度の提案手法による広告は既存のテンプレートベースの広告より性能がよかった
- キーワードが与えられた場合には、一つのキーワードごとに要約文生成をする
- 先生が出てきてしまった
- 個人的には人間による説明文を加えなかったときにどうなるのか知りたい
C3-7 13文字で何が伝えられるか:ウェブニュースボックス見出しの分析 佐藤理史 (名大)
- 13文字で何が伝わるのかな
- どうして短いのに、効果的に機能するのか
- どんな見出しが優れた見出しなのか
- Webニュースの見出しの構造を分析し、以下を分析
-- 短さの実現方法
-- 見出しっぽさ
- ページデザインに依存する見出しには文字数制限がある。
-- サンケイ、goo、Asahi.comの見出しの長さを比較してみた
--- サンケイとgooなどweb系は11文字から16文字
--- 新聞はタイトルの長さ制限は無いが、15文字くらいが多い
- 共同通信の記者ハンドブックには、主見出し、脇見出しは12文字以内、3本目の見出しは11文字以内にするべきとかいてある
- そうすると、日本語のニュースを要約して10文字台前半の文字数で見出しをつくるのが目安
- 見出しは名詞句だけでなく、述語や述語相当の語を含む。文じゃん!
- 構成要素は2から4。代表的なのは3。より前の要素ほど情報量の多い要素になるように。
- 省略には、省略、短縮、助詞の削除、テンスの省略などある程度ルールがある。また思い切ってぶった切る場合もある。
-- 分からないことがあるおかげで、心をひくばあいもある
- 実は記者は、タイトルに基づいて本文を作っているんじゃないかなぁ。。。
- 記者は、目立つキーワードを選んでいるのではなく、組み合わせの意外性や、省略によるひっかかりなどを活用しているのでは
- スポーツニュースの見出しは、また別の話
2008-03-18 Tue
言語処理学会第14回年次大会(NLP2008)
言語処理学会の全国大会に行ってきました。
午前は用事があったので午後からです。
- NLP2008 program
-- http://nlp2008.anlp.jp/program.html#C2
-- 18日〜20日(本会議)
-- 21日(ワークショップ)
- 会場: 東京大学 駒場キャンパス 5号館, 13号館
終わったあと、若手の会の会合に参加してきました。
なんと言うか、奥の方の若手の方が、乾杯前に飲み始めたりしていて元気でした。
今回は若手70人集まった飲み会でした。
自然言語処理の若手が70人集まる飲み会は滅多にありません。
幹事の岡野原さん、おつかれさまでした。
2008-03-18 Tue
【締め切りは3/21昼12時】nipotan nite & id:nagayama送別会開催のお知らせ
あらためまして、こんにちは。id:overlast(としのり)です。
このたび悪ノリで、nipotan niteと言うイベントを開催します。
id:nagayama送別会も同時に開催いたします。
nipotan niteとは
id:nipotanこと谷口公一ことハハロロハムーさんを、ただただ囲う一大イベントです。
- にぽたん休憩所
-- http://d.hatena.ne.jp/nipotan/
イベント参加の申し込み方法は一番最後!!
開催期日
2008年3月25日に赤坂界隈で。
開催目的
目的につきましては、web業界の賈ク文和こと941さんの記事を引用します。
- nipotan nite(笑) 開催のお知らせ - 941::blog
-- http://blog.kushii.net/archives/50514967.html
なんと、id:nipotanが海外に行ってしまうです。
id:nipotanにお世話になった人や、id:nipotanにホルモン焼きに連れて行ってもらった人とか、id:nipotanに腕ひしぎ逆十時をくらった人とか、id:nipotanにマジックを見せてもらった人とか、さまざまな人が居るはずですよね。
だから盛大に壮行会を開こうじゃないかっ!、ということです。
皆さんふるってご参加頂ければと思います。
イベントの詳細
詳しくは以下のWikiに記載されています。
- FrontPage - nipotan nite(笑) - livedoor Wiki(ウィキ)
-- http://wiki.livedoor.jp/nipotan_nite/d/FrontPage
nipotan niteのIRCチャンネルもあります。
イベントに興味のある方はWikiは必ずご覧ください。
いままでIRCをやったことが無い方も、是非IRCをはじめてみてください。クライアントアプリケーションはLimechatがおすすめです。
にぽLT
当日はイベントがいくつか用意されています。
その一つとして、「id:nipotanについて語れる」という方に
「nipotanと自分」というテーマに沿ってプレゼンしていただくための、
LT枠を用意しました。
こちらもふるってご参加下さい。
id:nagayamaの壮行会も同時開催
id:nagayamaの壮行会も同時に開催いたします。
幹事2.0こと、nagayamanにお世話になった方も、nipotan niteにご参加ください。
申し込み方法
Wikiにも書いてありますが、僕は以下にあてはまる方を担当します。
- サブテカな方
- サブテカじゃないけどid:nipotanと親交のある方
- id:nagayamaにお世話になった方
Twitterでoverlastをfollowしてから、「@overlast nipotan nite(笑)参加したい!」と書き込んで下さい。
会場のキャパに限界があるため、希望された方全員の参加を受けることができないかもしれません。
参加の可否につきましては、Twitterのメッセージでお知らせいたしますので、Twitter的にご覧くださいませ。
開催期日が非常に近いですが、みなさま是非ご参加くださいませ。
【関連エントリ】
- zにぽたんぬぁいとぅ - Yet Another Hackadelic
-- http://d.hatena.ne.jp/ZIGOROu/20080318
- nipotan nite(笑) 開催のお知らせ - 941::blog
-- http://blog.kushii.net/archives/50514967.html
2008-03-17 Mon
ブロガー勉強会
最近ブログから遠ざかっていたので、リハビリも兼ねて、ブロガー勉強会に出てみました。
- 3月17日(月)ブロガー勉強会のご紹介 - Agile Media Network
-- http://agilemedia.jp/blog/2008/03/317.html
・開催日時 3月17日(月) 19時半~
・開催場所 パソナテックセミナールーム(渋谷)
・人数 40名予定
・ショートプレゼン (各自15分を予定)
・美谷さん(世界を巡るFool on the web) 「サムネイルを使った視覚的ブログのススメ」
・秋元さん(秋元@サイボウズラボ・プログラマー・ブログ) 「サラリーマンブロガー」
・湯川さん(湯川鶴章のIT潮流) 「会社公認ブログ誕生の背景」
・小野さん(小野和俊のブログ) 「Blogger Matrix by Blogger」
ブロガー勉強会
サムネイルの活用
- 見やすい、イメージが湧く、自分にとって情報が有効
- サムネイル作成サービスは一長一短。良いとこ悪いとこがある。
- 著作権を侵害しないように、テキストや画像が判別できない程度の大きさに。
- 動画の1枚サムネイルは一覧性が無いので、動画の断片をサムネイルした方が良さげだろう。
会社公認ブログの作り方
- 会社公認ブログは潰される可能性あり
- ある程度アクセスを集めるブログにしてしまおう。
- とことんとんがろう。変だと思わせろ。
- 周りの社員に脅威じゃないと思われよう。
- ネットのように「まともな記者は相手にしない人間」をホームに
- 半分の人間から批判、半分の人間から一目おかれるくらいが良い
- ブログの良いところは夢が叶うこと。
# やりたいことを書いて忘れるからだよね
Blogger Matrix by Blogger
- ブロガーは多様
- 着眼点、論理の鋭さ、情報収集の速度、更新頻度、専門性、批判耐性など、まざまな特徴を考えられる
- ネタはGoogle Docsを使ってストックしている
サラリーマンブロガー
- 研究員から広報宣伝担当・技術ブロガーになった。
- 読まれるブログを書く方法。
-- どうやって2年で読まれるブログになるためには。
1 読み手の知らないことを書く
-- 時に外れて自分のことを書くから良さげ
2 自分の伝えたいことを書かない
-- 毎日これ買ってあれ買ってでは誰も読まない
-- 宣伝は滅多に書かない
3 継続的に書く
-- 営業日に2エントリづつ書く
- 何ができる人かが伝わると仕事は来る。
-- 自分の指向にあった仕事がくる
秋元さんのお話が一番面白かったです。
湯川さんのお話は、残念ながら参考になりませんが楽しかったです。
明日以降色々詰まっているので飲み会は我慢して帰りました。
2008-03-14 Fri
恵比寿会 #02
恵比寿在住または歩いて来られるエンジニアでブログを書いていて、
ソースコードを公開している人なら入る資格があるらしい恵比寿会の
2回目に集まりがありました。
akkyさんが新宿から歩いて参加いました。ww。
会には遅れて参加しましたが、割とすんなりとけ込めて、
楽しい時間を過ごしました。
会の途中で、「nipotan Nite」という、ただただ、にぽたんを囲む会が
企画され、これからの進行次第では良いイベントになる模様。
なんか 3/25 日らしい。えらい急ですな。
恵比寿会の次の幹事は僕らしい。
で、次の開催日は4月20日以降らしい。それまでは忘れよう。
帰り、amachangと店から一番近い横断歩道を渡ったところで
持ち物の中にデジカメが無いことに気づきました。
もし路上にデジカメを落としたら音で気がつきます。
そこで、確実にデジカメを使っていた出たばかりの店に戻ったところ、
「デジカメは無かった」と言われました。
その前に入った店にも行きましたが、当然ながらありません。
うーん、これは「参加者」「同じ店にいた客」「店員」の誰かが、
カメラを持って行っちゃったパターン。あああ。残念すぎる。
ちゃんとカメラを確認しないで店を出てしまった自分の責任。
ということで、近いうちに秋葉原で中古カメラでも買ってきます。
全体として、楽しいイベントでした。
2008-03-08 Sat
第4回 ブロガー勉強会
ブロガー勉強会の第4回目に、都合が合えば参加したいと思いました。
楽しそうなイベントです。
- 3月17日(月)ブロガー勉強会のご紹介 - ブログラボ (Bloglabs.jp)
-- http://bloglabs.jp/2008/03/317.html
- ブロガー勉強会開催概要
・開催日時 3月17日(月) 19時半~
・開催場所 パソナテックセミナールーム(渋谷)
・人数 40名予定
・ショートプレゼン (各自15分を予定)
・美谷さん(世界を巡るFool on the web) 「サムネイルを使った視覚的ブログのススメ」
・秋元さん(秋元@サイボウズラボ・プログラマー・ブログ) 「サラリーマンブロガー」
・湯川さん(湯川鶴章のIT潮流) 「会社公認ブログ誕生の背景」
・小野さん(小野和俊のブログ) 「Blogger Matrix by Blogger」
15分プレゼンということで、濃い話を聞けるのかなと思いました。
懇親会も1時間と短め。
懇親会込みで2時間というのが新しいスタイル?
2008-03-08 Sat
FON NIGHT 2008
「FON NIGHT 2008」というイベントが開催されるようです。
イベントに参加すると、今、FONルーターをもっているのに、
さらにもう1つ貰うことにしまうのでしょうかwww。
- FON NIGHT 2008
-- http://www.fon.ne.jp/fonnight/
【FONナイト’08開催要項】
日時:
- 2008年3月19日(水)
- 19:30開場/20:00開始
場所:
- 「トラットリア ベニーレ ベニーレ」
- 東京都渋谷区神宮前4-31-10 YMスクウェア原宿5~6F
参加者は抽選で決まるようです。
参加できた方のレポが楽しみです。
2008-03-08 Sat
Introduction to Information Retrievaの輪読 #04
今日は、IIR輪読会でした。
[2008-02-16-2] の #03 に引き続き、#03です。
終わったのは、第3.3節から第4章の概説まで。つづきは次回。
今日の会場は渋谷のはてなの会議室でした。

今回も冒頭はnaoyaさんの復習プレゼン。分かりやす。
- naoya さんによるIntroduction to Information Retrievaの輪読の資料
-- http://bloghackers.net/~naoya/iir/ppt/
3章の担当は、僕でした。軽く忘れていてグダグダになりがちでした。
内容は、スペルコレクション(単語のつづり誤り訂正)のお話。
- n-gram に基づく単語Indexの活用
- 動的計画法による編集距離の算出
- [を] Dynamic Programming による類似文字列マッチの実装例
-- http://chalow.net/2007-01-22-4.html
- n-gram の重なりに基づく尺度の活用
- 検索エンジンのフレーズ検索の活用
- 音素ハッシュによるスペル訂正
などなど。
スペルコレクションは、「クエリと修正候補の近さ」と「修正候補の一般性」
の2つの尺度を、どのように定め、それらの尺度をどのように算出するかで、
結果が大きく変わります。
今回は初歩的な教科書的な手法を学んだので、
今後、実装するアプリには、より洗練された手法を取り入れたいです。
IIR輪読が終わったあとは、たつをさんが過去におこなったプレゼンを紹介。
単語に適用するスペルコレクションの技術を、
単語を文字扱いして文に適用することによって、
類似文書検索を実装した話をしてくれました。
機械翻訳アプリなどの用例検索に利用したのだそうです、面白かったです。
類似文書検索を転置Index + Suffix Arrayで実装したとのことですが、
近年の全文検索アプリ + αで実装すると、
探索時間が短いアプリを手軽に実現できるかも。
2008-03-07 Fri
バイト先のおつかれ会
八王子の『鳥良』でお疲れ会でした。
2007年度も終わりということで、年度の締めです。




ちょっと高めのコースにしたので、料理が沢山出てきます。
そのうえ、店員が2時間きっかりで追い出そうとするので、
テーブルの上は終始混沌としていました。

鍋の締めのおじやと、デザートを同時に持ってこられたときは、
本当に酷いお店だなと思いました。
味を楽しむ前に、口に詰め込まなければいけないのはツライです。
一次会のあとは、AGOSTで軽く飲み直して帰りました。




おつかれさまでした。
また、来年もよろしくおねがいします。

