前の月 / 次の月 / トップページ
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2008-03-24 Mon

面白いブログ記事ってラジオっぽい気がする

[日記]

戯れ言度が普段より高いエントリを書いてしまいましたが公開。

結論:ブログを書く際にラジオの良さを考えることに、より面白い記事を書く技術の一端があるような気がする。

お昼ご飯を食べているときに、ふと、面白いブログ記事の一部は、
パーソナリティのトークが売り物のラジオ番組と同じような情報のスロットを
埋めるようにして書かれていることが多いような気がしました。

情報のスロットの例としては、以下のようなものが考えられます。適当ですが。

- 実物が見たことが無い人に、見た目や感触や状況を説明
- パーソナリティの感想を感覚的、感情的、説明的に伝える
- 他の人の発言を、伝聞や録音などで引用する
- ニュースも流す
- 時事性や臨場感を大切にする
- 音楽などを使い番組の印象を作る
- トークの合間に音楽を流す
- 連絡先は機械的に正確につたえる
- ゲストも呼んで、いろいろ聞きまくる
- 特集を組んで、テーマにそって話す
- 投稿も受け付け、紹介する

これらのスロットを、ブログにどのようにマッピングするかは、個人の感覚次第だとは思います。
ラジオは一つのラジオ番組に数人のパーソナリティが入れば良いし、
スピーカーの向こう側に誰がいるか分からないし、
みたいな状況も、ブログとすごく似ている気がするのです。

今まで僕は、ブログメディアという言葉に寒気を覚えていましたが、
おもしろいブログほどメディアに近づいているのは確かなのかも。

ブログはラジオと違って、気軽に繰り返し読むことができるし、聴覚中心ではなく視覚中心です。
ラジオの方がパーソナリティの感情が伝わりやすそうですね。

ブログとラジオは接種できる情報の質は全然違うと思いますが、
ブログを書き物として扱うのではなく、ラジオのようにも伝える方向に、
より面白い記事を書く技術の一端があるような気がしたのです。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

はてなの「広告商品のご案内」はちょっと面白い

[日記]

はてなの「広告商品のご案内」はちょっと面白いので、
一読しておくと良いですよ。

- 2008年4-6月版「広告商品のご案内」をリリースしました
-- http://hatenasales.g.hatena.ne.jp/hatenasales/20080225/1203939541

本日、はてなの2008年4~6月版広告媒体資料をリリースしました。 おかげさまで、2008年1~3月はPC版で殆どのメニューが満稿となりました。心よりお礼申し上げます。


何をもとにした統計なのか、母数はいくつなのかなど、
疑問が湧くので、どこまで信用すれば良いのか迷いますが、
それはは、さておき、素直に受け止めてみると、面白い読み物です。

たとえば、ユーザー属性について見てみると、
未婚、子供無し、一戸建てを所有して無いと3条件揃っている人の割合が、
少ないのかもなぁ、と軽い焦りを感じたりします。orz。

ユーザー属性2

- 比較的高学歴で技術職が多いという特徴があります。
- 既婚・子供あり、一戸建て所有者が半数を占めるなど、20歳前後が多いCGMサービスの中では比較的年齢層が高いといえます。


個人的には主婦ユーザが2割近くいることに衝撃を受けました。
そんなに主婦ユーザが居たのかっ。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

Catalystアプリを作る際のポリシー

[Perl]

Catalyst は Perl の Web アプリケーションフレームワーク。
そのため、

- ひな形からアプリを作る際の自由度
- Perl である故の自由度

のような自由度が絡み合って、
クールで、より多くの部分が再利用可能な、
開発、運用時にトラブルの少ない開発ポリシーは、
未だに「コレ!」というものが、あんまりないですよね。

先日というか、結構前におもしろかったのは、typesterさんの記事。

- Catalystアプリオレオレポリシー
-- http://unknownplace.org/memo/2008/02/29#e002

camr作った時点での僕のポリシーは

1. アプリ名にかかわらず設定ファイルはconfig.yamlとconfig_local.yaml
2. でも変更することがないほとんどの設定はyamlには書かない。yamlがごちゃっとするときもい
3. ForceUTF8系モジュールは使用しない。内部がきちんとutf8で統一されていれば必要ない。
4. MyApp::UtilsとかいうのでいろいろBKなことをまとめてする。uri_forを気に入るように直したり、FillInFormの挙動変えたり


この記事のブクマコメントにikebeさんが

俺は MyApp::Context って名前で BK まとめてるな。


とコメントしていたのを見ました。

Contextという単語は、僕の頭では「文脈、脈絡」みたいな感じ。
ちょっと考えると、かなりガッチリはまったモジュール名ですね。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

2008-03-23 Sun

chumby をもうすぐ発注する

[chumby]

chumbyを買うぞ、と決意してから、もうずいぶん経ちました。

たくさんの人が参加して下さったので、
それをまとめるのに時間がかかっていましたが、
もうこれ以上は待てない感じなので、
明日、あさってで、エイヤと注文するつもりです。

chumbyの共同購入者用のサイトに、
chumbyの受け取り方法について書いたので、
購入者は必ず、共同購入者ようのサイトを見てくださいね。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

年度末飲み会

年度末ということで飲み会でした。

今年度もお疲れさまでした。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

吉祥寺から渋谷まで自転車移動

[日記]

今日は、otawaさんと吉祥寺で待ち合わせをし、
2人で西荻窪、上井草、輪行し和田サイクルへ行きました。

ちょっと日差しが強く、上井草に着いたことには、軽くヘロヘロ。

さらに、上井草から西荻窪にもどり、
青梅通りに沿って新宿へ向かいました。

荻窪のラーメン次郎の横を通りましたよ。

上井草を出てから、歩道をずっと走行していたのに
60分くらいで新宿に着いちゃいました。
さすがに汗をかきまくりでしたが。。。

僕は新宿でotawaさんと別れ、飲み会へ。

飲み会のあと、新宿から代々木公園の西側の脇を通るようにして、
渋谷のNHK方面に抜け、渋谷へ帰って来ました。

たぶん、今使っている自転車を買ってから、最長記録だと思うなぁ。

今日自転車に乗ってみて思ったことは、
自転車があると行動範囲が広がるということ。
狭い隙間も、おかまい無しに通り抜けられますし、
都心部を走っているときに、原付よりも危ない思いをしなくて済みます。

次に、サドルを交換しなければいけないということ。
今のサドルは、長時間座っていると疲れるので。

また、地図とコンパス、またはGPSの必要性を感じました。
いまどこに居るのかが分かると、移動しているときの不安感が減ります。

また、近いうちに長距離輪行したいな。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

上井草 サンドイッチとコーヒー カリーナ

杉並区井草5丁目にある、和田サイクルの真ん前に、
カリーナという名前のサンドイッチ屋さんがあります。

外から眺めて、雰囲気が良さそうなので入ってみました。

このお店は当たり!

サンドイッチが美味しいし、
サイフォンで入れるコーヒーは美味しいしで、
終始リラックスしまくり。

お店の店主と奥さんも、非常に雰囲気が良く、
終始気持ちよく飲食できました。

こういうお店が、自宅の側に1軒ある、とても嬉しいのに。

ちなみに、平日以外は午後2時で閉店みたい。

ごちそうさまでした。また来ます。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

和田サイクルでBD-1にセキサイダーと泥よけを取り付けていただいた

[日記]

セキサイダーと泥よけを僕のBD-1に取り付けたい!

と考えて、早くも3ヶ月経ってしまいました。
今日は一念発起して、和田サイクルまで行きましたよ。ふふ。

- 和田サイクル
-- http://www.wadacycle.jp/

事前にWebページを確認していなかったので、
西荻窪のお店があった住所に行ってしまいました。
でも、立て替え中のため、そこには店が無く、仮店舗の案内がありました。

工事は2008年9月に終わるようです。そしたら、是非来よう!

ということで、仮店舗に急ぎます。わりと近かったですよ。

お店に行ってみたら、ちょっと急がしそうだったので、
お昼ご飯を食べたあとで、再度訪問してみました。

和田さんは、なんとも言えない雰囲気の方でした。
ついつい応援したくなるタイプの方です。
和田サイクルが人気だったり、
お店の周りに周囲の住民が集まったりする
理由が何となく分かった気がしました。

セキサイダーも泥よけも、和田サイクルに行けば必ずあるわけではないのですが、今日はたまたまありました。
セキサイダーの色は黒、泥よけの色はシルバーにしましたよ。

泥よけの色は自由に決められる雰囲気だったのでシルバーにしました。
セキサイダーは鉄でできているらしく、
和田さんが「シルバーは錆びるよ。」「黒は塗装が剥げると錆びるよ。」
とおっしゃったので、黒の方が対腐食性能が高いと判断しました。

泥よけの取り付けも、セキサイダーの取り付けも、
基本的にはすごく面倒なようです。
しかも見た目からして難しいのです。

取り付けに慣れている、和田さんでも、
他のことをやりつつですが、
1時間以上の時間がかかっていたので、
僕が自分で取り付けていたら日が暮れていたかも。

そのため、普段はセキサイダーと泥よけの取り付けは受け付けていらっしゃらないとか。
どうやら、本当にたまたま、お店が空いた瞬間にお願いできたので、取り付けていただけたようです。ツイてます。

お会計ですが、泥よけパーツ(7560円)とセキサイダー(20000円)と工賃をあわせて、とんでもないお値段にしていただきました。
ありがたい気持ちで一杯になりました。
渋谷から、西荻窪まで来た甲斐がありました。

取り付け後のBD-1は、さすがに、ちょっと後部が重くなりました。
でも、これで輪行が非常に楽になるかと思うと笑いが止まりません。
BD-1が引きずれるなんて、画期的すぎる。

和田さん、どうもありがとうございました。また来ます!

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

2008-03-22 Sat

恵比寿 ちょろり

夜に、食器を必死で洗っていたら、
ちょろりに行くことになったので、行ってきました。

やっぱり、ちょろりのラーメンはうまい。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

渋谷 餃子の王将

ふと、餃子が食べたくなったので、
素直に餃子の王将に行ってきました。

今日の餃子は、半分以上の餃子の皮が、
きちんと閉じていました。
やっぱり閉じてる方が、味が中に残っていて美味しいです。

ごちそうさまでした。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

新宿歌舞伎町 ルノアール

[日記]

歌舞伎町のルノアールは、今日も空いています。

いつも気持ちよく滞在できるのは助かります。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

おみくじの吉凶の順序は?

[日記]

花園神社にきたので、おみくじを引いてみたら、「末吉」でした。

末吉っで、どのくらいの吉凶の良さがあるのだろう。

軽く調べると、すぐに見つかりました。

- 特集・おみくじQ&A
-- http://www.news.janjan.jp/special/0612/0611013897/1.php

Q:大吉から大凶までの順序は?吉と中吉、小吉と末吉、どっちが運勢がいい?

A:良い順番に並べると、大吉、中吉、小吉、吉、半吉、末吉、末小吉、凶、小凶、半凶、末凶、大凶


吉は小吉や中吉よりも悪いのか。。。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

新宿東口 きちんと

新宿東口の「きちんと」でランチを食べました。
このお店は、料理はうまいんだけど、接客が微妙な感じを来るたびに感じます。

今日も「きちんと」は僕のことを裏切りません。

飲み物を持ってき間違え、頼んでいない定食を2回持ってきました。

伝票の控えがあるはずだと思うので、それを見て確認していないのでしょう。
残念です。

さて、本題。今日はサバの塩焼き定食を頼みました。

これまた期待通り、うまい!

また、気が向いたら来ようっと。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

あらしのよるに

あらしのよるにという、絵本を読む機会がありました。
あらしのよるには、大人気の絵本シリーズだそうで、
いまのところ本筋については7冊出版されています。

どんな本かなと読んでみたところ、
すごく前に読んだことのある本でした。

この、あらしのよるに出会った、やぎとおおかみの物語は、
子供でも結末から先を想像できる伏線が多数張られています。

さらに、やぎとおおかみとの間には食物連鎖の上下関係があることを
幼稚園くらいの子供なら理解できます。

割と簡単だけど効果的な伏線と、
現実世界での簡単だけど奥深い関係性を、
物語上のキャラクタ関係と絡めることで、
シンプルなのに奥深い物語を構成しているように感じます。

続編も沢山出ていますが、個人的には1巻だけ読むことをおすすめします。
1巻に「あらしのよるに」の全てが詰まっていると思います。
お子さんと読んだ際には、やぎとおおかみの未来について
おこさんと多いに語り合うとよいでしょう。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

2008-03-21 Fri

馬肉と馬刺を喰らう会

聖光さんが、青森から馬肉を持ってきて下さるということで、
僕の家で、馬刺と桜鍋を楽しむことになりました。

何時くらいかな、8時ちょい前くらいから、飲み食い開始。

馬刺、うまいよ、馬刺。
桜鍋、うまいよ、裏鍋。

途中で、ここのところ大騒ぎする飲み会ばかりに出ており、
こんなに静かに黙々と、目の前のごちそうを堪能する
飲み会は久々であることに気がつきました。

みんな1時間後にはお腹いっぱいで大満足。
その後、デザートにケーキを食べたりしました。
tokuhiromの誕生日が虚偽だし、聖光さんが明日誕生日だしで、
いろいろ調度良かったです。

ひたすら「うまいねぁ。うまい。」と、
口々につぶやく飲み会も大切だなと思いました。

終わったあと、片付けをしていたら急激に眠くなり、
そのまま寝ちゃいました。お疲れさまでした。

- 参加した人
-- 聖光さん
-- たつをさん
-- スオミさん
-- tokuhiromさん
-- kanさん
-- としのり

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

『ぶろっぐぴんぴん』でブログの更新Pingを送信

[日記]

ずいぶん前からブログの更新Pingを打っていないのですが、
ブログ検索にクロールされないわ、
RSSリーダーにたまに、とてつもない量のエントリが届くわで、
ブログの更新Pingをやめても、何も良いことはありませんでした。

ということで、今日からまた打ち始めます。

ソフトは、BlogPeopleの「ぶろっぐぴんぴん」を使います。
なつかしいっ。

画像

- ぶろっぐぴんぴん for Win & Mac
-- http://member.blogpeople.net/member/pingping.jsp

『ぶろっぐぴんぴん』は、サイトの更新時に更新PINGが送れないBlogシステムや日記システムをお使いの方のための無料のWindowsアプリケーションです。 一度に複数の更新PINGサーバに更新を通知することができます。


『ぶろっぐぴんぴん』に登録したXMLRPCサーバは、以下のとおり。

- Yahoo! ブログ検索(http://blog-search.yahoo.co.jp/
-- http://api.my.yahoo.co.jp/RPC2

- Google ブログ検索(http://blogsearch.google.co.jp/
-- http://blogsearch.google.co.jp/ping/RPC2

- Technorati(http://www.technorati.jp/
-- http://rpc.technorati.jp/rpc/ping

- BlogPeople(http://www.blogpeople.net/
-- http://www.blogpeople.net/servlet/weblogUpdates

- Ask.jp(http://ask.jp/
-- http://ping.ask.jp/xmlrpc.m

- goo! ブログ検索(http://blog.goo.ne.jp/
-- http://blog.goo.ne.jp/XMLRPC

- Livedoor(http://blog.livedoor.com/
-- http://rpc.reader.livedoor.com/ping

- はてな(http://r.hatena.ne.jp/
-- http://r.hatena.ne.jp/rpc

『ぶろっぐぴんぴん』で更新を通知したとたんに、ディープクロールをかけてくれるカッコいい検索エンジンもあって、単なるping送信くらいでドキドキしました。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

nipotan nite と nagayaman 送別会は一応昼12時で締め切った

id:nipotanとid:nagayamaを送る会は、昼12時締め切られました。

詳しくは以下。

- [O] 【締め切りは3/21昼12時】nipotan nite & id:nagayama送別会開催のお知らせ
-- http://overlasting.dyndns.org/2008-03-18-1.html

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

YAPC::Asia 2008 の公式サイトでスポンサーとスピーカーが公開に

YAPC::Asia 2008 の公式サイトがリニューアルしたのと同時に、
スポンサーとスピーカーが公開になりました。今年もかっこ良いデザインです!

- YAPC::Asia 2008 - May 15-16th in Tokyo, JAPAN
-- http://conferences.yapcasia.org/ya2008/

画像

今年も多くのスポンサーに支えられ、さらに多くのスピーカーが参戦してくれます。
志の高いみなさんが、すごい勢いでイベントに足を運んでくれでしょうし、
きっと最高のイベントになるのでは。わくわくしてます。

チケットの販売開始はもうすぐみたいですから、うっかり忘れないようにしてくださいね。

チケットを購入してくださる方は、「チケットがうっかり不要になったら、頑張って他の人に譲るぜ!」という気持ちで購入して頂けると、「残念なことにチケットを買えなかった人」が、たくさん救われるような気がして嬉しいです。

ボランティアスタッフも、まだ若干名ですが募集していると思います。
僕はYAPCで多少人生が変わったので、変わろうとしている方にボランティアで貢献することをおすすめします。

YAPC::Asiaまで、あと2ヶ月を切りました。
5/15、 16付近はスケジュールをバッチリ開けておいてくださいね。 m(_ _)m

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

Emacs で yasippet.el および Perl モジュール名の動的補完を使う

[Perl][emacs]

Twitterを眺めたら、yasnippetという単語が見えたのでググりました。

- yasnippetがすごい!!!!1112345! - antipop
-- http://d.hatena.ne.jp/antipop/20080314/1205517419

yasnippetがすご過ぎる!!!!1112345!


あ、kentaroさんか。「へぇ、面白いんだ」と思い早速導入しました。

- Yet Another Snippet Package | M-x all-things-emacs
-- http://www.emacsblog.org/2008/03/13/yet-another-snippet-package/
The creator of smart-snippet, an extension to snippet.el, has now created the aptly titled yasnippet – Yet Another Snippet extension for emacs.


まず、emacs lispを入れてるディレクトリにsvn coしました。

- yasnippet - Google Code
-- http://code.google.com/p/yasnippet/
If you want to always follow the latest code. You can check out it from the svn repository:

svn checkout http://yasnippet.googlecode.com/svn/trunk/ yasnippet


そして、coしたyasnippetをadd-to-list 'load-pathしました。

そのうえで、以下に従い.emacsに追記しました。

- yasnippet - Google Code
-- http://code.google.com/p/yasnippet/
# Require and initialize yasnippet in your ~/.emacs file:

(require 'yasnippet) ;; not yasnippet-bundle
(yas/initialize)
(yas/load-directory "/path/to/the/snippets/directory/")


その他に、前の記事でPerlモジュール名の動的補完について、
改良が行なわれた記事がありました。

- EmacsでPerlのモジュール名を動的に補完する - antipop
-- http://d.hatena.ne.jp/antipop/20080304/1204635027
cperl-mode初回起動時にコマンドを流していて、すごく重くていらいらしてたので、あらかじめモジュールの一覧だけのファイルを作るようにした。


とのことなので、以前書いた.emacsの一部を削除し、追記。
さらに、make_pmlist.shをコピペで作って、cronに登録しました。
dabbrevのショートカットには\M-1を割当ています。

一応最初だけ、M-x perl-make-pmlist-bufferしました。

ここまでやると、EmacsでPerlのファイルを書くときの起動が早くなります。

さらに、Tabによる補完と、動的な補完のおかげで、ちょっと楽になります。
「subと書いて \tを入力 サブルーチン名書いて カーソル移動して サブルーチン名の最初書いて \M-1入力 1で候補選んで、、、」とかできるようになりました。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

2008-03-20 Thu

恵比寿 アトレ 串の坊

串の坊で夕食。野菜を沢山食べました。

もうお腹いっぱい、というころにデザートが出てきました。

ここは、ちょっと落ち着いて食事に来るときに丁度良いすね。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

『Redsun』 学習者の英語を対象としたローマ字語認識ツール

[NLP]

NLP2008で紹介されていたアプリ。Javaによる実装。

- Redsun: ローマ字語認識ツール
-- http://www.ai.info.mie-u.ac.jp/~nagata/tools/redsun/index.html

Redsunは,与えられた英文中のローマ字語を自動的に発見するツールです.Redsunの特徴として,綴り誤りを多く含む英文でもローマ字語を精度良く認識できる点が挙げられます(例えば,GnbaruやIppaisなどを認識可能).


~nagata/tools以下に、他のツールもあるのでチラ見しとくと良いかも。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

言語処理学会第14回年次大会(NLP2008) 3日目

言語処理学会の全国大会の3日目に行ってきました。
午前は固有表現抽出のセッション中心。

- NLP2008 program
-- http://nlp2008.anlp.jp/program.html#C2

- 日時: 2008年 3月17日(チュートリアル)
-- 18日〜20日(本会議)
-- 21日(ワークショップ)
- 会場: 東京大学 駒場キャンパス 5号館, 13号館


D4-5 単語正規化による固有表現の同義性判定手法 高橋いづみ, 浅野久子, 松尾義博, 菊井玄一郎 (NTT)


- 同義性判定のために、同義語を分類
-- 表記と、その読みから推測可能なもの
-- その他の知識が判定のために必要
- 前者は同義語の9割を占めると分かったので、前者に着目
- 派生方法は、表記変化、表記の追加、省略の3要素の組み合わせで起こる
- これらの派生過程が起こったのかを3ステップで判定
-- 表記の追加は、ルールでカット
-- 表記変化は音素数が同じ語を、ルールを使い比較
-- 省略は、省略後の語が省略前の語に包含されるときに、SVMで判定
--- SVMの素性は、省略前と省略後の差異を使う
- 正規化によっと、読みまたは、読みの長さが同じものだけ判定したため、既存の研究より精度を向上できた

D4-6 カーネル法を用いた意味的類似度の定義とブートストラップの一般化 小町守 (NAIST), 工藤拓 (Google), 新保仁, 松本裕治 (NAIST)


- ブートストラップと教師無し学習の組み合わせ。
- ブートストラップによるインスタンスの獲得は、生成パターン次第では。意味ドリフトが起きる可能性がある。
- 入り組んでるので論文読め。

B4-7 言語パターンを用いた検索クエリによる単語間の上位・同位関係の抽出 荻原由紀恵, 山下達雄, 前澤敏之 (ヤフー)


- 辞書にあるキーワードAと関連するキーワードBを探す
- 同意、上位、優勢の3パターンをクエリから言語パターンを使い取得する。
- 同意語と上位語は排他的である。
- パターンの重みに手作業で検出した精度を用いる
- Aは辞書ベースの最長マッチによる検出だけど、Bはルールベースで後ろを切って取得する。
-- 山下氏が「Bも辞書ベースの最長マッチによる検出」と教えてくれました。
# Bは未知のルールの結合を取れないので、一部の未知語が取れないのかも
# 山下氏の補足により無意味な考察に。

A4-8 Nグラム検索エンジン -Google日本語7グラムを使って- 関根聡 (NYU)


- コーパスベース知識工学という分野
-- 近傍コンテキストを使った知識獲得
--- 精度の高いパターンを、大きなサイズのコーパスに適用するとおもしろくなるのでは
- 巨大なサイズのコーパスを使うと、計算量が。。
- n-gram(5から9)に対する検索システムを提案
-- 任意のワイルドカードを含むn-gramの検索
-- ワイルドカードの中身を返す
-- 頻度も返す
-- 1台のPCで動く。メモリは4Gだけ使う。
- 実装
-- 逆インデックスとトライ構造では?
--- 逆インデックスは高頻度単語に弱いの
--- トライだとワイルドカードに弱いの
-- n-gramのワイルドカード位置は限られてるから、トライを全部作ればいい
--- でもサイズが増えすぎるわ
-- そこで工夫
--- サフィックスを縮退、開始位置を任意にする12T->4.7T
--- 更新が不要なので、いらないノードを削る4.7T->2.9T
--- 単一末尾の削除(0.5T)
--- トライを分割したりMMap使ったりして、頑張ってメモリに乗せる
-課題
-- 任意数のワイルドカードへの対応
-- 論理演算子の使用
-- 形態素解析器への依存問題(どんなn-gramができるかは形態素解析器次第)
-- 小頻度パターンの問題(低頻度語も欲しいよ)
-- 幅広いコンテキストも見たくなる(前後も見たい)
-- インデックス作成の簡易化、軽量化
- 質疑
-- 世の中のコンテキストからの知識獲得には9-gramくらい必要だから
-- トライを分割してるので、トライ間の共通構造はまとめられている
-- ワイルドカードをポインタで持つと非効率だからやらない
# 完全に実用的な発表で面白かった。




午後は移動が面倒なので、マイニングセッションにいる。

C5-1 綴り誤りに対してロバストなローマ字語のマイニング手法 永田亮, 掛川淳一 (兵教大), 杉本洋美, 籔田由己子 (教育測定研究所)


- 英語の初学者の書く英文には、英語に混ざるローマ字語(日本語)が多い
- ローマ字語は母音か子音nで終わるし、母音の後には子音が来る
- 綴り誤りは問題だが、とりあえず横においとく
-- そうすると、簡単な正規表現でローマ字語っぽいものを見つけられる
- tri-gramベクトル空間でk-means。
- 英単語のセントロイドは辞書。ローマ字のセントロイドは正規表現。
- 謎の単語および、つづり誤り語を英単語とローマ字語に引っ張る
- 提案手法は精度80%以上で英単語とローマ字語を分類できた。
- ローマ字語を英単語は、英単語に良く似ている
- 英単語をローマ字語に認識する語は、綴り誤りが大半。英語じゃない外国語も間違う
- ツール公開してますよ。
-- http://www.ai.info.mie-u.ac.jp/~nagata/tools/

C5-3 トラブルを見つける De Saeger Stijn (NICT), 鳥澤健太郎 (JAIST)


- 人工物やものの正常な利用や楽しみ方を妨げる要素
- 検索エンジンで見つけられない
-- 例、「餃子 残留農薬」「遊園地 慎重制限」
- 物の利用コンテキストでトラブルにやすい実体の組み合わせを取得
-- 関連抽出タスク
--- 例、<自転車、雨>
-
-- トラブルの下位語の自動的な獲得
--- 構文パターンを使う「Xのようなトラブル」「X以外の障害」
--- 曖昧な表現は取り除く「バッテリーの障害」
--- バッテリーのなんだよ!
-- 係り受け情報
--- 否定形の動詞との係り受け関係
--- 仮定形の言語パターンを利用
--- 「Xで->否定形の動詞」というパターン
--- 助詞「で」の多義を解消するには、肯定形も見る
--- 肯定形の言語パターンを利用
--- 「Xで->肯定形の動詞」を否定的な証拠として考慮
- トラブル表現の抽出のための学習
-- 上記の3つの特徴を全部SVMに突っ込む
- トラブルと組み合わさる実体を探す
-- 言語パターン「実体のトラブル」を新聞コーパスの中で500回以上出現する名詞を実体候補とトラブルを組み合わせてつくり、それらを相互情報量でランキングする。
-- 「実体のトラブル」が見つかったら、トラブルが否定形の動詞と係り受け関係にあるかどうかを確認する。係り受け関係がなければ候補から外す。
- 評価してみると、60%の実体とトラブルのペアは正解だった。

C5-4 経験マイニング:Webテキストからの個人の経験の抽出と分類乾健太郎, 原一夫 (NAIST)


- 経験マイニングはまだまだ十分なんだ
-- 典型的なのは評判を抽出すること
- 意見評判以外にも、経験を抽出したいんだ
- 経験情報を膨大なUGCから抽出するための、意味解析技術を開発し、情報を意味的に索引付けする
- 経験をマイニングするには3つの意味解析が必要
-- トピックと経験主の同定
-- 事態タイプの分類(いいこと、わるいこと、とか)
-- 事実性情報の解析(ほんとにやった、やろうとしてる、とか)
- 上記の3つの解析は別に新しくないよね。できたら応用できて嬉しいでしょ?
- デモ
-- 興味ある、興味なし、欲しい、買った、使った、良く使う、満足、不満
-- とあるサイトの一連の記事に対して、解析を適用し、経験の時系列的な変化を掴むことで、お金につながる
- Synchaを使うといいんじゃない
- 事態表現「名詞+助詞+述語」の評価極性
-- 大半は名詞の極性で決まる
- テンス・アスペクト・モダリティ
- 事実性は「事態の時間情報(+時制) + 話者の態度(+時制)」で表現できる
-- Fanctional CRFで解けそうだ
--- 現状では7割超えは余裕でできていて、いい感じな雰囲気が出てきたよ。
- マーケティングや地域のトラブルの収集に使えそうだ

C5-5 "商品カテゴリ"および"取扱店舗"の統計情報を用いた商品タイトルに含まれるフレーズの重要度判定 前澤敏之, 山下達雄, 荻原由紀恵 (ヤフー)


- 本当は商品の名寄せをしたいんじゃ
- JANやISBNで名寄せすると、幅が狭い。
- なので大量のWebデータを活かせるようにテキストベースの名寄せをする
- 手法概要
-- 商品タイトルを分割してバラバラにする。
-- バラバラにした塊単位の類似度をみれば、名寄せできそうだ
- 実際には商品タイトルには、商品タイトルと関係ない塊が多く含まれる
- 重要度の高いシードと重要度の低いシードがある、と仮定すれば良くないか
- シードフレーズとノイズフレーズの概念、シードの重要度の概念があれば、より良く類似度を算出できるはずだ
- 事前にノイズとシードのリストをつくればいいよね
-- 手法
- 機械学習手法による、ノイズシード比
-- Voted Perceptronを使う
--- 入力、フレーズ
--- 出力、シード or ノイズ
- フレーズとは 「名詞形態素の連続」「記号を含まない(記号を無視した?)形態素の連続」
- 学習素性
-- 入力店舗が同じ場合、共通のノイズが出現する
-- 入力店舗が異なる場合、共通のシードが出現する
-- ということで、ストアとカテゴリのDFを考えてあげれば良さそう
-- フレーズDF比 = ストアDF / カテゴリDF
- シードの判定精度は9割、ノイズは6割程度
-- ノイズリストは少ない。なので、リストからノイズじゃないのを人手で削除すればいいよ
- 学習時のラベルは、シード、中立、ノイズの3値。
- 今後は実際に名寄せする
- ?
-- 学習時に未知のフレーズってどうなるの?とくにシード。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

QuickTime PlayerでWMV形式の動画を再生するために『Flip4Mac』をインストール

今朝、見ようと思った動画が WMV 形式でMacでは見られませんでした。
ちょっと探したら、QuickTime PlayerでWMV形式の動画を再生できるようにするプラグイン『Flip4Mac』が見つかりました。

早速インストールしましたよ。

画像

インストールして、QuickTime Playerに動画ファイルをドラッグするだけで、スムーズに動画を見ることができました。嬉しい。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

2008-03-19 Wed

大雨

[日記]

夜は大雨になりました。
そのためか、部屋の中なのにとても寒いです。

数日ぶりに暖房を付けて部屋を暖めました。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

渋谷 やよい軒 さばの味噌煮

[日記]

今日はさばの味噌煮定食を食べました。

魚か肉かで迷ったら魚を選び、野菜サラダにシーチキンが入っていたら納豆を選ぶことにしているので、こんな感じになりました。

さばの味噌煮だけど、あんまりサバ臭くなく、最後まで美味しく食べられました。ごちそうさまでした。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

住民票の移動

[日記]

すっかり住民票の移動を忘れていたので住民票を移動しました。

まずは栄区役所で転出証明を取得しました。

栄区役所は本郷台駅から徒歩7分くらい。
歩行者用の近道を通ると、ちょっと早くたどり着けます。

転出届は簡単に取り出せました。手際がとても良かったです。

一方で、原付自転車の廃車申請はぜんぜんスムーズにいきません。
担当の方が一言いうと3つくらい疑問が湧くので、問いつめてしまいました。
担当の方がたまらず入れ変わった方は、非常に明快な回答を返してくれて良かったです。
日々、市民と対話する役場の職員の方は、対話能力の判定とか必要では。
2人の担当者の給料が仮に同じだったら悲しいっす。

次に渋谷区役所へ。

渋谷区役所は混みまくり。

転入届けを出し、住民票を入手するまでに40分もかかりました。

市民を整理している担当者に、何分待ちかを聞いたところ、「わかりません」との言葉を頂きました。
しかし、渋谷区の整理券を配布する機械は、近代の物だから、各整理番号の処理にかかった時間や統計情報を出力できると思います。
それを見れば良いだけなのではないでしょうか。

などと思いつつ、住民票の移動を終了。移動も含めて4時間半もかかりました。
やれかれ。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |

言語処理学会第14回年次大会(NLP2008) 2日目

言語処理学会の全国大会の2日目に行ってきました。
とりあえずは、午前の要約セッションだけ。

- NLP2008 program
-- http://nlp2008.anlp.jp/program.html#C2

- 日時: 2008年 3月17日(チュートリアル)
-- 18日〜20日(本会議)
-- 21日(ワークショップ)
- 会場: 東京大学 駒場キャンパス 5号館, 13号館


C3-5 要約文の選定による用例利用型要約の可読性向上 牧野恵, 山本和英 (長岡技科大)


- タイトルを構文解析を使わない統計に基づく文短縮手法に変更
- 構文解析結果を模した単語重み付け(IPDW)
-- 主語が出やすい文の先頭付近と、述語が出やすい文末付近の重みを高める
- 言語モデルによる処理(PLM)
- 一般的なnグラム確率は長短ざまざまな長さを含むコーパスで計算される
- しかし、大量の原文およびその短縮分があれば、言語モデルを構築できる
-- 語が隣り合うなら1, となり合わないなら巨大コーパスのbi-gramを使う
-- POSのbi-gramも素性に入れるよ
- 2つの要素をくっつけて、λを誤り最小化学習を行ない決める
- 人間が正