2008-03-19 Wed
大雨
夜は大雨になりました。
そのためか、部屋の中なのにとても寒いです。
数日ぶりに暖房を付けて部屋を暖めました。
渋谷 やよい軒 さばの味噌煮
今日はさばの味噌煮定食を食べました。
魚か肉かで迷ったら魚を選び、野菜サラダにシーチキンが入っていたら納豆を選ぶことにしているので、こんな感じになりました。
さばの味噌煮だけど、あんまりサバ臭くなく、最後まで美味しく食べられました。ごちそうさまでした。
住民票の移動
すっかり住民票の移動を忘れていたので住民票を移動しました。
まずは栄区役所で転出証明を取得しました。
栄区役所は本郷台駅から徒歩7分くらい。
歩行者用の近道を通ると、ちょっと早くたどり着けます。
転出届は簡単に取り出せました。手際がとても良かったです。
一方で、原付自転車の廃車申請はぜんぜんスムーズにいきません。
担当の方が一言いうと3つくらい疑問が湧くので、問いつめてしまいました。
担当の方がたまらず入れ変わった方は、非常に明快な回答を返してくれて良かったです。
日々、市民と対話する役場の職員の方は、対話能力の判定とか必要では。
2人の担当者の給料が仮に同じだったら悲しいっす。
次に渋谷区役所へ。
渋谷区役所は混みまくり。
転入届けを出し、住民票を入手するまでに40分もかかりました。
市民を整理している担当者に、何分待ちかを聞いたところ、「わかりません」との言葉を頂きました。
しかし、渋谷区の整理券を配布する機械は、近代の物だから、各整理番号の処理にかかった時間や統計情報を出力できると思います。
それを見れば良いだけなのではないでしょうか。
などと思いつつ、住民票の移動を終了。移動も含めて4時間半もかかりました。
やれかれ。
言語処理学会第14回年次大会(NLP2008) 2日目
言語処理学会の全国大会の2日目に行ってきました。
とりあえずは、午前の要約セッションだけ。
- NLP2008 program
-- http://nlp2008.anlp.jp/program.html#C2
-- 18日〜20日(本会議)
-- 21日(ワークショップ)
- 会場: 東京大学 駒場キャンパス 5号館, 13号館
C3-5 要約文の選定による用例利用型要約の可読性向上 牧野恵, 山本和英 (長岡技科大)
- タイトルを構文解析を使わない統計に基づく文短縮手法に変更
- 構文解析結果を模した単語重み付け(IPDW)
-- 主語が出やすい文の先頭付近と、述語が出やすい文末付近の重みを高める
- 言語モデルによる処理(PLM)
- 一般的なnグラム確率は長短ざまざまな長さを含むコーパスで計算される
- しかし、大量の原文およびその短縮分があれば、言語モデルを構築できる
-- 語が隣り合うなら1, となり合わないなら巨大コーパスのbi-gramを使う
-- POSのbi-gramも素性に入れるよ
- 2つの要素をくっつけて、λを誤り最小化学習を行ない決める
- 人間が正解を作成する際に、その短縮率をあらかじめ0.6に指定した
- IPDWとPLMは両方とも有効だが、これらに係り受け確率を混ぜると結果が悪くなる
- 結果的には、構文解析を保存しない文短縮が実現できている(かも)、と思われる
- 速度的には係り受け解析を利用する場合に比べて3倍早い
- 学習された混合正規分布は、日本語と英語で全然違う形になる
-- 主語述語の出る位置が違うから
- 体現止めに有効じゃないかもしれないPLM以外に、IPDWを使ってる
-- 細かく見ると微妙かもしれないけどなぁ
C3-5 要約文の選定による用例利用型要約の可読性向上 牧野恵, 山本和英 (長岡技科大)
- 人間は単語の重要度を考慮した要約をするとは限らない
- 複数文の情報を含んだ要約文が機械的にできるとは限らない
- 重要度の決定を行なわずに、複数文の情報を含む要約文をつくる
- 類似用例文を獲得し、類似用例文と入力文の文節を、1対多で対応づける。
-- 入力文の文節を助詞、固有表現タグ、単語類似度の観点から類似用例文の文節に対応づける
- 対応文節の組み合わせ
-- 要約文である類似用例文と入力文を対応付けし、エッジを引くと、ラティスを作れる
-- ノードには、文節の対応付けに使った要素を用いたスコア
-- エッジには文節間距離を考慮したスコア
-- 類似用例文と対応するノードを通り抜けたときに、スコアが最大になるようなノードを入力文から順に抜き出してシーケンスを構成する
- 可読性と内容適切性が、既存研究より良かった。
- 要約文の選定
-- 上位10件の要約を選定し、その中から考案した尺度に基づきより良い要約文を選ぶ(ランキングする)。
-- 10件の中から選定した方が、よりよい要約文を選ぶことができた
- 文をまたぐ場合のような、文節間距離が長い文節も取得できている。全体の80から60%の文は2文以上の内容を含む要約文だった
- 入力も用例もニュースであったためにうまくいった。似た用例分をもってくるのが難しい。
C3-6 HTML文書からのリスティング広告の自動生成 幾島克洋, 藤田篤, 佐藤理史 (名大), 横川睦, 岩本宜式, 片岡亮 (リクルート)
- リスティング広告は、キーワード、タイトル、説明文の3要素から構成される
- ページの内容を良く表すキーワード、キーワードを含むタイトル、ページの内容を表す説明文
- 要約や抽出につかう、語の重み付けはTF-IDF
- メタタグやタイトルタグ中の語のTF-IDF値をみて、キーワードを選定する
- タイトル、キーワードと含む名詞句と動詞句を抽出する、言い換えるなどして、タイトル生成
- 本文の構文情報から文節対を抽出し、TF-IDFと関係によってランキングする
-- 動詞関係に最も強い重み
- コアの一方をもつ文節対も集め、全体で35文字以内になるように構成する
- 実験を実際に検索サイトに出稿して評価。
- 自動生成の1文目に加え、2文目に人手による説明文を追加した
- 50%程度の提案手法による広告は既存のテンプレートベースの広告より性能がよかった
- キーワードが与えられた場合には、一つのキーワードごとに要約文生成をする
- 先生が出てきてしまった
- 個人的には人間による説明文を加えなかったときにどうなるのか知りたい
C3-7 13文字で何が伝えられるか:ウェブニュースボックス見出しの分析 佐藤理史 (名大)
- 13文字で何が伝わるのかな
- どうして短いのに、効果的に機能するのか
- どんな見出しが優れた見出しなのか
- Webニュースの見出しの構造を分析し、以下を分析
-- 短さの実現方法
-- 見出しっぽさ
- ページデザインに依存する見出しには文字数制限がある。
-- サンケイ、goo、Asahi.comの見出しの長さを比較してみた
--- サンケイとgooなどweb系は11文字から16文字
--- 新聞はタイトルの長さ制限は無いが、15文字くらいが多い
- 共同通信の記者ハンドブックには、主見出し、脇見出しは12文字以内、3本目の見出しは11文字以内にするべきとかいてある
- そうすると、日本語のニュースを要約して10文字台前半の文字数で見出しをつくるのが目安
- 見出しは名詞句だけでなく、述語や述語相当の語を含む。文じゃん!
- 構成要素は2から4。代表的なのは3。より前の要素ほど情報量の多い要素になるように。
- 省略には、省略、短縮、助詞の削除、テンスの省略などある程度ルールがある。また思い切ってぶった切る場合もある。
-- 分からないことがあるおかげで、心をひくばあいもある
- 実は記者は、タイトルに基づいて本文を作っているんじゃないかなぁ。。。
- 記者は、目立つキーワードを選んでいるのではなく、組み合わせの意外性や、省略によるひっかかりなどを活用しているのでは
- スポーツニュースの見出しは、また別の話
「目覚まし時計3個は効く」、は本当かも
自宅に目覚まし時計が3つあります。
音に慣れてしまい、目が覚めなくなる度に買い替えたら3台になったわけです。
昨日目覚まし時計をセットしているときに、ふと、
「3個の目覚まし時計を10分おきにセットすると良く目が覚める」
という話を思い出しました。
本当かなぁと思いつつ、10分おきにセットして寝ると。。
なんと次の日にきちんと目が覚めました。
1つ目の目覚まし時計は、BGMのよう感じられ10分経っても覚醒しませんでしたが、
2つ目の時計が鳴ったとたん、ぱっ、と起きることができました。
まぁ、今日だけかもしれませんが。。

