言語処理学会第14回年次大会(NLP2008) 2日目

言語処理学会の全国大会の2日目に行ってきました。
とりあえずは、午前の要約セッションだけ。

- NLP2008 program
-- http://nlp2008.anlp.jp/program.html#C2

- 日時: 2008年 3月17日(チュートリアル)
-- 18日〜20日(本会議)
-- 21日(ワークショップ)
- 会場: 東京大学 駒場キャンパス 5号館, 13号館


C3-5 要約文の選定による用例利用型要約の可読性向上 牧野恵, 山本和英 (長岡技科大)


- タイトルを構文解析を使わない統計に基づく文短縮手法に変更
- 構文解析結果を模した単語重み付け(IPDW)
-- 主語が出やすい文の先頭付近と、述語が出やすい文末付近の重みを高める
- 言語モデルによる処理(PLM)
- 一般的なnグラム確率は長短ざまざまな長さを含むコーパスで計算される
- しかし、大量の原文およびその短縮分があれば、言語モデルを構築できる
-- 語が隣り合うなら1, となり合わないなら巨大コーパスのbi-gramを使う
-- POSのbi-gramも素性に入れるよ
- 2つの要素をくっつけて、λを誤り最小化学習を行ない決める
- 人間が正解を作成する際に、その短縮率をあらかじめ0.6に指定した
- IPDWとPLMは両方とも有効だが、これらに係り受け確率を混ぜると結果が悪くなる
- 結果的には、構文解析を保存しない文短縮が実現できている(かも)、と思われる
- 速度的には係り受け解析を利用する場合に比べて3倍早い
- 学習された混合正規分布は、日本語と英語で全然違う形になる
-- 主語述語の出る位置が違うから
- 体現止めに有効じゃないかもしれないPLM以外に、IPDWを使ってる
-- 細かく見ると微妙かもしれないけどなぁ

C3-5 要約文の選定による用例利用型要約の可読性向上 牧野恵, 山本和英 (長岡技科大)


- 人間は単語の重要度を考慮した要約をするとは限らない
- 複数文の情報を含んだ要約文が機械的にできるとは限らない
- 重要度の決定を行なわずに、複数文の情報を含む要約文をつくる
- 類似用例文を獲得し、類似用例文と入力文の文節を、1対多で対応づける。
-- 入力文の文節を助詞、固有表現タグ、単語類似度の観点から類似用例文の文節に対応づける
- 対応文節の組み合わせ
-- 要約文である類似用例文と入力文を対応付けし、エッジを引くと、ラティスを作れる
-- ノードには、文節の対応付けに使った要素を用いたスコア
-- エッジには文節間距離を考慮したスコア
-- 類似用例文と対応するノードを通り抜けたときに、スコアが最大になるようなノードを入力文から順に抜き出してシーケンスを構成する
- 可読性と内容適切性が、既存研究より良かった。
- 要約文の選定
-- 上位10件の要約を選定し、その中から考案した尺度に基づきより良い要約文を選ぶ(ランキングする)。
-- 10件の中から選定した方が、よりよい要約文を選ぶことができた
- 文をまたぐ場合のような、文節間距離が長い文節も取得できている。全体の80から60%の文は2文以上の内容を含む要約文だった
- 入力も用例もニュースであったためにうまくいった。似た用例分をもってくるのが難しい。

C3-6 HTML文書からのリスティング広告の自動生成 幾島克洋, 藤田篤, 佐藤理史 (名大), 横川睦, 岩本宜式, 片岡亮 (リクルート)


- リスティング広告は、キーワード、タイトル、説明文の3要素から構成される
- ページの内容を良く表すキーワード、キーワードを含むタイトル、ページの内容を表す説明文
- 要約や抽出につかう、語の重み付けはTF-IDF
- メタタグやタイトルタグ中の語のTF-IDF値をみて、キーワードを選定する
- タイトル、キーワードと含む名詞句と動詞句を抽出する、言い換えるなどして、タイトル生成
- 本文の構文情報から文節対を抽出し、TF-IDFと関係によってランキングする
-- 動詞関係に最も強い重み
- コアの一方をもつ文節対も集め、全体で35文字以内になるように構成する
- 実験を実際に検索サイトに出稿して評価。
- 自動生成の1文目に加え、2文目に人手による説明文を追加した
- 50%程度の提案手法による広告は既存のテンプレートベースの広告より性能がよかった
- キーワードが与えられた場合には、一つのキーワードごとに要約文生成をする
- 先生が出てきてしまった
- 個人的には人間による説明文を加えなかったときにどうなるのか知りたい

C3-7 13文字で何が伝えられるか:ウェブニュースボックス見出しの分析 佐藤理史 (名大)


- 13文字で何が伝わるのかな
- どうして短いのに、効果的に機能するのか
- どんな見出しが優れた見出しなのか
- Webニュースの見出しの構造を分析し、以下を分析
-- 短さの実現方法
-- 見出しっぽさ
- ページデザインに依存する見出しには文字数制限がある。
-- サンケイ、goo、Asahi.comの見出しの長さを比較してみた
--- サンケイとgooなどweb系は11文字から16文字
--- 新聞はタイトルの長さ制限は無いが、15文字くらいが多い
- 共同通信の記者ハンドブックには、主見出し、脇見出しは12文字以内、3本目の見出しは11文字以内にするべきとかいてある
- そうすると、日本語のニュースを要約して10文字台前半の文字数で見出しをつくるのが目安
- 見出しは名詞句だけでなく、述語や述語相当の語を含む。文じゃん!
- 構成要素は2から4。代表的なのは3。より前の要素ほど情報量の多い要素になるように。
- 省略には、省略、短縮、助詞の削除、テンスの省略などある程度ルールがある。また思い切ってぶった切る場合もある。
-- 分からないことがあるおかげで、心をひくばあいもある
- 実は記者は、タイトルに基づいて本文を作っているんじゃないかなぁ。。。
- 記者は、目立つキーワードを選んでいるのではなく、組み合わせの意外性や、省略によるひっかかりなどを活用しているのでは
- スポーツニュースの見出しは、また別の話

投稿者:としのり  日時:23:59:59 | コメント | トラックバック() |