丸山 拓海‎ > ‎

文献調査メモ

Simple English Wikipedia: A New Text Simplification Task

William Coster, David Kauchak
Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:shortpapers, pages 665–669(2011)


概要
・English Wikipedia(Normal)とSimple English Wikipedia(Simple)から137,000文対の平易化コーパスを構築
・作成したコーパスとPB-SMT(Moses)を用いて文単位の平易化

平易化コーパス
・Normal sentenceからSimple sentenceへの変換
rewording 65%, deletion 47%, reorders 34%, merges 31%, split 27%
・平易化コーパスの27%はNormal,Simple間で一致


文単位の平易化
・手法: None(平易化なし), Moses, Moses-Oracle
・評価: BLEU, SSA, word-F1
・Mosesを用いることでBLEUが0.005向上
・Moses-Oracleにより, BLEUが0.034改善できることを示す


Learning to Simplify Sentences Using Wikipedia

William Coster, David Kauchak
Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, pages 1–9 (2011)


概要
・deletion(句の削除)を考慮した平易化モデル(Moses+del)を提案

句の削除
・"Normal"が"Simple"に対応付けされなかった場合に"NULL"を割り当てる
・Normal単語の集合(N)が一つのSimple word(s)に割り当てられており、Nの要素の一つnがsに対応付けされたならば、
 n以外のNの要素(n')に"NULL"を割り当てる


文単位の平易化
・手法: None(baseline)、文圧縮手法(K&M, T3)、Moses、提案手法(Moses + del)
・評価: BLEU、SSA、word-F1
・Moses+delがMosesをBLEUにおいて0.009上回る






Optimizing Statistical Machine Translation for Text Simplification

Wei Xu, Courtney Napoles, Ellie Pavlick, Quanze Chen and Chris Callison-Burch
Transactions of the Association for Computational Linguistics, vol. 4, pp. 401–415, 2016.


概要
・平易化システム(SMT) のチューニング
- 大規模コーパスから獲得した換言ルール
- 人手によって作られた小規模な平易化コーパス
- 文平易化の自動評価尺度


自動評価尺度
入力文-参照文間の変化がない場合にペナルティを設ける
・FKBLEU: n入力と出力の変化分を考慮 + 可読性の評価
・SARI: 適切に平易化が行われているかを評価

結果
・SARIによってシステムを最適化することで、既存手法を上回る結果を実現
・SARIが人間の評価と相関があることを示す。



Lexical Simplification with Neural Ranking

Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2,
Short Papers, pages 34–40, Valencia, Spain, April 3-7, 2017

概要
・ニューラルネットワークを用いた語彙平易化手法の提案
・語彙平易化タスクでトップスコアのシステムを実現
・従来手法よりも文法/意味エラーが少ない

置換候補の生成パラレルコーパスと分散表現を組み合わせた手法
・Newsela コーパス(パラレルコーパス)
・context-aware word embeddings model

置換候補のランク付け回帰モデルによるランク付け、信頼性のチェック 
・neural regression model

実験結果, エラー分析
・語彙平易化タスクでトップスコアのシステムを実現
 ・従来手法よりも文法/意味エラーが少ない
Comments