丸山 拓海‎ > ‎

LREC2018 参加報告


全体の総括
個人的には、multimodal corpus(画像, 音声, ジェスチャー + 自然言語)を多く見かけた気がする。このようなコーパスが大規模に構築されていくことによって、今後さらに自然言語と画像, 音声などといった別な情報を組み合わせた研究が増えいていくだろうと感じた。また、多言語の字幕コーパス, 字幕のパラ
レルコーパスもいくつか見かけた。字幕コーパスの特徴は、複数人での会話が含まれていることにあると思う。このようなコーパスが増えることで、対話研究が今後も注目されるだろうと思った。Crowdsorcingを利用した知識構築, 調査などについてもいくつか聴講した。crowdsorcingを利用するメリットとしては、(データの品質は保証されないが)低コストで大規模なデータを構築できることにある。もう一方で、多種多様な人々に依頼できるという側面がある。方言に関する研究などでは、こちらの特徴を上手く利用して、調査を行っていた。crowdsorcingの難しいところは、タスクの依頼の仕方にある。いかに単純で明快な問題を設計するかがポイントであり、それぞれのタスクに応じて、依頼方法に工夫されていたように感じた。

興味深かった発表のまとめ, メモ
    The 13th workshop on Asian Language Resources
      Raoul Blin
      正解データを使わずにパラレルコーパスの文アライメント結果を評価するという内容。
     1単語翻訳をもとにアライメントを評価する。

    The 11th workshop on Building and Using Comparable Corpora
       Houda Bouamor and Hassan Sajjad
       BUCC2018 shared task: Comparable Corporaから対応する文のペアを抽出するというタスク。
       ソース側の文数をS, ターゲット側の文数をTとすれば探索範囲はSTとなり、非常に広い範囲を対象としなければならない。
       ここでは、次の2つのステップで対応する文のペアを抽出する: (1) multilingual sentence embeddingを使って対応候補N文を抽出する(探索範囲の削減)。
       (2)機械翻訳とBLEU, 二値分類器を用いて、候補Nから最もふさわしいものを1つ選択する。

       Pierre Lison and A. Seza Dogruöz
       機械翻訳によって生成された字幕を特定するという問題を扱う。
       ニューラルネットワークをベースにした手法でF1 score 0.64を実現。

       Main Conference
       Xiaoqing Li, Jiajun Zhang and Chengqing Zong
       動的なNeural machine translation(NMT)のモデルを提案。
       モデルの構築を次の2つのステップによって行う: (1) トレーニングデータを全て使用してmodelをトレーニングする(これをGeneral modelと呼ぶ)。
       (2) テストの際に、各テスト文に類似した文をトレーニングデータから収集しSubsetを構築する。このSubsetを用いて、General modelをFine-tuning
       する。結果として、類似度が高い文でFine-tuningした際には、BLEUが10ポイント以上向上した。

      Vivi Nastase, Devon Fritz and Anette Frank
      ROCStories corpus, The argumentative micro texts corpusに含まれるテキストの修飾語に対し、次の3つのうちいずれかのタグを割り当てたデータセット
      を構築: crutial(その修飾語を削除するとテキストの意味が変化してしまう), not-crutial(その修飾語を削除しても、テキストの意味に支障はない), 
      ungrammatical(その修飾語を削除すると文法誤りが生じる)。 knowledge extraction, text simplification, summarizationに活用することが目的。

      Lung-Hao Lee, Yuen-Hsien Tseng and Liping Chang 
      Test Of Chinese as a Foreign Language(TOCEL)から収集したessayのデータに文法誤りのタグを付与したデータセットを構築。

      Sanja Štajner and Sergiu Nisioi
      In-domain text simplificationとCross-domain text simplificationでのseq2seq modelの挙動を調査(Wiki, Newselaの2つのデータセットを利用)
      Cross-domainよりもIn-domainの方が高い性能。人手評価において、seq2seq modelがDRESS-LSよりも高い評価を得られることを確認。

      Tolga Uslu, Alexander Mehler, Daniel Baumartz and Alexander Henlein
      FastTextのアイデアをWSDの領域に拡張したモデルを提案。

      Sanja Štajner, Marc Franco-Salvador, Paolo Rosso and Simone Paolo Ponzetto
      平易化コーパス構築用のアライメントツールを公開したという内容。ツールでは、次の3つのアライメント手法が実装されている: 
      (1) n-gramベースの手法 (2) 最長増加部分列を用いたアライメント手法 (3) 文分割もカバーできるように(2)を拡張した手法。
       
      Maximiliana Behnke, Antonio Valerio Miceli Barone, Rico Sennrich, Vilelmini Sosoni, Thanasis Naskos, Eirini Takoulidou, Maria Stasimioti, 
      Menno van Zaanen, Sheila Castilho, Federico Gaspari, Yota Georgakopoulou, Valia Kordoni, Markus Egg and Katia Lida Kermanidis
      機械翻訳をcrowdsorcingで収集したデータでdomain adaptationし性能を改善したという内容。
      機械翻訳において、in-domainのデータが増加すれば、BLEUスコアも格段に向上する。そこで、crowdsorcingを用いて, in-domainのparallel dataを
      収集した。結果として、crowdsorcingで構築されたデータを追加することで性能が改善された。crowdsorcingで収集したデータは、コスト面や品質面
      から見て効果的であったと結論付けている。

      Edouard Grave, Piotr Bojanowski, Prakhar Gupta, Armand Joulin and Tomas Mikolov
      157言語のword vectors(multilingual word vectors)を公開。word vectorを構築する際に重要なのはtraining dataである。
      ここでは、training dataに次の2つのデータを用いる: (1) Wikipedia (high quality but small) (2) Crawl (noisy but larger)。
      結果として、Wiki dataにcrowl dataを加えることで、様々な言語でword vectorの品質が向上した。

      Carolina Scarton, Gustavo Paetzold and Lucia Specia
      Newsela corpusを使ったtext simplificationについての調査。
      Newselaに対して、文アライメントアルゴリズムを適応し、パラレルコーパスを構築。
      構築したコーパスを用いることで、Lexical simplificationやmachine translation approachでの性能改善を確認。

      Carolina Scarton, Gustavo Paetzold and Lucia Specia
      手作業で文レベルの平易化パラレルコーパス(英語)を作るという内容。
      現段階では、語彙的に平易化された文が3,300文、構文的に平易化された文が1,100文が存在する。
      10,000文以上作成することを目標として掲げている。

Comments