LREC2018 総括

発表タイトル:    Crowdsourced Corpus of Sentence Simplification with Core Vocabulary

質疑応答

Q そもそも平易化とは? 平易化の目的は誰を対象としたものか
    A 日本語学習者を対象としており、少ない語彙数でできるだけ情報を得られる環境を作ることをこの平易化の目的としている。
Q この後のコーパスの使用用途は
    A 機械翻訳のデータとしたり、平易化モデルの評価に使えないかと考えている
Q クラウドソーシングで相手にわかりやすくする工夫は何かあったか
    A 2000語と2000語以外の単語を色分けして視覚的に分かりやすくしている

発表内容

発表でも質疑応答でも英語の実力不足を強く感じた。最低限相手に自分の考えを伝えられることが重要だと実感させられた。
人によってポスター内でも興味を持つ場所が違い、他も回りたいからこの箇所だけ説明してくれという人も多かった。
質問としてはクラウドソーシングをどのように利用したのかを詳しく聞いてくる人が多かった用に感じた。
データを公開するのであればそれを使った平易化モデルやその精度などが一緒にあると、これからそのデータを使う人の目安になって研究がしやすくなるという意見も頂いた。

LREC全体の所感

LRECでは言語処理だけでなく画像や音声処理を専門としている人をいるので様々な分野の研究を見ることができた。
発表の中にはテキストと画像両方を合わせたデータを作り今後は複数の分野を複合させて行こうと考えている人たちもいた。
今後はそのような方向の研究も増えてくるのかなと感じた。
開催地が日本であったためか比較的日本語の研究が多かったように思う。

興味を持った研究

JESC: Japanese-English Subtitle Corpus
ネットから字幕データをクロールし構築した320万文の日英対訳コーパス
このコーパスでは口語の対訳も対象としている

PDFAnno: a Web-based Linguistic Annotation Tool for PDF Documents
PDFファイルに対して直接テキストにアノテーションをすることのできるツール
今まではテキスト抽出してからアノテーションをしていたため、データが抽出するツールに依存していた

PDF-to-Text Reanalysis for Linguistic Data Mining
PDFから半構造化テキストの抽出
ブロック検出、再配置、表データの解析などを行っている

J-MeDic: A Japanese Disease Name Dictionary based on Real Clinical Usage
医療分野での単語正規化辞書の拡張を行っている
データに信頼性などを付与している

Parser combinators for Tigrinya and Oromo morphology
ルールベースによる複数言語の解析を行っている

Analyzing Vocabulary Commonality Index Using Large-scaled Database of Child Language Development
8〜48ヶ月の日本の子供を対象に共通語の獲得の調査を行った。
子供が最初に覚える単語は共通性が高いことが示されている。

CEFR-based Lexical Simplification Dataset
単語の難易度を基に換言辞書を作成し、必ず変換先が平易となるように辞書を作り直している
データは人手の評価を基に構築している
Comments