Learning Combination Features with L1 regularization

 Daisuke Okanohara, Jun'ichi Tsujii
 Proceedings of NAACL HLT 2009

線形の分類器(SVMなど)がよく分類できないとき、元々の素性の組み合わせを新たな素性として使用する。
しかし、有効な組み合わせの素性を見つけることは、簡単でない。
この問題を解決するこの論文の方法は:
  • すべての組み合わせの素性を使う。
  • Grafting + L1正則化付Logistic回帰モデルを用いて、有効な素性を選ぶ(素性選択と言っても良い)
    • L1正則化付Logistic回帰モデルの特徴は、結果(モデル)では、0である素性あるいは無効な素性が圧倒的に多い。その素性を消しても良い。L2とほぼ同じ精度だけど、有効な素性の数はL2の素性の1/10である。
    • Graftingと組み合わせて、無効な素性がもっと出る。
  • 有効な素性のみ使う。
結論:
  1. L1-LRの特徴:
    • 学習時間が速い(KernelとL2と比較すると50倍)
    • 使用素性が少ない(L2と比較すると1/1000(!) )
    • 使用メモリが少ない(普通のPCでもできる)
    • Graftingと組み合わせて、もっと効率
Comments