相田 太一‎ > ‎Kaggle勉強会‎ > ‎

2019/04/06

Coursera How to win a data science competition: learn from top kagglers

"Target mean encoding" 日本語解説[link]
  • 表のデータをどうやって計算機が使いやすい形にするか
  • 最初は過学習を防ぐ
  • Validationの時にどうしたらいいか
  • 与えられたデータのうち、訓練用データの方をregularization:正則化
  • K-fold、FOOを使う
  • 例)各ユーザが複数のappを使っている場合:ユーザ毎にベクトルで表すと良い
  • 例)時系列、各ユーザがいろんな買い物をする場合:1日毎に各ユーザの総額を求める
  • 計算機にはベクトルの形が嬉しいのかもしれない
"Hyperparameter" 
  • 調整するパラメータはたくさんあるが、その中で大事なものを絞る
  • パラメータのoptimization:最適化には時間がかかる。寝ているうちに計算を回しておく
  • RandomForest(ドキュメント見た方が早い。) 日本語解説[link]
    • n(number)_estimators:推定量は高い方が良い。RandomForest特有。森の大きさ、木の数。それぞれの木が分類器になっている。
      • ランダムフォレスト自体の説明になるが、それぞれの木(分類器)に分岐する。
    • max_depth:10,20~。それぞれの木(分類器)の深さ。
  • Neural
    • dropconnect:dropout を一般化したもの。隠れ層の接続をランダムに減らす。 日本語解説[link]

Comments