嘗試用 sklearn 進行分析。

使用豐原站的觀測記錄,將資料分為訓練集 (train set) 與測試集 (test set):

  • train.csv:每個月前 20 天的所有觀測資料。
  • test_X.csv:從每個月剩下的 10 天中取樣。每筆資料包含連續 10 小時,以前九小時的所有觀測數據作為 Feature,預測第十小時的 PM2.5 濃度。一共取出 240 筆不重複的測試資料。

sklearn 在使用上非常直接。目前的策略是採用最基礎的方式:取出所有前九小時的值作為 Feature,不進行額外的特徵工程或化簡,直接觀察結果。

在 Private 排名約在中間,略高於 Baseline。

kagglepm25

因為使用的是 Linear Regression,對 Gradient Descent 而言:計算一次斜率,直接就能找到解。

My Github