Kaggle PM2.5 Prediction

嘗試用 sklearn 進行分析。

使用豐原站的觀測記錄，將資料分為訓練集 (train set) 與測試集 (test set)：

train.csv：每個月前 20 天的所有觀測資料。
test_X.csv：從每個月剩下的 10 天中取樣。每筆資料包含連續 10 小時，以前九小時的所有觀測數據作為 Feature，預測第十小時的 PM2.5 濃度。一共取出 240 筆不重複的測試資料。

sklearn 在使用上非常直接。目前的策略是採用最基礎的方式：取出所有前九小時的值作為 Feature，不進行額外的特徵工程或化簡，直接觀察結果。

在 Private 排名約在中間，略高於 Baseline。

kagglepm25

因為使用的是 Linear Regression，對 Gradient Descent 而言：計算一次斜率，直接就能找到解。

相關文章#