Kaggle PM2.5 Prediction

嘗試用 sklearn 進行分析。 使用豐原站的觀測記錄,將資料分為訓練集 (train set) 與測試集 (test set): train.csv:每個月前 20 天的所有觀測資料。 test_X.csv:從每個月剩下的 10 天中取樣。每筆資料包含連續 10 小時,以前九小時的所有觀測數據作為 Feature,預測第十小時的 PM2.5 濃度。一共取出 240 筆不重複的測試資料。 sklearn 在使用上非常直接。目前的策略是採用最基礎的方式:取出所有前九小時的值作為 Feature,不進行額外的特徵工程或化簡,直接觀察結果。 在 Private 排名約在中間,略高於 Baseline。 因為使用的是 Linear Regression,對 Gradient Descent 而言:計算一次斜率,直接就能找到解。 My Github

2017-06-13 · 1 min read · 37 words · KbWen · ZH

Tensorflow 練習1 : Polynomial Regression

使用 Tensorflow 分析 Regression 的基礎練習 Nerual network 分析二維四次多項式 先定義輸入輸出格式,None表示我們不限制它的Row 在 Tensorflow 中,要定義它是常數、變數,或是從外部輸入,必須要分別指定成: tf.constant() tf.Variable() tf.placeholder() 他才會是那個形式;而想使用 Tensorflow 的任何內容,必須要用 sess.run() 去啟動它,不然會是 Tensor 的格式。 其中 sess = tf.Session() 定義一個 Y = W*x + b 的線性方程,在隱藏層中利用 activation function 去改變它。 評估模型好壞常用有 square error 和 cross_entropy,這裡利用 square error 計算 loss。 選擇基本的梯度下降並最小化 loss;optimizer 是個小於 1 的值。 設定要訓練的數值和函數 (記得要有一定的雜訊) W shape = (in_dim, hidden_units) = (10,1) predictions shape = (200,1)*(1,10)*(10,1) = (200,1) 訓練 1000 次每 50 次看結果:視覺化和數據化 ...

2017-04-13 · 1 min read · 79 words · KbWen · ZH