Regression

嘗試用 sklearn 進行分析。使用豐原站的觀測記錄，將資料分為訓練集 (train set) 與測試集 (test set)： train.csv：每個月前 20 天的所有觀測資料。 test_X.csv：從每個月剩下的 10 天中取樣。每筆資料包含連續 10 小時，以前九小時的所有觀測數據作為 Feature，預測第十小時的 PM2.5 濃度。一共取出 240 筆不重複的測試資料。 sklearn 在使用上非常直接。目前的策略是採用最基礎的方式：取出所有前九小時的值作為 Feature，不進行額外的特徵工程或化簡，直接觀察結果。在 Private 排名約在中間，略高於 Baseline。因為使用的是 Linear Regression，對 Gradient Descent 而言：計算一次斜率，直接就能找到解。 My Github

使用 Tensorflow 分析 Regression 的基礎練習 Nerual network 分析二維四次多項式先定義輸入輸出格式，None表示我們不限制它的Row 在 Tensorflow 中，要定義它是常數、變數，或是從外部輸入，必須要分別指定成： tf.constant() tf.Variable() tf.placeholder() 他才會是那個形式；而想使用 Tensorflow 的任何內容，必須要用 sess.run() 去啟動它，不然會是 Tensor 的格式。其中 sess = tf.Session() 定義一個 Y = W*x + b 的線性方程，在隱藏層中利用 activation function 去改變它。評估模型好壞常用有 square error 和 cross_entropy，這裡利用 square error 計算 loss。選擇基本的梯度下降並最小化 loss；optimizer 是個小於 1 的值。設定要訓練的數值和函數 (記得要有一定的雜訊) W shape = (in_dim, hidden_units) = (10,1) predictions shape = (200,1)*(1,10)*(10,1) = (200,1) 訓練 1000 次每 50 次看結果：視覺化和數據化 ...

Regression

Kaggle PM2.5 Prediction

Tensorflow 練習1 : Polynomial Regression