IMDb 是一個電影相關的線上資料庫。這次要利用 IMDb 的影評文字,預測它屬於正面評價還是負面評價。

在深度學習模型中,輸入必須是數字。Keras 提供了 Tokenizer 模組,會依照英文單字出現頻率進行排序並編號:Keras Tokenizer 官方文件

接著利用 Word Embedding 將編號清單轉換為向量清單,最後丟進 LSTM 模型進行學習。

IMDb1

Keras 封裝了許多方便的功能,讓文字轉數字與模型建立變得非常簡單。

IMDb2

這是我的 Model Summary。將數字序列轉換為 64 維的向量序列,並使用了三層隱藏層進行訓練。

準確率:0.8543

實際測試

造訪 IMDb 網站,抓取《蜘蛛人:返校日 (Spider-Man: Homecoming)》的評論進行檢驗。輸入正面評論後,模型正確辨識為正面(1 為正面,0 為負面)。

My Github