Deep Reinforcement Learning for Online Advertising in Recommender Systems
用Reinforcement Learning來訓練廣告系統,決定廣告該要怎麼顯現。
REINFORCE和Proximal Policy Optimization
在製作model的時候,有時會參雜一些人工定義分數的部分,這時我們就不能夠單純使用gradient descent來訓練我們的model,因為人工定義的分數是無法被微分的,然而我們還是可以靠一些方式來把這些分數整合到model的objective function中,並利用我們熟悉的gradient descent來訓練。
Playing Atari with Deep Reinforcement Learning
在之前的文章有提到Q-Networks,但卻沒有細講它的運作方式,這篇來介紹一下這曾經上過Nature的paper。
Generative Adversarial User Model for Reinforcement Learning Based Recommendation System
Reinforcement Learning很適合用在推薦系統上,然而要訓練RL需要很多跟使用者互動的經驗,這篇paper使用類似GAN的方法來去創造user model,以跟推薦系統互動。
49 post articles, 7 pages.