Deep Reinforcement Learning for Online Advertising in Recommender Systems
用Reinforcement Learning來訓練廣告系統,決定廣告該要怎麼顯現。
REINFORCE和Proximal Policy Optimization
在製作model的時候,有時會參雜一些人工定義分數的部分,這時我們就不能夠單純使用gradient descent來訓練我們的model,因為人工定義的分數是無法被微分的,然而我們還是可以靠一些方式來把這些分數整合到model的objective function中,並利用我們熟悉的gradient descent來訓練。
54 post articles, 7 pages.