BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
這篇介紹一下常常聽到的BERT是怎麼樣運作的。
Deep contextualized word representation
這篇簡單介紹一下赫赫有名的ELMo,其源自於Deep contextualized word representation這篇paper。
Gradient Descent和Learning Rate
稍微講一下Machine Learning當中經常被使用的gradient descent的概念以及調整learning rate的方法。
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
這篇paper想要去尋找一個最佳的初始化參數,讓model可以在各個task上都可以得到不錯的表現。
58 post articles, 8 pages.