https://www.jnlp.org/
(広告募集)
文書の過去の版を表示しています。
attentionのみを用いたモデルで、再帰も畳み込みも一切使わない。並列化がかなりしやすく訓練時間が圧倒的に削減でき、他のタスクにも汎用性が高い。BERT、XLNet、GPT-2などのモデルのベースとなっている。