논문 리뷰_reformer

less than 1 minute read

Reformer: the efficient Transformer

pdf

처음에 이 논문이 나왔을떄는 정말 놀랐다. locality-sensitive hashing을 이용해서 원래 sequence length의 제곱에 비례하는 attention 과정의 time complexity를 linear하게 단축시킬 수 있다니! 후속 연구가 활발히 이루어져서 더 발전되었으면 좋겠다.

slide1

slide2

slide3

slide4

slide5

slide6

slide7

slide8

slide9

slide10

Updated:

Leave a comment