Recent posts

Flash Attention2

6 minute read

Flash Attention 扩大Transformer中上下文长度的规模是一个挑战,这是因为Attention layer的运行时间和内存需求是输入序列长度的二次方