Flash Attention2 September 11, 2024 6 minute read Flash Attention 扩大Transformer中上下文长度的规模是一个挑战,这是因为Attention layer的运行时间和内存需求是输入序列长度的二次方