Academic

图解 Flash Attention

Flash Attention 是目前针对 Attention 计算最优解决方案的开山工作,旨在从底层 GPU 的 HBM(High Bandwidth Memory)和 GPU 的片内 SRAM(Static Random Access Memory)的角度尽可能降低访存开销,从而加速 Attention 的计算,在长序列的情况下展现出了优良的性能。

然而,Flash Attention 对于 LLM 初学者来说很不好理解,因为它需要我们对 Attention 的计算过程有非常深入的了解,而其中的难点在于 Softmax 的计算的可分割性的理解。本文希望通过丰富的插图乃至动画,让 Flash Attention 能够通俗易懂。

图解 Flash Attention
Classification of Computation Offloading

2021年6月23日上午8:30,湖南大学信息科学与工程学院博士生导师李克勤教授在线上做题为《移动边缘计算中任务卸载的博弈论方法》的报告。

本文将李教授报告中关于边缘计算领域研究的十个维度进行整理。对这十个维度熟悉到一定程度后,任何关于边缘计算的工作我们都可以进行定位。