Academic

图解 Flash Attention

Flash Attention 是目前针对 Attention 计算最优解决方案的开山工作，旨在从底层 GPU 的 HBM（High Bandwidth Memory）和 GPU 的片内 SRAM（Static Random Access Memory）的角度尽可能降低访存开销，从而加速 Attention 的计算，在长序列的情况下展现出了优良的性能。

然而，Flash Attention 对于 LLM 初学者来说很不好理解，因为它需要我们对 Attention 的计算过程有非常深入的了解，而其中的难点在于 Softmax 的计算的可分割性的理解。本文希望通过丰富的插图乃至动画，让 Flash Attention 能够通俗易懂。

Last updated on Jan 29, 2024 7 min read Academic

Towards Efficient Generative Large Language Model Serving: A Survey From Algorithms to Systems

随着 AI 的飞速发展，特别是伴随着 ChatGPT 的诞生，标志着深度学习已经进入了大语言模型（Large Language Models，LLM）的时代。然而，LLM 由于其本身的复杂性和大规模而给部署和服务带来了前所未有的挑战。

来自卡内基梅隆大学的 Catalyst 团队在他们的最新综述论文中，从机器学习系统的研究视角出发，详细分析了前沿 LLM 推理从算法到系统的产生的重大变革。

Last updated on Jan 19, 2024 7 min read Academic

并行计算集合通信初步

作为并行计算的一个重要概念，集合通信经常被用来构建高性能的单程序流/多数据流（Single Program-Multiple Data, SPMD）程序，譬如分布式机器学习系统。本文将介绍集合通信中的常见算子，并分析其复杂度。

Nov 5, 2023 8 min read Academic, Knowledge

大模型的参数量及其计算访存开销的理论分析

推理服务系统的根本目标在于降低时延和提高吞吐量，LLM 推理的优化也是如此。首字时延（Time To First Token, TTFT）和吐字时延（Time Per Output Token, TPOT）就是两个非常重要的指标。如何优化 LLM 推理的这两个指标成为近年来学术界热议的问题。在研究这个问题之前，有必要深入理解 LLM 架构，分析其参数量和计算访存开销。

Last updated on Dec 21, 2023 10 min read Academic

A Survey of Recent Advances in Edge-Computing-Powered Artificial Intelligence of Things

本文是一篇关于边缘计算赋能人工智能物联网 AIoT 的研究综述，于 2021 年发表在 CCF A 类期刊 Internet Things of Journal (IoT-J) 上。

Jun 6, 2022 27 min read Academic

A Survey of Recent Advances in Edge-Computing-Powered Artificial Intelligence of Things

Types of Transition Words and Phrases in Academic Writing

Transition words and phrases (also called linking words, connecting words, or transitional words) are used to link together different ideas in your text. They help the reader to follow your arguments by expressing the relationships between different sentences or parts of a sentence.

过渡的单词和短语（也称为连接词）用于将文本中的不同观点连接在一起。它们通过表达不同句子或句子部分之间的关系来帮助读者理解你的论点。

May 17, 2022 3 min read Knowledge, Academic

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Vision Transformer (ViT) 是目前计算机视觉 (CV) 领域影响力最大的一项工作，因为他挑战了自从 2012 年 AlexNet 提出以来的 CNN 模型在 CV 领域的绝对统治地位。实验表明，如果能够在足够多的数据集上做预训练，那么即使不使用 CNN 也能达到同等甚至更高的精度。

ViT 不仅在 CV 领域挖了一个大坑，而且还打破了 CV 和 NLP 在模型上的壁垒，所以在多模态领域也挖了一个大坑。于是，在 2020 年 10 月本文在 arXiv 上公开以后，基于 ViT 的工作层出不穷。毫无疑问，ViT 标志着 Transformer 模型正式杀入 CV 界，也标志着 Transformer 模型正式成为继 MLP、CNN、RNN 之后的一种新的模型范式。

原文链接

Nov 30, 2021 14 min read Academic

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Attention Is All You Need

Transformer 是目前人工智能和深度学习领域最著名的模型之一，由 Google 团队于 2017 年 6 月提出，发表在 NeuralPS（Conference on Neural Information Processing Systems）上。起初是为了解决自然语言处理（Natural Language Processing, NLP）领域中的机器翻译问题，没想到它的效果竟然超越了循环神经网络（Recurrent Neural Networks, RNN），只需要用 encoder 和 decoder 以及注意力 attention 机制就可以达到很好的效果。

Transformer 本身是专门为 NLP 领域量身定制的，但是后来人们将图像等数据编码和序列化之后同样可以放进 Transformer 中进行训练，并且也能让模型达到和卷积神经网络（Convolutional Neural Networks, CNN）和深度神经网络（Deep Neural Networks, DNN）相比更加出其不意的效果。这才让 Transformer 在计算机视觉领域大火了起来。

原文链接

Nov 9, 2021 11 min read Academic

Edge Intelligence: Architectures, Challenges, and Applications

这篇关于边缘智能的综述文章最近一次修订时间为2020年12月。这篇文章的作者将边缘智能的相关工作分为四大部分：边缘缓存、边缘训练、边缘推断、边缘卸载，并且针对每部分研究工作进行了深入的文献调研和阐述分析。

原文链接

Jul 8, 2021 14 min read Academic

Edge Intelligence: Architectures, Challenges, and Applications

Classification of Computation Offloading

2021年6月23日上午8:30，湖南大学信息科学与工程学院博士生导师李克勤教授在线上做题为《移动边缘计算中任务卸载的博弈论方法》的报告。

本文将李教授报告中关于边缘计算领域研究的十个维度进行整理。对这十个维度熟悉到一定程度后，任何关于边缘计算的工作我们都可以进行定位。

Jul 5, 2021 4 min read Academic