Llama提速500%！谷歌美女程序员手搓矩阵乘法内核

　　新智元报道

　　编辑：alan

　　近日，天才程序员 Justine Tunney 发推表示自己更新了 Llamafile 的代码，通过手搓 84 个新的矩阵乘法内核，将 Llama 的推理速度提高了 500%！

　　谷歌的美女程序员，将 Llama 的推理速度提高了 500%！

　　近日，天才程序员 Justine Tunney 发推表示自己更新了 Llamafile 的代码，

　　她重写了 84 个新的矩阵乘法内核，使得 Llamafile 可以更快地读取提示和图像。

　　与 llama.cpp 相比，新的 Llamafile 在 CPU 上的推理速度提升了 30% 到 500%。

　　其中，ARMv8.2+（如 RPI 5）、Intel（如 Alderlake）和 AVX512（如 Zen 4）计算机的改进最为显著。

　　另外，对于适合 L2 缓存的矩阵，新的内核比 MKL 快 2 倍！

　　Justine Tunney 表示：负责 MKL 的大家，你们有事做了！

　　毕竟，由微软，英特尔，TI，AMD，HPE，Oracle，Huawei，Facebook，ARM 和 National Science Foundation 资助的 BLIS，作为最强大的开源 BLAS，输了就太没面子了！

Any time somebody outside Intel beats MKL by a nontrivial amount, I report it to the MKL team. It is fantastic for any open-source project to get within 10% of MKL... [T]his is why Intel funds BLIS development. 每当英特尔以外的人以不小的幅度击败 MKL 时，我都会向 MKL 团队报告。对于任何开源项目，超过 MKL 10% 以内就已经非常厉害了......这就是英特尔为 BLIS 开发提供资金的原因。

　　跨平台的「羊驼」

　　Llamafile 作为一个本地 LLM 项目，诞生于去年 11 月，由 Justine Tunney 与 Mozilla 团队合作开发。

　　他们使用 Cosmopolitan Libc，将 llama.cpp 打包为一个跨平台的单个二进制文件，让「羊驼」可以在基于 AMD64 和 ARM64 的六个操作系统上运行。

　　而且在 GPU 短缺的情况下，Llamafile 可以不需要昂贵的 CUDA 内核，——家里的旧 CPU，只要性能还行，再加一点 RAM 就足够了，很好地保护了大家的钱包。

　　项目地址：https://github.com/Mozilla-Ocho/llamafile/releases

　　Llamafile 代码可以在 GitHub 上找到，使用 C++ 编写的，没有外部依赖，可以在 Linux、macOS、Windows、FreeBSD，甚至 SerenityOS 上编译。

　　而且，Justine Tunney 并没有就此止步。她已经在努力支持新的数据格式，比如 FP16 和 BF16，以进一步减少内存占用，——她甚至在 Raspberry Pi 上成功运行了 TinyLlama！

　　性能提升

　　老惠普

　　Justine Tunney 最开始尝试 LLM 时，用的是下面这台简陋的 HP 主机，运行 Alpine，机械硬盘、慢速 RAM、AVX2 处理器、没有 GPU。

　　HP Intel® Core™ i9-9900 ($439) w/ 2200 MT/s RAM

　　出于对 llama.cpp 的喜爱，Justine Tunney 与人合作为其引入了 mmap ()支持，使得权重可以立即加载，只使用原来一半的 RAM。

　　之后，Justine 又花了很长的时间来优化代码，让我来看一下改进后的效果：

　　在 Skylake 上，llamafile 实现了 2 倍的加速，llama.cpp 也获得了 50% 的性能提升。

　　到目前为止，Justine 为 q8_0、f16、q4_1、q4_0 和 f32 数据类型编写了优化的内核。

　　树莓派

　　最新版的树莓派不仅提升了主频，还引入了对 ARMv8.2 dotprod 和 fp16 算术 ISA 的支持，仅这两个功能就让 llama.cpp 在 f16 权重上实现了 10 倍性能提升。

　　因为树莓派的两个 CPU 都有 32 个矢量寄存器，Justine 使用为 AVX512 编写的内核，使推理速度又提高了 2 倍。

　　不过值得注意的是，新的 ARMv8.2 fp16 ISA 可能会引入比平时更多的错误，因为它会导致 llamafile 使用 fp16。因此，Q8_0 权重实际上的效果更好，因为它使用 dotprod ISA。

　　游戏主机

　　在 Alderlake CPU 上，Justine 将 float16 的性能提高了五倍。

　　与 ARMv8.2 不同，Alderlake 能够在不引入舍入错误的情况下做到这一点，因为内核在内部使用 float32 计算类型。

　　另外让人吃惊的是，当涉及到小工作负载时，这个芯片甚至能够在 CUDA 开始之前就完成任务。

　　苹果

　　Mac Studio，作为 llama.cpp 开发人员最关心的硬件平台，想要在这里提升性能比较困难。

　　另一个问题则是苹果自身的封闭环境：

　　M2 Ultra 将 RAM DIMM 放在了 CPU 内部，使得 token 生成等受延迟限制的操作速度更快，因为 CPU 不再需要打「长途电话」了。

　　我们可以看到，与便宜得多的英特尔计算机相比，M2 Ultra 仅通过 ARM ISA 暴露了 30% 的计算能力。

　　如果开发者想访问更多内容，则需要通过苹果的专有框架，例如 Metal 和 Accelerate。

　　AMD

　　虽然 llamafile 非常关心帮助缺乏 GPU 的人，但也为另外1% 的人提供了一流的体验。

　　AMD Ryzen Threadripper PRO 7995WX，通过花费 10,000 美元左右，你会得到 96 个基于 Zen4 架构的 AVX512 内核。

　　尽管价格只有 M2 Ultra 的两倍，但 7995WX x86 ISA 提供的原始计算能力是 M2 Ultra ARM ISA 的 7 倍，token 生成速度几乎相同，这可能要归功于 384M 的 L3 缓存。

　　通过 Justine 的优化，现在可以在 Zen4 上以 2.8 倍的速度运行 LLaMA。

　　天才程序员

　　Justine Tunney 出生于 1984 年，14 岁就开始帮别的黑客开发软件，当时的绰号是「Oogle」。

　　我们来浅浅地看一下她这些年的一些工作：

　　RedBean

　　一个 web 服务器，神奇的是可以跨平台在 6 种操作系统上运行！

　　这可不是 Java 那种叠了一层虚拟机的机制，Justine 开发了一种叫做 APE (Acctually Portable Executbale)的文件格式，可以在任何 x86-64 的操作系统上执行。

　　「一次编译，处处运行」——Java：嗯？这不是我吗？

　　cosmopolitan libc

　　为了能够跨平台调用外部程序，比如c标准库，Justine 直接手搓了一个 libc，在各种平台上实现了所有需要的核心操作：

　　看一下上面的工作量，实在是太炸裂了，而且一般人就算想肝，没有实力也是不可能的。

　　sectorLisp

　　仅有 512 个字节，最小的 Lisp 实现，可通过 BIOS 引导启动：

　　除了上面这几个，还有诸如 Blinkenlights、RoseHub 等天才项目，这里不再一一列举。

　　对于这番成就，有网友感叹道：

Every time I read something by Justine Tunney， I am continually reminded of my mediocrity.

　　对于之前提到的 mmap 工作，网友评价：「有 Fabrice Bellard 之风」。

Justine Tunney is a true genius. Similar to Fabrice Bellard, a truly unique mind. Justine or Fabrice are the true 10x engineers, their output is world class and they are much rarer than any hiring article about these gurus want us to believe. With Justines work, I feel would need to be more than a 1x engineer myself just to find the time to play with all of her creations.

　　2012 年，Justine Tunney 开始在谷歌工作，并负责了一些知名项目的关键部分。