从零实现Gemma 3 270M ，普通笔记本也能跑 - 文章 - 开发者社区

Github64k的高星《从零构建大语言模型》的作者Sebastian Raschka，把 Google 的 Gemma 3 270M 用纯 PyTorch 重新实现了（之前从零实现了qwen3），只需 1.49GB 内存，笔记本或者Google Colab 都能跑。

picture.image

Google 推出超小杯 AI：Gemma 3 270M！可进手机和浏览器这个 270M 参数的小模型只用了 4 个 attention head，设计很极简。在大家都在拼大模型的时候，Google 反而走了轻量化路线。（Google 推出超小杯 AI：Gemma 3 270M！可进手机和浏览器）

picture.image

Sebastian 的代码风格一向干净，没有过度封装。想真正理解 Transformer 架构的，这比啃论文实用多了。已经有大学教授在用他的材料教学，从头实现确实比调 API 学得深。这种小模型更适合做学习工具或者特定任务的微调底座。有人想用它做 RAG 的 reranker，考虑到 60% 的 embedding 结构，倒是个有趣方向。

最重要的是门槛够低，普通笔记本就能跑，连 GPU 都不用，想入门 LLM 架构的可以试试。

picture.image

想要系统学习的建议购买他的这本书：

picture.image

GitHub：

https://github.com/rasbt/LLMs-from-scratch/blob/main/ch05/12\_gemma3/

https://github.com/rasbt/LLMs-from-scratch/blob/main/ch05/11\_qwen3/

关注公众号回复“进群”入群讨论。