“ 今天这个就很不错了,从芯片领域的几个落地场景,介绍 了如何从通用大模型构建出领域大模型再到具体的业务落地。关于数据、tokenizer、模型、参数、评估等几乎应用时涉及到的工作都有提及,读者可以看看原文,看有没有可以参考的
https://arxiv.org/pdf/2311.00176.pdf
https://github.com/NVIDIA/NeMo
这篇论文的核心观点是探讨如何将大型语言模型(LLMs)应用于工业芯片设计领域。为了实现这一目标,作者提出了以下四种领域适应技术:自定义分词器、领域自适应预训练、有监督微调(SFT)以及领域适应检索模型。
- 自定义分词器:通过为芯片设计数据定制分词器,提高在领域特定数据上的分词效率。
- 领域自适应预训练:在大量领域相关数据上对预训练的基础模型进行进一步预训练,生成ChipNeMo基础模型。
- 有监督微调(SFT):使用领域特定任务对ChipNeMo基础模型进行微调,生成针对特定任务的模型。
- 领域适应检索模型:利用检索增强生成(RAG)方法和经过领域数据微调的检索模型来提高模型在工程助手聊天机器人应用中的性能。
论文主要研究了三个应用场景:工程助手聊天机器人、EDA脚本生成以及缺陷汇总和分析。实验结果表明,领域适应技术可以显著提高LLM在这三个应用场景中的性能,使得模型在一系列设计任务上具有更好的表现。此外,领域适应方法还可以在保持相似或更好性能的同时,将模型大小减小5倍。
总之,论文通过实验验证了领域适应技术在芯片设计领域的有效性,并为未来进一步研究和优化领域适应LLM方法提供了指导。