LabelFast：基于LLM的NLP任务自动标注开源工具，Demo发布「AI小作坊」 - 文章 - 开发者社区

向大家介绍 LabelFast ，一个旨在 用LLM技术，识别并快速标注简单文本数据的开源工具 。

使用 LabelFast ，人类标注员只需关注那些 少量而关键 的难样本，达到降本增效的效果。

其特点如下：

总而言之， LabelFast的核心理念是：用最快的速度，完成简单样本的标注，让人类聚焦于关键的难样本 。

快来使用Demo

LabelFast 的Demo版，已在ModelScope[1]平台发布。初始版本号为 v0.1 ，支持 文本分类 任务的标注。

Demo地址 ：

picture.image

用户只需提供标注样本 + 任务类型 + 任务schema -> 点击Submit -> 即可快速得到标注结果 + confidence。

若额外传入真实标签，还可得到不同confidence threshold下的任务效果，便于区分哪些是能够被解决的简单样本、哪些是难样本。

后续版本将支持更多的NLP任务、标注模型。

LabelFast 的核心技术如下：

Instruction-Tuning Language Model 。以Flan-T5[2]、SeqGPT[3]为代表，基于预训练LLM，在庞大的instruction data（将NLP任务改写为prompt->output的格式）上进行Fine-Tuning，使得模型在NLP任务上具备较强的Zero-Shot Task Generalization能力，能够以Zero-Shot的形式执行众多NLP任务。这部分对应LabelFast中的标注模型。
Confidence Estimation 。得到模型对于标注结果的置信度，目标是尽可能well-calibrated（高confidence -> 高Acc、低confidence -> 低Acc），得到confidence之后，可用于决定何时信任模型标注、何时采用人工标注。计算方法包括Prompting、Entropy、Token Prob等，方法的细节可参照refuel.ai的这篇博文[4]。

在 v0.1版本 ，标注模型为finetuned mT5模型[5]；confidence estimation方面，借鉴refuel.ai的经验，使用 Token Prob 方法。

LabelFast的Demo地址 ：

欢迎大家使用！如有任何疑惑、建议或需求，欢迎与笔者进行沟通（关注公众号即可获取微信号）。

参考资料

[1] ModelScope魔搭: https://modelscope.cn/