LabelFast:基于LLM的NLP任务自动标注开源工具,Demo发布「AI小作坊」

大模型NoSQL数据库机器学习

向大家介绍 LabelFast ,一个旨在 用LLM技术,识别并快速标注简单文本数据的开源工具

使用 LabelFast ,人类标注员只需关注那些 少量而关键 的难样本,达到降本增效的效果。

其特点如下:

  1. 开箱即用 。无需微调和Prompt工程,提供 标注任务 + 样本,马上开始标注;
  2. 诚实可信 。在提供标注结果的同时,还提供Confidence信息,以表示模型对标注结果的信心程度,便于使用者确定何时信任模型结果;
  3. 完全开源 。LabelFast源于开源的模型和技术,因此也将回馈开源社区。

总而言之, LabelFast的核心理念是:用最快的速度,完成简单样本的标注,让人类聚焦于关键的难样本

快来使用Demo

LabelFast 的Demo版,已在ModelScope[1]平台发布。初始版本号为 v0.1 ,支持 文本分类 任务的标注。

Demo地址

https://modelscope.cn/studios/duanyu/LabelFast/summary

picture.image

用户只需 提供标注样本 + 任务类型 + 任务schema -> 点击Submit -> 即可快速得到 标注结果 + confidence。

若额外传入真实标签,还可得到不同confidence threshold下的任务效果,便于区分哪些是能够被解决的简单样本、哪些是难样本。

后续版本将支持更多的NLP任务、标注模型。

技术原理

LabelFast 的核心技术如下:

  1. Instruction-Tuning Language Model 。以Flan-T5[2]、SeqGPT[3]为代表,基于预训练LLM,在庞大的instruction data(将NLP任务改写为prompt->output的格式)上进行Fine-Tuning,使得模型在NLP任务上具备较强的Zero-Shot Task Generalization能力,能够以Zero-Shot的形式执行众多NLP任务。这部分对应LabelFast中的标注模型。
  2. Confidence Estimation 。得到模型对于标注结果的置信度,目标是尽可能well-calibrated(高confidence -> 高Acc、低confidence -> 低Acc),得到confidence之后,可用于决定何时信任模型标注、何时采用人工标注。计算方法包括Prompting、Entropy、Token Prob等,方法的细节可参照refuel.ai的这篇博文[4]。

v0.1版本 ,标注模型为finetuned mT5模型[5];confidence estimation方面,借鉴refuel.ai的经验,使用 Token Prob 方法。

欢迎反馈

LabelFast的Demo地址

https://modelscope.cn/studios/duanyu/LabelFast/summary

欢迎大家使用!如有任何疑惑、建议或需求,欢迎与笔者进行沟通(关注公众号即可获取微信号)。

参考资料

[1] ModelScope魔搭: https://modelscope.cn/

[2] Flan-T5: https://arxiv.org/abs/2210.11416

[3] SeqGPT: https://arxiv.org/abs/2308.10529

[4] refuel.ai blog: labeling with confidence: https://www.refuel.ai/blog-posts/labeling-with-confidence

[5] 全任务零样本学习-mT5分类增强版-中文-base: https://modelscope.cn/models/damo/nlp\_mt5\_zero-shot-augment\_chinese-base/summary

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论