使用PromptPilot和doubao-Seed-1.6-flash模型内测品牌评价情感分类

大模型Prompt

这两天,我有幸收到邀请,参与了 PromptPilot 平台上新模型 Doubao-Seed-1.6-flash 的内测活动。
怀着一探究竟的好奇,我迅速完成了内测注册,迫不及待地想亲自体验它在实际场景中的表现,看看它能否如传闻般在处理复杂指令时既保持输出质量,又能显著提升交互效率。

工具和模型介绍

Promptpilot

Prompt(提示词)作为大模型的核心输入指令,直接影响模型的理解准确性和输出质量。优质的 Prompt 能显著提升大语言模型处理复杂任务的能力,如逻辑推理、步骤分解等。

PromptPilot 提供全流程智能优化,涵盖生成、调优、评估和管理全阶段,帮助您高效获得更优 Prompt 方案。

访问地址:https://promptpilot.volcengine.com

会员活动:Plus版本,6.11-9.11 限时免费。

picture.image

Doubao-Seed-1.6-flash

极致速度、支持多模态、256K长上下文,纯文本能力大幅提升近 10% Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型,TPOT仅需10ms; 同时支持文本和视觉理解,文本理解能力超过上一代lite,纯文本能力大幅提升近10%。支持 256k 上下文窗口,输出长度支持最大 16k tokens。

在PromptPilot中的Prompt调试中,可以选择回答的模型。

测试品牌评价情感分类

生成Prompt

在页面中的任务文本框中,输入任务:

在互联网上,有很多客户发布的关于我们“脱敏品牌1”产品的内容和一些评价,有说我们这个面好吃的,有说这个饮料价格贵之类的,好的坏的都有,我们比较希望把这些内容能用大模型识别和格式化整理一下。首先要看一下,这些客户说的是正面评价还是负面评价;如果是负面的,就再分个类,看看是价格问题还是口味口感还是什么其他问题,然后看看对应的是哪个产品名,是牙膏还是饮料还是什么其他产品,给出来产品名称。我目前想到的是以下问题分类:
包装不当:产品包装相关的评价;
价格:产品价格相关的评价;
口味口感:食品类产品的口味、口感相关的内容;
食品安全:关于食品类产品卫生、安全性的内容;
售后维权:退换货等售后相关的内容;
其他:无法归类为前述标签的内容;
以JSON格式输出,字段是情感判断、评价维度、产品名称。

picture.image

执行完成,生成了以下的优化Prompt。

你的任务是对互联网上客户发布的关于“脱敏品牌1”产品的内容和评价进行识别和格式化整理。首先判断客户的评价是正面还是负面;如果是负面评价,再将其分类,同时明确对应的产品名称。
以下是客户发布的内容:
<customer_content>
{{CUSTOMER_CONTENT}}
</customer_content>

评价分类标准如下:
- 包装不当:产品包装相关的评价;
- 价格:产品价格相关的评价;
- 口味口感:食品类产品的口味、口感相关的内容;
- 食品安全:关于食品类产品卫生、安全性的内容;
- 售后维权:退换货等售后相关的内容;
- 其他:无法归类为前述标签的内容。

请以JSON格式输出结果,包含以下字段:
- 情感判断:填写“正面”或“负面”
- 评价维度:根据分类标准填写对应的类别
- 产品名称:明确评价对应的产品名称

请在<output>标签内输出JSON格式的结果。
<output>
{
"情感判断": "",
"评价维度": "",
"产品名称": ""
}
</output>

优化Prompt

生成之后,需要对Prompt优化

最终的输出json里面产品名称可能涉及到多个,因此需要是一个list结构;不需要思考标签和output标签,最终直接输出json即可

picture.image

优化后的prompt如下:(产品名称变成了数组)

你的任务是对互联网上客户发布的关于“脱敏品牌1”产品的内容和评价进行识别和格式化整理。首先判断客户的评价是正面还是负面;如果是负面评价,再将其分类,同时明确对应的产品名称。
以下是客户发布的内容:
<customer_content>
{{CUSTOMER_CONTENT}}
</customer_content>

评价分类标准如下:
- 包装不当:产品包装相关的评价;
- 价格:产品价格相关的评价;
- 口味口感:食品类产品的口味、口感相关的内容;
- 食品安全:关于食品类产品卫生、安全性的内容;
- 售后维权:退换货等售后相关的内容;
- 其他:无法归类为前述标签的内容。

请以JSON格式输出结果,包含以下字段:
- 情感判断:填写“正面”或“负面”
- 评价维度:根据分类标准填写对应的类别
- 产品名称:明确评价对应的产品名称,以列表形式呈现

{
"情感判断": "",
"评价维度": "",
"产品名称": []
}

调试 Prompt

调试Prompt的工作包括:验证Prompt、

验证Prompt

验证prompt的目的在于测试prompt的可用性。

点击“验证Prompt”,选择“评分模式”。

picture.image

picture.image

配置参数

点击“填写变量”,在变量框中输入一个case 内容——数据集中的一条评论。

点击“模型回答”右侧的模型选项,选择新的模型doubao-seed-1.6-flash-250615。

picture.image

点击“保存并生成模型回答”之后,会生成模型回答的内容。

picture.image

这时,我们发现在产品名称中包含了品牌信息,需要调整Prompt。

调整Prompt

如下图所示,在调试Prompt中,添加规则:产品名称不得包含“脱敏品牌1”。

重新执行“生成模型回答”之后,得到新的模型回答。

picture.image

改写模型回答

如果模型回答不够理想,可以继续改写模型回答,可以打开更多模型回答参考,选择合适的回答应用保存,或者输入理想的回答内容。

picture.image

批量评测

在完成验证和调整Prompt后,来操作批量评测。

picture.image

上传数据集

将准备好的品牌评价数据集的文档上传。

picture.image

picture.image

picture.image

编辑评分标准

picture.image

生成全部答案

picture.image

自动评分

picture.image

picture.image

智能优化

点击“智能优化”切换界面,点击 “已准备好数据,开始智能优化”。

picture.image

picture.image

picture.image

优化完成后,综合得分由4.0提升到了4.4,提升10%。

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论