一个擅长修复LLM输出的JSON格式异常的开源工具包-jsonrepair

云原生可观测容器服务MySQL

欢迎关注我的公众号“ NLP前沿 ”,日更最新论文/博客速读,周更AI领域近一周发生的那些事儿 。欢迎投稿! 行文仓促,有理解错误,欢迎指正

“ qwen110b在hf上挂了一个space,模型权重未开源;HuggingFaceFW/fineweb 15T高质量数据集;别的今天也没啥内容写,分享一个工具包。如果大模型结构化输出的时候,不限定json schema,随意输出的时候,那就还挺实用的


        
          
https://github.com/josdejong/jsonrepair  
https://gist.github.com/adonig/643954717bb937aed8722fedf9a5c4dc  
https://huggingface.co/spaces/Qwen/Qwen1.5-110B-Chat-demo  

      

可以处理以下的json问题:

  • 在key周围添加缺失的引号
  • 添加缺失的转义字符
  • 添加缺失的逗号
  • 添加缺失的闭合括号
  • 修复截断的JSON数据
  • 将单引号替换为双引号
  • 将特殊引号字符如“...” 替换为普通双引号
  • 将特殊空白字符替换为普通空格
  • 将Python常量 None、True 和 False 替换为 null、true 和 false
  • 移除尾随逗号
  • 移除注释,如 /* ... */ 和 // ...
  • 移除JSONP格式,如 callback({ ... })
  • 从转义字符串中移除转义字符,如 {"stringified": "content"}
  • 移除MongoDB数据类型,如 NumberLong(2) 和 ISODate("2012-12-19T06:01:17.171Z")
  • 连接字符串,如 "long text" + "more text on next line"
  • 将换行分隔的JSON转换为有效的JSON数组,例如:

        
          
{ "id": 1, "name": "John" }  
{ "id": 2, "name": "Sarah" }  

      

jsonrepair 库支持流处理,能够处理无限大小的文档。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
DevOps 在字节移动研发中的探索和实践
在日益复杂的APP工程架构下,如何保证APP能高效开发,保障团队效能和工程质量?本次将结合字节内部应用的事件案例,介绍DevOps团队对移动研发效能建设的探索和思考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论