欢迎关注我的公众号“ NLP前沿 ”,日更最新论文/博客速读,周更AI领域近一周发生的那些事儿 。欢迎投稿! 行文仓促,有理解错误,欢迎指正 !
“ qwen110b在hf上挂了一个space,模型权重未开源;HuggingFaceFW/fineweb 15T高质量数据集;别的今天也没啥内容写,分享一个工具包。如果大模型结构化输出的时候,不限定json schema,随意输出的时候,那就还挺实用的
https://github.com/josdejong/jsonrepair
https://gist.github.com/adonig/643954717bb937aed8722fedf9a5c4dc
https://huggingface.co/spaces/Qwen/Qwen1.5-110B-Chat-demo
可以处理以下的json问题:
- 在key周围添加缺失的引号
- 添加缺失的转义字符
- 添加缺失的逗号
- 添加缺失的闭合括号
- 修复截断的JSON数据
- 将单引号替换为双引号
- 将特殊引号字符如“...” 替换为普通双引号
- 将特殊空白字符替换为普通空格
- 将Python常量 None、True 和 False 替换为 null、true 和 false
- 移除尾随逗号
- 移除注释,如 /* ... */ 和 // ...
- 移除JSONP格式,如 callback({ ... })
- 从转义字符串中移除转义字符,如 {"stringified": "content"}
- 移除MongoDB数据类型,如 NumberLong(2) 和 ISODate("2012-12-19T06:01:17.171Z")
- 连接字符串,如 "long text" + "more text on next line"
- 将换行分隔的JSON转换为有效的JSON数组,例如:
{ "id": 1, "name": "John" }
{ "id": 2, "name": "Sarah" }
jsonrepair 库支持流处理,能够处理无限大小的文档。