一个AI智能体，把我从量化系统的脏活累活里捞了出来 - 文章 - 开发者社区

凌晨两点十七分，策略又一次在实盘里做出了和回测完全相反的操作。我盯着屏幕上的成交记录，脑子里只有一个念头：这破玩意儿到底哪儿出毛病了。

picture.image 查了四个小时。最后发现，不是模型的问题。是那家数据商推送的行情里，有一笔时间戳错了——把下午三点的成交标成了凌晨三点。于是我的 K 线图上多了一根诡异的下影线，于是策略判断支撑位破了，于是它替我果断止损在了最低点。

那一刻我没有愤怒，只有一种深深的疲惫。这种破事儿，过去三年里我已经处理了不下二十次。每次都以为是最后一次，每次下一个坑都在意想不到的地方等着我。

延迟不是买台服务器就能解决的

刚入行的时候我天真地以为，只要把服务器放在交易所机房旁边，延迟就不是问题。

后来我才知道，网线短只是第一步。JSON 解析比 msgpack 慢多少？数据从网卡到你的策略代码里，内存拷了几次？多线程之间的锁竞争吃掉多少微秒？还有那个最隐蔽的问题——你记录的时间戳到底是软件打的还是硬件打的？如果时间标记本身就有几十毫秒的抖动，你复盘的时候连订单的真实顺序都还原不了，还谈什么策略优化。

这些问题一个一个改过来，半年就没了。而且改完之后你发现，自己的代码库里有一半模块跟策略逻辑毫无关系——全是数据接入、序列化、内存管理这些“管道活”。我一个做策略研究的朋友有一次跟我说：“我感觉我现在是个水管工，每天修管道，已经三个月没碰过因子了。”

这话我记了很久。

后来知道有些团队选择了现成的数据代理服务，把多交易所的实时流预先聚合、清洗、打好硬件时间戳再统一推出来，策略代码直接消费干净的行情。一开始我觉得这不够硬核，后来想明白了——水管工和策略研究员，本来就不是同一个工种。有些活儿确实没必要自己干。

清洗数据这事儿，一干就停不下来

接入了一个数据源，怕丢包。接入了三个，以为高枕无忧了，结果发现三个源画出来的同一根 K 线有三种形态。有的复权方式不同，有的把场外交易混进去了，有的时间戳差了半秒导致价格对不齐。

于是你开始写清洗脚本。先对齐时间戳。再写投票逻辑，三个源对同一个 tick 报价不一致的时候取中位数。然后你发现固定阈值过滤异常值在波动大的时候根本不能用——波动率上来了，正常的行情波动都被当成了“胖手指”给滤掉了。你只好改成自适应阈值，又加上订单簿深度来二次确认。

等你把这一套弄完，半个月过去了，策略模型一行没改。

而且最讽刺的是，下次换一个交易所或者加一个数据源，这套清洗脚本又得大改。你就像一个永远在补窟窿的泥瓦匠，墙面一直在渗水，但你永远找不到所有裂缝。

这也是后来我开始关注那些内置了数据清洗流水线的平台的原因。不是我变懒了，是我终于意识到，一个需要长期维护的生产系统，有些能力应该长在基础设施层，而不是每个团队各写一套脆弱的清洗脚本。

假突破比真突破更让人害怕

震荡行情里，均线金叉死叉谁都会写。真正吓人的是那种瞬间拉上去 20% 又迅速砸回来的行情。你的策略追不追？

追，可能是接盘。不追，可能错过真行情。

后来我养成了一个习惯：看价格的同时一定看订单簿。挂单厚度在拉升的时候是增加还是减少？主动买入的成交量占比有没有同步放大？大单是在跟风还是在逆向吃单？这些微观结构的信息，往往比价格本身更能告诉你这波行情“有没有诚意”。

问题是，每次都要手动拉几个 API 然后自己拼图，太慢了。等你分析完，行情早跑完了。

我见过一些 AI 代理产品现在能做这件事了——你直接问它“这波拉升健康吗”，它能在一两秒内把订单流、成交分布和近期新闻情绪聚合起来，给你一个多因子支撑的判断。这不是什么玄学，就是把原来需要手动做的事情自动化了。我自己试用过类似功能后，最大的感受不是它多聪明，而是省时间。省下来的时间可以去想更重要的东西，比如仓位管理和风险对冲。

警报响多了，等于没装警报

我见过一个团队的预警系统，一个上午发了八十七条通知。八十七条。用户早就把推送关了，真正破位的时候，谁也收不到。

这个问题我反思了很久。我们做预警的时候太怕漏报了，所以把阈值设得很敏感。结果漏报确实少了，误报多到让整个系统变成了噪音发生器。

后来我调整了逻辑：单一条件触发不报警，必须价格破位 + 成交量异常 + 持续几个时间窗口，三个条件同时满足才推。非交易时段的小波动，攒到早晚报里统一说。同一个标的短时间内反复震荡，折叠成一条摘要，别让通知栏刷屏。

这个逻辑不复杂，但实施起来挺繁琐的。不同的品种、不同的市场状态，阈值都不一样，需要持续调参。如果有一个自带多维确认和异常检测算法的预警模块，能省掉大量磨参数的功夫。我现在更倾向于用现成的成熟方案，把精力留给策略本身。

大模型读财报可以，但别让它瞎编

LLM 出来之后，我们尝试过让它解读财报和新闻。效果确实惊艳，但你永远不知道它什么时候会自信满满地编一个数字。

有一次它告诉我一家公司上一季度的营收增长率是 12%，我差点就用这个数字做估值模型了。还好留了个心眼去翻了原始财报——实际是 8%。那个 12%，是它“推测”出来的。

从那以后我给团队定了个铁律：所有关键数字必须能追溯到原文出处。用 RAG 把回答锚定在原报告的具体段落，模型只负责翻译和组织语言，不负责创造。数字提取加一层规则校验，和表格数据对不上的直接打回。

这个设计思路后来我看到有些金融 AI 产品也采用了，说明业内对这个问题的认知在趋同。毕竟在金融领域，一个被随意生成出来的数字，不是 bug，是事故。

策略不解释自己，我就不敢用

我自己也有这个心理障碍：一个黑盒策略赚了钱，我会想这是运气还是真的有 alpha；亏了钱，我连怎么调都不知道。

所以后来我要求所有策略输出必须附带归因。触发这次操作的核心因子是什么，各自的权重多少。最好还能做反事实分析——“如果这个参数调高一点，历史回撤会怎么变”。这让我觉得自己在跟策略对话，而不是在向一个黑盒子祈祷。

说到底，投资的最终责任在我自己身上。系统只是辅助，不能替我做决策。把过程白盒化，不是为了好看，是为了让我自己敢用、敢调、敢负责。

崩溃总是在你最自信的时候发生

我维护过一套系统，平稳运行了快一年。我一度觉得它坚不可摧。然后某天晚上，市场突然剧烈波动，流量瞬间飙了八倍，数据库连接池被打满，风控线程因为抢不到锁，没有发出止损指令。

那次之后我学到的教训是：永远假设系统会崩溃，然后提前设计好降级路径。CPU 过 85% 关掉哪些非核心功能，内存扛不住了怎么卸载数据，数据库挂了怎么切本地缓存。然后反复演练，用混沌工程的手段随机注入故障，看系统能不能守住“止损指令必须执行”这条底线。

这些东西说起来都是血泪换来的。自己从头搭建一套容灾和压测体系代价太大了，现在一些面向交易的基础设施平台已经把熔断和降级机制做到了架构层。但我还是会定期自己做压测，因为你对一个系统越信任，就越应该定期折磨它。

最后想说点什么

写到这里回头看，发现上面这些内容几乎没有一条和策略的数学表达有关。全是在和数据、管道、延迟、清洗、预警、容灾这些东西死磕。

但这可能恰恰是量化交易最真实的一面。那些光鲜的回测曲线背后，是无数个处理边界情况的 if-else，是凌晨两三点的紧急修复，是一遍遍确认“这次的数据到底干不干净”。

有一段时间我特别执着于什么都要自己写，觉得用别人现成的方案等于不纯粹。现在想法变了。市场在变，策略要迭代，因子要挖掘，这些才是我的核心竞争力。至于数据管道、清洗流水线、预警系统这些基础设施，如果有成熟方案能帮我扛起来，我一定选它。

最近注意到 iTick 做的 AI 金融智能体，说实话第一眼看到的时候我心里想的是“你们怎么现在才做这个”。它把多交易所实时数据、清洗、自然语言分析、风控和策略辅助整合在一起，定位就是给专业交易员和量化开发者用的基础设施。它不是那种“一键帮你赚大钱”的玩意儿，它就是想把前面我说的那些脏活累活扛下来。

这个定位我挺认可的。因为我知道，在这个市场里，能让你持续跑下去的系统，才是最好的系统。而让系统持续跑下去的那些东西，往往最不起眼，最没人愿意写，最容易被忽略——直到它在凌晨两点给你致命一击。

如果你也正在经历我踩过的这些坑，不妨去看看。哪怕最后你还是选择全部自研，看看别人的架构思路也没坏处。至少你知道，在这些问题上，你不是一个人在崩溃。