看火山引擎DataLeap如何做好电商治理（一）：挑战与痛点 - 文章 - 开发者社区

现在人们的日常生活中，网购已经成为人们生活中不可或缺的购物形式。根据中国电子商会发布的《中国社交电商行业发展白皮书（2022）》的数据显示，2022年社交电商市场交易规模达到28542.8亿元，预计2023年中国社交电商行业交易规模将达34165.8亿元。同时在2022年，抖音电商每月新增超2亿条短视频、900多万场电商直播，在优质内容驱动下，用户购物行为快速增长。

这么大市场规模背后，如何解决电商场景下的商品安全、内容安全、商家达人社区安全，提升服务体验，做好内容生态等问题显得尤为重要。

DataLeap 是火山引擎自研的一站式大数据中台解决方案，集数据集成、开发、运维、治理、资产管理能力于一身的大数据研发治理套件。利用火山引擎DataLeap 用户可以很好的监测电商场景下的商品安全、内容安全、商家达人社区安全，对于做好内容生态带了极大的便利。据了解，火山引擎平台治理团队目前已达百人团队规模，团队分布遍及国内外，主要监测一些电商场景下红线违规的问题，同时一些优质的商品信息和短视频，使其在整个生电商的生态里面有更多露出，完善平台的治理能力建设。

在日常做一些电商平台治理会遇到如下挑战与痛点：

1、大数据量的训练集如何快速进行数据预处理

以前在去准备这种训练集的时候，模型的训练集一般来说可能都是百万级、千万级的。如果把这种非常大的一个数据，把它放到本地，比如像 workspace 或者是一些其他开发机上去做处理，它会很慢，有时候即使研发人员开多线程或者多进程处理起来的话，并发度还是不够的。

2、如何验证模型的准确

模型准确性验证一般是从两个维度，一个维度是有偏，另一个维度是无偏。一般要是来评价这个模型的话，需要在离线训练模型的时候去验证，这个时候可能是一个有偏测试集，让正负样本尽量均衡一点，再去验证指标，在正式上线之前构造一个无偏的测试集去模拟，等真正的把这个模型上线之后，预计它的召回是什么样的，召回之后它的准确性怎么样，以及评估一下这个模型的一个影响面，难点就在于此。不论是有偏还是无偏测试集，对于测试集标签的准确性要求是比较高的，如果测试集的标签准确性不高，就会影响模型评估的准确性，这也是难点。

3、如何监控

要想做好监控，首先要有自己平台的统计指标：比如召回率、漏放率、审出率、驳回率等等，把指标做成数据集，建立属于自己的监控看板，同时如果平台有badcase，要进行深入的分析，进而优化算法模型。那么这一整个流程下来，如果没有很好的工具辅助，是非常低效的。

如何处理好上述的挑战与痛点？后续文章笔者会接着分析。