干货｜火山引擎技术工具分享：用AI完成数据挖掘，零门槛完成SQL撰写 - 文章 - 开发者社区

picture.image

在使用BI工具的时候，经常遇到的问题是：“不会SQL怎么生产加工数据、不会算法可不可以做挖掘分析？”

而专业算法团队在做数据挖掘时，数据分析及可视化也会呈现相对割裂的现象。流程化完成算法建模和数据分析工作，也是一个提效的好办法。

同时，对于专业数仓团队来说，相同主题的数据内容面临“重复建设，使用和管理时相对分散”的问题——究竟有没有办法在一个任务里同时生产，同主题不同内容的数据集？生产的数据集可不可以作为输入重新参与数据建设？

picture.image 文 | 封声来自字节跳动数据平台DataWind团队

picture.image

DataWind 可视化建模能力来了

由火山引擎推出的BI平台 DataWind 智能数据洞察，推出了全新进阶功能——可视化建模。

用户可通过可视化拖、拉、连线操作，将复杂的数据加工建模过程简化成清晰易懂的画布流程，各类用户按照所想即所得的思路完成数据生产加工，从而降低数据生产获取的门槛。

画布中支持同时构建多组画布流程，一图实现多数据建模任务的构建，提高数据建设的效率，降低任务管理成本；另外，画布中集成封装了超过40种数据清洗、特征工程算子，覆盖初阶到高阶的数据生产能力，无需Coding完成复杂的数据能力。

picture.image

零门槛的 SQL 工具

数据的生产加工是获取及分析数据的第一步。

对于非技术使用者来说，SQL语法存在一定使用门槛，同时本地文件无法定时更新，导致看板每次都需要手动重做。获取数据所需的技术人力往往需要排期，数据的获取时效及满足度大大打折，因此使用零代码的数据建设工具变得尤为重要。

下方列举两个典型场景，零门槛完成数据处理在工作中是如何应用的。

【场景1】所想即所得，可视化完成数据处理过程

在产品运营迭代急需不同数据的及时输入反馈时，可以抽象数据的处理过程，通过可视化建模拖拉算子构建数据处理过程。

如要获取按照日期、城市粒度的订单数及订单金额，并获取每日Top10消耗金额数据的城市数据，操作如下：

picture.image

【场景2】多表快速结合，轻松解决多数据关联计算

在数据处理过程中，有多个数据源需要进行组合使用，常规通过Excel需要掌握高阶Vlookup等算法有些难度，且耗时长。同时数据量较大时，电脑性能可能没办法完成数据的组合计算。

如有两份数据量比较大的订单数据和一份客户属性信息表，需要根据账单金额和成本金额计算利润金额，然后按照利润贡献高低取Top100的用户订单信息。

picture.image

AI 数据挖掘，不再高不可及

当基础的数据清洗已经没办法满足数据建设和数据分析，需要AI算法加持去挖掘数据更多隐藏的价值时。算法团队同学可能苦于无法很好与可视化图表联动使用，没办法生产好的数据快速被应用；而普通用户可能直接被AI代码的高门槛直接压灭了这个算法的苗头——提需求又怕需求太浅、价值无法很好评估输出，此时算法挖掘成为了一种奢望。

DataWind 的可视化建模封装了超过30类常见的AI算子能力，用户仅需了解算法的作用可以通过配置化的方式配置算法算子的输入和训练目标即可完成模型训练，根据配置的其他数据内容快速得到预测结果。

picture.image