We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
文档
备案
控制台
登录
立即注册
首页
文章
问答
视频
活动
下载资源
团队号
镜像站
发布
house.zhang
文章
专栏
问答
house.zhang
Flink on K8s 企业生产化实践|社区征文
大数据
社区征文
为了解决公司模型&特征迭代的系统性问题,提升算法开发与迭代效率,部门立项了特征平台项目。特征平台旨在解决数据存储分散、口径重复、提取复杂、链路过长等问题,在大数据与算法间架起科学桥梁,提供强有力的样本及特征数据支撑。平台从 Hive 、Hbase 、关系型数据库等大数据 ODS ( Operational Data store ) 层进行快速的数据 ETL ,将数据抽取到特征平台进行管理,并统一了
374
2
2
0
house.zhang
浅谈AI机器学习及实践总结 | 社区征文
AI
社区征文
机器学习
机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数,而不是程序员直接编写函数的技术)说起函数就涉及到自变量和因变量,在机器学习中,把自变量叫做特征(feature)多个自变量分别可以定义为X1,X2..Xn,因变量叫做标签(label),可定义为Y,而一批特征和标签的集合,就是机器学习的数据集。机器学习的学习过程就是在已知的数据集的
888
1
0
0
house.zhang
在线学习FTRL介绍及基于Flink实现在线学习流程|社区征文
大数据
社区征文
目前互联网已经进入了AI驱动业务发展的阶段,传统的机器学习开发流程基本是以下步骤:数据收集->特征工程->训练模型->评估模型效果->保存模型,并在线上使用训练的有效模型进行预测。这种方式主要存在两个瓶颈:模型更新周期慢,不能有效反映线上的变化,最快小时级别,一般是天级别甚至周级别。另外一个是模型参数少,预测的效果差;模型参数多线上predict的时候需要内存大,QPS无法保证。针对这些问题,一般
775
2
0
1
house.zhang
关于大数据计算框架 Flink 内存管理的原理与实现总结 | 社区征文
大数据
Flink
最近几年国内大数据apache开源社区计算框架最火的莫过于Flink,得益于阿里在后面的推动以及各大互联网大厂的参与,flink业已成为流式计算事实上的标准。一句话来介绍 Flink 就是 “Stateful Computations Over Streams”,基于数据流的有状态计算。flink的四个基石:Checkpoint、State、Time、Window。Checkpoint 机制,Fl
716
1
32
0
house.zhang
推荐系统基础结构总结 | 社区征文
AI
算法
我们周围存在大量的文字、语音、视频等信息,比如网络购物玲琅满目的商品信息,浏览抖音各种类型的信息,一个互联网产品是否具有吸引力,是看其有多智能,能够让用户发较小的时间能够获取他感兴趣的内容,这里面少不了推荐系统的作用了,它已经渗透到我们生活中的方方面面,他们解决的问题的本质都是一一样的,就是为了解决:“信息”过载的情况下,用户如何高效获取感兴趣的信息。在浩如烟海的互联网信息中和用户兴趣点之间,搭建
946
1
0
0
house.zhang
三分钟了解大数据技术发展史|社区征文
大数据
我们常说的大数据技术,大致主要起源于 Google 在 2004 年前后发表的三篇论文,其实数据处理早就存在,每个公司或者个人都有自己的大数据处理系统,并没有形成编程框架和理念,而这三篇论文也就是我们熟知的大数据三驾马车,分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库 BigTable,这三篇论文影响了当今大数据生态,可以称得上大数据的基石,Doug
700
2
0
0