笔者介绍
笔者介绍,近几年的工作内容都与数据库和大数据相关,公司的市场定位 为客户提供数据智能一体化的解决方案,笔者的工作主要围绕公司的旗舰产品做一些售前、售中、售后的事情 ,主要是DBA和技术支持。工作内容为以下三块。我
- 对接客户与销售,主要是围绕项目和业务的详细需求,提供技术支持并制定相关的解决方案,
- 对接市场部与生态部,主要是围绕公司的旗舰产品做金融信创的适配、上下游产品的适配、生态产品的适配,并根据领导的要求编写技术调研文章。
- 对接研发,主要是项目交付中,产品存在的一些问题必须研发那边改进的,我负责推动这方面的状态。
总的来说,身份职位是一位DBA,会一点应用开发,会一点工程测试,会一点写作!
回首2023
转眼间将近新年,回首2023年的工作生活,感觉自己碌碌无为,虽然学习了某些技术 ,熟悉了一些工具框架,但是搞的东西没有起色,没有实现自由财务,世界没有因为我的存在而进行改变。
信息行业中存在哪些亟待解决的事情?从信息建设的方案的初衷出发,大概分为信息系统建设方案、大数据系统建设方案、AI系统系统建设方案三类三类。
信息系统建设方案: 传统的应用建设,主要是单条业务流程整合,包括企业流程制度、企业控制管理、员工权限授权访问,常说的烟囱系统建设以及企业信息系统以及ERP、CRM、OA、交易系统、分析系统都属于这个范畴,信息系统建设方案的特点主要是解决某一个业务的问题,并且充分了解清楚业务的问题,关键是数据模型上考虑设计妥当,可以满足未来发展的潜力需求。一般采用关系模型建模的方式 。
大数据系统建设方案: 该应用建设需要整合较多的数据源,将集成较多的数据集,主要与业务系统联通或者其它设备的数据汲取过来,通过清洗、整合、编排后,输出一个错落有致、规范得体的数据指标。数据大屏、业务监控管理、用户画像都属于大数据系统的建设方案范围,主要它是能整合不同的数据, 一般采用维度模型建模的方式。
智能系统建设方案: 该系统建设属于高端信息应用范畴,需要智能算法以及更有效率的计算框架,包括音视频、 边缘计算 、AI、 大模型、 AIGC等等,同时也包括基本的信息系统建设方案和大数据系统建设方案,智能系统建设是应用优化的永无止境的追求。主要表现是提供更加友好验证手段,以及更加便利的识别方法提供相应的服务,一般智能系统会搭承其它技术手段完成客户端需求的闭环。
2023年里,我接触的项目主要是信息系统建设方案、大数据系统建设方案偏多一点,大数据系统建设的基本原则是要整合的数据源,要遵从的数据规范,要实现的数据指标,传统的信息系统建设注重对企业业务流程的梳理,而已经建设完成的信息系统底层数据底座切换,数据类型变换、存储引擎变化、函数改造、数据注释转移以及ORM框架改造,最后是数据库内存管理的性能参数的调整设置。
我的学习
一年多的时间主要学习了各式数据库产品,因为信创和未来业务的需求,系统学习了openGauss、OceanBase和TiDB,分门别类数据库厂商的阵营和数据库技术发展的趋势,以及世界数据库前卫技术的趋势。
数据库是什么? 把数据库比作是一个容器,所有与系统交互产生的数据都会像水一样流入容器里面,容器是服务端的产物,协同客户端应用开发一起解决问题。没有数据库之前,服务端用文件来做,或者把服务端的东西放到 客户来做,系统架构 都会变得尾大不掉。
传统的Oracle、MySQL、PostgreSQL就是典型的服务端成功例子,通过它们实现架构耦合,三个产品已经在世界上非常成熟。因为信创,我国的基础软件也有起跑线,openGauss基于PostgreSQL9.2.4基础上研发的,但是完全 消化了PostgreSQL9.2.4的内核代码,OceanBase是阿里主导的100%的自我研发产品,而TiDB也有自己的独立自主研发能力,三个产品都能做到自主研发可控,对没有强依赖。
反观某些国产数据库产品存在强依赖,依附MySQL、PostgreSQL上面套层皮,或者改造的不多。我们就说改造不多的厂商吧! 万里开源仅是增强了MGR的能力,石原子新增了服务引擎,瀚高加强了PG的周边能力建设,虽然边缘上做了创新,但是毕竟在内核存在依赖,假设遇到内核BUG,很难全盘上进行把控,这是绕不开的安全问题。
相反国外的创新精神,老美重新定义数据库,开发了DuckDB 和Velox。DuckDB 与sqlite一样是嵌入式数据库,我更喜欢称它是一个客户端数据库,我们的安卓手机一般 都会内置sqlite,只为了能够保存数据。通过DuckDB,数据被高效存储分析,根据需求被计算,最后被服务端采集进行加工,由于数据已经被提交计算,省切系统的力气。可以说DuckDB改变了计算格局,以前数据在服务端 进行计算返回,现在数据在手机端计算后进行传送,这不正是 边缘计算的概念吗?
我们现在说的边缘计算是网络侧、云端有一组软硬件集成的平台,提供最近端服务,应用程序在边缘侧发起,产生更快的网络服务响应,从而满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。现在更好,统计计算直接在客户端就可以进行了。
关于Velox,它是全新数据库加速优化器,它能协助目标数据库的算子优化后,并且以向量化引擎的方式执行。意义上来说,它可以提高所有的数据库的使用性能,在数据处理上大有裨益。
回顾数据库计算技术的发展历史,一般的传统单机数据库通过索引、分区实现数据的快速查找计算。
当数据太大,单机数据的IO无法承受,所以有了分库分表以及分布式数据库的出现,分库分表多应用于tp,也有一些应用于AP领域,分库分表的技术原理是上面有一个中间路由器,通过它把请求错落有致分发到对应的数据库。
分库分表下的每个数据库都有一个的DBMS,除此之外,业内有成熟的MySQL MGR技术实现DBMS之间的协同,这些本质上都是协同多个DBMS的技术。不同于它们,分布式数据库的技术革命,把底层的数据存储统一管理起来,通过唯一的DBMS对数据进行分片,可以实现更友好的高并发、低延迟访问,。
分布式数据库在细节里也有很多划分,因为网络分离2pl协议,未必TP性能比以前的好,因为网络传输数据,未必须AP能力比以前强。这个就是分布式数据库与集中式数据库之争,关键还是工程师学习成本、工具服务效用、以及企业收入支出,换言分布式数据库并不能完全覆盖集中式数据库,分布式技术只不过提供了另外一种算力选择。
云计算进一步放大了分布式的技术优势,数据库是依靠在文件系统上,例如MySQL缓冲区的数据页可能是16Kb,而文件系统的页默认是4K,按照这样的话我,MySQL要连续往文件 系统写入4次,效率太慢,而且过程可能发生意外。为了防止意外,MySQL有一个Double Write Buffer技术,在往文件系统写入数据前,先把整体数据写入一个2M的硬盘缓冲区,如果出现意外,我从2M硬盘缓冲区里面恢复 。
云计算下的云原生技术 可以让数据库与底层系统更紧密集成在一起,MySQL只需要一次写技术,就可以把数据写入底层存储系统里面。
云原生可以做到无限的算力放大和无尽的存储扩展,并且这一切都是用户感知不到的背后,对于客户而言是更方便 、更简单、更灵活,这个就是serverless的卖点。serverless使业务逻辑和技术架构解耦,让你更关注应用的开发。
我觉得以后云原生与边缘计算的界限越来越模糊,同时也越来越清晰。数据产生后,马上获得算力对数据进行探索并返回。越来越模糊的意思是,云原生的能力会越来越往前推,以后边缘计算的产品服务选择像云原生一样丰富,越来越清晰的意思是,云原生和边缘计算的关系像甲方与外包一样,即使边缘计算有足够的能力完成这个事情 ,但是原则流程还是要通过云原生这一关,走一轮。
未来技术趋势
未来社会文明的发展,CPU越来越强,芯片能力越来越高,无论数据在库内还是在库外都可以得到高效的处理。以前提出devops以及敏捷开发的概念,这是概念是怎么产生,都是达到了一定的成熟度,产出结果来来回回就是那几套东西,于是标准化、零件化、组件化,加快产能输出。
信息系统建设方案 目前看来大多数已经成熟,社会招聘的前端开发全部与信息系统建设有关,放眼过去都是一片红海,开源世界有很多相关的模板。对于我来说,只要了解了解就好。
大数据系统建设方案 一半红海,一半蓝海,大数据已经没有当初香,随着大模型的发酵,大数据真正的价值有实力才能挖掘出来,大数据领域仍然是持续学习,加深认识的一门学科。
AI系统系统建设方案 个人认为中国落后的工业软件也是AI系统之一,这里存在着一大片蓝海,无法想像的空间,AIGC只是其中一个应用,这个也是我要学习的。