900字范文,内容丰富有趣,生活中的好帮手!
900字范文 > 麦肯锡三部曲_天云数据副总裁李从武 | 数据中台三部曲

麦肯锡三部曲_天云数据副总裁李从武 | 数据中台三部曲

时间:2023-10-22 16:07:15

相关推荐

麦肯锡三部曲_天云数据副总裁李从武 | 数据中台三部曲

天云数据副总裁李从武受邀在大数据与AI中台论坛发表“数据中台三部曲”主题演讲。

5月,麦肯锡发表研究报告:《大数据:下一个创新、竞争和生产率的前沿》,八年时间,大数据从概念诞生到行业落地,整个数据行业由最初漫无目的的基础设施兴建,逐渐发展到基于中台而驱动决策的数据智能时代。

数据中台具有坚实的基础平台能力,距离业务更近,能更快速的响应业务和应用开发的需求,可追溯、更精准,重在以数据驱动为中心,在数据量爆发式增长,涌现大量新业务场景的大型金融机构之中,数据中台可以加强数据融合和流动,支撑混合交易处理,大幅提升业务响应能力。

李从武提出,现代企业的业务模式正在经历从流程驱动到数据驱动转变的商业重构,从BI向AI升级,数据不再是业务系统的副产品,而成为业务系统的核心资产,成为企业运营决策和业务发展的驱动力。数据中台从诞生至今,经历了数据资产化、数据融合与流动、数据价值化的三部曲。

业务中台注重的是提供敏捷服务,数据中台注重的是提供智能服务,这是因为在大数据智能化时代,业务的价值是从数据的价值中获得的,通过数据驱动的AI应用为用户提供更为智能化的服务。

以前的大数据应用都是建一个个的pipeline,从数据采集、存储、处理到可视化,这还是BI操作,面向人的,人还是在loop里面,把人从loop里面提取出来,就是BI向AI升级的过程,把流程、规则的驱动方法替代掉。

流程驱动就像洗衣机,精确的、准确的按流程组织,按照程序跑是非常准确的,洗毛的、洗羽绒的、洗布的都有专门的流程程序,特点是机械结构,出问题后可以纠正,但没有自我演变升级发展的可能;而现在的大数据时代的应用需要面向的波动性、随机性很多,本身是复杂的系统,要求在自愈的同时还能自我成长,这就要求具备在一个复杂系统上,调动各种异构数据的能力,这也是数据中台所特有的。因此,我们更需要AI而不是BI。

和互联网门户portal类似,企业也通过主题域的方式按域来划分,银行是最典型的,银行以外的行业大规模数仓的建设就少了,银行各个主题域的构建得很好,对公业务要考核哪个KPI指标,根据这个KPI,组织dashboard、规划report,组织整个数仓的构建。

主题域是对某个主题进行分析后确定的主题的边界。分析主题域,确定要装载到数据仓库的主题是信息打包技术的第一步。而在进行数据仓库设计时,一般是一次先建立一个主题或企业全部主题中的一部分,因此在大多数数据仓库的设计过程中都有一个主题域的选择过程。主题域的确定必须由最终用户和数据仓库的设计人员共同完成。

但主题域模式存在如下几个问题:需要大量人工,对于8000个表的数据库,需要30个人1年的时间才能完成主题域的定义;需要业务专家的专业知识,理解表结构、梳理业务关系。现在要处理的大量数据以机器数据和用户行为数据为主,但其本身所能表示的业务价值越来越模糊,业务专家也无法理解了。

互联网进入第二个阶段,就是搜索引擎了。信用卡交易正在从金融类交易向权益类交易转向,更多地把生活场景的消费服务、权益引入到金融属性之上,在这个过程里面,产品的多样性,按传统的主题:财务视角、对公视角,导致复杂性出现,互联网的解决办法呢是搜索引擎,搜索引擎的核心是build index,很多用户的数据资产都是以这种方式构建的,比如ES、58同城,现在的数据治理用了标签体系,银行数据治理中可能把主题域和标签相融合。但与主题域方式相比,挑战就是数据质量问题,主题是人工梳理过了,充分了解了,主题是业务定义出来的,是非常清晰和明确的,而索引标签模式,翻几篇也找不到我们要的数据,而且它没法子定量,就是对数据量化和定价,最挑战的是标签初始化过程,互联网的页面里面有tag、header,可以自动化的提取出来打标签,但数据表一般都没有完备的数据字典,所以缺少自动化的手段来完成标签定义的,所以需要人工的初始化过程。

标签索引模式也同样存在问题:对数据质量要求高,难以定价量化,需要工作量巨大的初始化工程。

第三个阶段可以说是一种高维化手段,就像在二维的平面里面的一个蚂蚁,无论如何走都出不了平面的限制,通过升维数据维度,我们可以更好地了解数据的全貌。二维表一样,无论怎么跳,都在二维索引里面。就算有数据字典,还是用表解释其他的表,比较有效的就是从高维视角看数据。把复杂网络引入进来,用复杂网络的工具来表达复杂的数据结构,用复杂网络的方法来自动获取业务调用关系,原来主题域阶段是通过应用的访问方式,我知道你这个部门和那个部门的关系,然后有哪些业务系统,那些业务系统下有哪些表,然后他们之间的业务逻辑是怎样的,通过咨询、手工引进的。

但我们可以采用自动化的数字手段,采集属性,表的主键、外键,SQL可以被解析,SQL解析和存储过程可以自动化地定义到业务的连接,这些方法就可以快速构建高维的数据结构。

机器学习和深度学习相当于推理,但深度学习里面没有常识和知识,复杂网络正是用一种表示学习的方法把知识结构做深度表达的方法,在推理里头,深度学习和表示学习都是都是高阶的方法。互联网采用性能更高的空间推理,比如贝叶斯网络,在互联网推荐引擎里面经常使用。与互联网相比,银行的业务不是太实时性,没有互联网那样的明确的点击流,深度学习和表示学习更适合银行这种已经沉淀了大量知识资产的用户。

现在看到的是天云的第一代产品,是以油田交换油环节的一个实际项目为例,要在一周内完成两个业务系统8000多张表的数据导入和关系构建,主题域模式的数据识别和组织是无法满足要求的。

能源行业与银行不同,能源的数据都是机器数据,各种钻机、磕头机、输油管等等,专业性很强,it能力也差,数仓也没有建,但要建立交换油数据维度的主题,用传统咨询的方式,建主题,大约在8000个表上做业务咨询,大概要30个人从传统的建主题的方式要干1年,而天云用了自下而上的自动发现的方法,在2周内就完成了。

这对用户来说,是很震动的,可以大大节省他们的人力成本。把30人年的成本,降低为2周几人的工作量。

第一阶段:数据资产化:

目前数据治理方式的变迁,已过渡到自动化数据管理系统(ADG),可以利用人工智能技术自动地发现企业各业务系统数据的架构和数据主体,并直接发现跨数据库的表和人财物各类数据间的关系。

天云在某能源公司分局已经成功实施了该应用,共将十几个业务系统(数据采集、核心应用、信息中心、开发月报、开发应用、协同平台等)的数据库、8000多张表、 十几万个字段的元数据和主数据提取出来,并建立了统⼀的关系视图,而整个工程从复杂网络Hilbert安装部署开始只需要2周就可以完成;与数据仓库和主数据系统的建设相比明显快了很多,而且可以根据业务和数据的变化,天云所产生的Schema可以跟着一起变化,非常灵活。

第二阶段:数据融合与流动

几十年来,信息化系统从架构、计算、信息已经发生了本质变化,move data还是move code,从程序为核心,到数据为核心的转型,计算的本质发生变化以后,从IOE转向了分布式计算,从资源的封装,走到了对服务的封装,从虚拟化转向了容器化。从流程驱动走向数据驱动,在数据的不同的使用方式上,从作为应用的副产品被沉淀下来,迈向了以数据加算法的数据科学的能力,BI向AI迁移,实现了数据仓库向人工智能的转型。两大技术阵营的转换中,新世界的科创技术在新的技术生态中开始发挥重要作用,对传统数据库的替代也是顺理成章的。比如天云大数据自主研发HTAP国产分布式数据库,上线了某大型股份制银行的全量数据在线实时交易系统,面向柜面系统提供7*8小时A类实时核心交易,面向手机网银系统提供7*24小时A类实时核心交易。

第三阶段:数据价值化

所有复杂、难以抽象的商业规则和场景,将它们数字化以后,复杂问题反而可以被清晰的界定和量化,算法可以对商业实践做替代,这个过程,即AI PaaS(AI平台即服务),可以成为产业升级、数字化转型的基石。天云大数据在数据价值化的第三阶段,提供各行业通用的人工智能 AI PaaS平台,服务AI的AI,天云积极推动AI跨行业赋能,已成功落地在金融、能源、政府、医药等领域。

总结来说,ADG自动化数据治理HTAP数据融合与流动AI PaaS提供人工智能化服务,三者构成了数据中台三部曲。

公司介绍

天云数据公司介绍

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。