数据中台,数据中台的具体含义
一、数据中台建设内容包括哪几个方面
中台首先是一种战略选择,一种组织形式,其次才是一些有形的产品支撑和实施的方法论。
由于企事业部门之间的系统分散开发或者些单位系统重建或引进系统开发项目,导致很多单位内部之间的信息不能共享,产生数据与信息孤岛;或者没有统一的数据规范和标准,造成数据整合的不便。数据还仅仅停留在散乱的资源阶段,离数据“变现”,形成数据资产的理想阶段,还相距甚远。
为解决上述问题,就需要企业自身进行合理有效的数据资源规划,梳理清楚企业自身的“数据家底”,从而掌握企业当前数据资源的详实状况,明确企业的数据种类、未来可能获取的数据种类,以及这些数据的数据量、数据质量、数据用途等等。
数据资源规划是数据治理,数据建模,数据资产管理,数据指标体系规范等工作的前置环节和必要条件,因此数据资源规划的作用至关重要,包括数据资源梳理、数据资源规划实施、数据资源可视化、数据资源分析报告四部分内容。
数据资源梳理:即企业需要梳理清楚:数据来自谁,用在何处,如何存储?一般而言,业内会从三个维度,来对数据资源进行分类管理,数据产生主体、数据来源、存储形式等。
数据资源规划实施:企业在数据资源规划与获取的过程中,除了需要企业内部提供有效的组织保障,包括数据管理人员、数据分析人员和业务使用人员之间的紧密协作,而且还需要全面的对整个企业或政府部门组织需求分析调研,这样才可有效帮助企业理清数据资源家底,明确数据资源获取与使用的方式方法。
数据资源可视化:在数据中台理念下,我们所指的数据资源规划和获取一定是企业全局性的考量和行为。“牵一发而动全身”这必然会牵扯到各部门和各层级组织架构的利益。
数据资源分析报告:企业以前对自身数据资源的认识是模糊的,企业需要一份完整详备的数据资源分析报告,指导后续数据治理和数据资产管理平台的建设,最终服务于企业数据应用场景。为了满足客户的这一需求痛点,袋鼠云便将数据资源分析报告作为“数据资源规划与获取服务”的交付产出物之一。
深度思考、认知升维、跨界连接,欢迎加入#工业互联网研习社#社群(欲加入研习社,欢迎私信咨询)
—笔者在知识付费领域的探索,2018年1月1日,造奇智能产业新媒体独家推出、业界首份聚焦工业互联网领域的高质量实名付费社群——[工业互联网研习社],依托[知识星球]而建。致力于打通工业互联网从资讯→信息→知识→认知→见识→服务的链式通路,助力您的职业发展和机遇把握。这是在工业媒体与知识分享领域的知识付费尝试!
—近300位付费研习社社友遍布上海、北京、深圳苏州、杭州、武汉、芜湖等工业重镇,初步构建起覆盖工业互联网平台、工业软件、底层数据采集、工业数据分析、系统集成商、大学及产业资金在内的全国价值网络。
二、什么是数据中台
老苏从数据营销的角度来讲讲数据中台。
现在,由于大量的生意和营销信息都来自线上,因此,现代企业的业务和管理越来越数据化。数据驱动的智能企业具有更强的生命力。
另外还有一个原因,使企业越来越重视数据化。那就是,在互联网时代,市场竞争转向了“低纬度”的价格竞争,企业的利润率大幅下降,企业营销都以(好像也只能以)ROI(投入产出比)为最终导向。因此对每个营销节点产生的流量和转换,都需要进行精准的测量和计算。
在数字营销格局中,各大网络平台(BAT、抖音等)掌控着流量、触点、分配权和游戏规则的制定权,企业能主动掌控的唯有“监测技术+数据分析”。
于是,有实力的企业便自己建立数字化管理体系,没实力的企业便“仰仗”外包的软件公司,最终目的是为了实现以下两点:
1、缩短营销管理和效果检测周期,以“周”或者“天”为单位,实时修正营销闭环管理(规划-执行-考核)。
2、进行营销数据优化(目标消费者选择,动态定价等)、内容优化(动态创意,A/Btesting等)、触点优化(多渠道协同,广告频控等)。实时修正执行策略,减少资源浪费。
建立完整的数据运营能力是一个复杂的体系工程,企业所需要具备的数据能力可分为前、中、后三期,分别为:
●前期:构建数据中台能力;
●中期:构建数据分析能力;
●后期:创建和优化数据驱动营销的应用场景。
当企业真正走入数据驱动管理之路后,就会发现,来自数据仓库或数据平台的海量数据,虽然进行了一定的结构化归集,但与企业自身业务的匹配度相去甚远。因此,自建数据中台,就显得尤为重要。
数据中台主要实现以下六个功能:
可以说数据中台是企业营销的中心平台,企业要像电商平台一样去经营数据中台,对业务进行实时分析,提醒数据服务提供方,实时调整、改变、优化数据服务。只有这样,营销工作才能得到最快的支持和响应,适应线上市场环境的快速变化。
未来企业运营的核心将会是数据部门,而数据中台是数据价值化的加工厂。所有的企业都需要数据中台的能力,数据中台一定是未来每个企业的标准配置。
三、数据湖、数据仓库、数据中台,有什么区别
我们谈论数据中台之前,我们也听到过数据平台、数据仓库、数据湖的相关概念,它们都与数据有关系,但他们和数据中台有什么样的区别,下面我们将围绕数据平台、数据仓库、数据湖和数据中台的区别进行介绍。
01数据仓库数据仓库(DataWarehouse),也称为企业数据仓库,它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合存储系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。
数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。
数据仓库针对实时数据处理和非结构化数据处理能力较弱,以及在业务在预警预测等方面应用有一定的限制。
02数据湖数据湖(DataLake)是Pentaho公司CTOJamesDixon提出来一种数据存储理念—即在系统或存储库中以自然格式存储数据的方法。数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据。在数据湖中,可以存储不需要对其进行结构化的数据,这样就可以运行不同类型的分析。下面的定义是维基百科所给出的“数据湖”定义。
数据湖(DataLake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象Blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。
数据湖能够帮助企业实现数据的集中式管理等多种能力;数据湖融合了先进的数据科学、机器学习和人工智能技术,帮助企业构建更加优化的数据运营模型,为企业提供预测分析、推荐模型等能力,这些模型能够刺激企业能力的持续增长,不断赋能于企业增长。数据湖能从以下方面帮助到企业:
实现数据治理;通过应用机器学习与人工智能技术实现商业智能;预测分析和模型推荐,例如:领域特定的推荐引擎;信息追踪与一致性保障;基于历史数据分析生成新的数据维度,挖掘数据深度价值;提供集中式存储的企业数据中心,并提供基于数据传输优化的数据服务;协助企业实现灵活的增长决策。03数据平台数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集。
数据平台的出现是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等。当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来,以数据集的形式提供给数据应用。
大数据时代,数据平台一般被称之为大数据平台。狭义上的大数据平台和传统数据平台的功能一致,只是技术架构和数据容量方面的不同,但广义的大数据平台通常被赋予更多的使命,它不仅存储多样化的数据类型,还具有报表分析等数据仓库的功能,以及其他数据分析挖掘方面的高级功能。
04数据中台数据中台通过对企业内外部多源异构的数据采集、治理、建模、分析和应用,使数据对内优化管理提高业务价值,对外进行数据合作让业务价值得到释放,使之成为企业数据资产管理中枢。数据中台建立后,会形成数据API服务,为企业和客户提供高效各种数据服务。
数据中台对一个企业的数字化转型和可持续发展起着至关重要的作用。数据中台为解耦而生,企业建设数据中台的最大意义就是应用与数据之间的解藕,这样企业就可以不受限制地按需构建满足业务需求的数据应用。构建了开放、灵活、可扩展的企业级统一数据管理和分析平台,将企业内、外部数据随需关联,打破了数据的系统界限。利用大数据智能分析、数据可视化等技术,实现了数据共享、日常报表自动生成、快速和智能分析,满足企业各级部门之间的数据分析应用需求。深度挖掘数据价值,助力企业数字化转型落地。实现了数据的目录、模型、标准、认责、安全、可视化、共享等管理,实现数据集中存储、处理、分类与管理,建立大数据分析工具库、算法服务库,实现报表生成自动化、数据分析敏捷化、数据挖掘可视化,实现数据质量评估、落地管理流程。05数据仓库VS数据湖相较而言,数据湖是较新的技术,拥有不断演变的架构。数据湖存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据。根据定义,数据湖不会接受数据治理,但专家们一致认为良好的数据管理对预防数据湖转变为数据沼泽不可或缺。数据湖在数据读取期间创建模式。与数据仓库相比,数据湖缺乏结构性,而且更灵活,并且提供了更高的敏捷性。值得一提的是,数据湖非常适合使用机器学习和深度学习来执行各种任务,比如数据挖掘和数据分析,以及提取非结构化数据等。
06数据仓库VS数据平台由于数据仓库具有历史性的特性,其中存储的数据大多是结构化数据;而数据平台的出现解决了数据仓库不能处理非结构化数据和报表开发周期长的问题。
通过以上的论述,我们发现数据平台和数据湖好像存在诸多相似性,这二者之间的区别,从个人角度理解上分析应该是数据加工的角度不同,数据湖更着重于对原始数据的存储,而数据平台则同数据仓库一样,需对原始数据进行清洗、转换等数据处理后按照统一的标准规范进行存储。
07数据仓库VS数据中台数据仓库和传统的数据平台,其出发点为一个支撑性的技术系统,即一定要先考虑我具有什么数据,然后我才能干什么,因此特别强调数据质量和元数据管理;而数据中台的第一出发点不是数据而是业务,一开始不用看你系统里面有什么数据,而是去解决你的业务问题需要什么样的数据服务。
在具体的技术处理环节,二者也有明显不同,数据的预处理流程正在从传统的ETL结构向ELT结构转变。传统的数据仓库集成处理架构是ETL结构,这是构建数据仓库的重要一环,即用户从数据源抽取出所需的数据,经过数据清洗,将数据加载到数据仓库中去。而大数据背景下的架构体系是ELT结构,其根据上层的应用需求,随时从数据中台中抽取想要的原始数据进行建模分析。
08总结根据以上数据平台、数据仓库、数据湖和数据中台的概念论述和对比,我们进行如下总结:
数据中台、数据仓库和数据湖没有直接的关系;数据中台、数据平台、数据仓库和数据湖在某个维度上为业务产生价值的形式有不同的侧重;数据中台是企业级的逻辑概念,体现企业数据向业务价值转化的能力,为业务提供服务的主要方式是数据API;数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集;数据中台距离业务更近,能够更快速的响应业务和应用开发需求,从而为业务提供速度更快的服务;数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。