作者丨易睿明

单位丨深圳市天维大数据技术有限公司

近日在“2021大数据产业峰会成果发布会”上,中国通信院云计算与大数据研究所所长发布了《2021大数据十大关键词》,分别为:数据要素、数据安全、DataOps、隐私计算、服务体系、与云融合、实时计算、数据湖、数字孪生、硬件变革。十大关键词指出了2020-2021年间,大数据在政策、技术、产业、应用等方面呈现出的特点,为产业下一步演进提供了依据。

关键词1 · 数据要素

在数字化转型过程中,数据作为生产要素,一方面在驱动产业智能化、催生新的生产组织形态方面的作用不断显现,推动新型产品和服务的创造;另一方面,作为参与分配的要素,数据背后涉及经济结构的变化。数据生产要素成为当代关键要素,区别于以往生产要素的突出特点是,数据对其他要素资源具有乘数作用,可以放大劳动力、资本等生产要素在社会各行业价值链流转中产生的价值。数据资产化进程将不断释放底层数据的价值,促进现代信息技术的市场化应用,推动整个数字产业形成和发展,加速数字经济新业态、新模式和新优势的诞生。

九次方大数据创始人、贵阳大数据交易所总裁王叁寿也表示过:“数据治国、数据治理城市需要发挥数据要素的价值,让数据成为可流动的资产,数据要素流动、数据要素的价值认可将极大推进数据治国进程。”

关键词2 · 数据安全

 

大数据安全威胁渗透在数据生产、采集、处理和共享等大数据产业链的各个环节,风险成因复杂交织:既有外部攻击,也有内部泄露;既有技术漏洞,也有管理缺陷;既有新技术新模式触发的新风险,也有传统安全问题的持续触发。数据是核心资产,数据就是未来,不管对企业、政府、集团甚至是国家来说,都是极其重要的。中国信通院联合联通数科、百度、奇安信、蚂蚁等20多家企业制定了团体标准《数据安全治理能力评估框架》,已经在今年4月份在中国互联网协会正式发布。而且2021年6月初《数据安全法》颁发,明确要求企业“建立健全数据安全治理体系,提高数据安全保障能力”,企业必须在业务发展与数据安全之间寻求平衡点。

数据安全确保离不开数据治理,所以需要加大数据治理工作的力度,建立数据资产化管理体系,明确数据采集和管理职责,制定统一的数据标准,搭建集成、统一的数据管理平台,实现数据的资产化、集中化、平台化管理,确保数据的及时性、准确性和完整性,提高数据集成共享能力,充分挖掘数据资产价值,夯实数字化转型基础。数据治理是现代企业在信息化和全球化的大环境下,谋求竞争优势和向高端发展进程中难得的一个机遇,也是一个无可回避的挑战。

 

关键词3 · DataOps

DataOps是一种协作式数据管理的实践,致力于改善组织中数据管理者与使用者之间数据流的沟通,集成和自动化。Gartner研究副总裁Nick Heudecker表示:“ DataOps是一种没有任何标准或框架的新实践。”越来越多的技术提供商在谈论他们的产品时已经开始使用该术语,而且我们还看到数据和分析团队在关注这一概念,DataOps正处于迅速上升的周期。”DataOps(数据运营)是以一种敏捷的方法,用来设计、实施和维护分布式数据架构,支持广泛的开源工具和框架,数据运营的目的是从大数据中获取业务价值。
# DataOps的构建有什么收益:
1. 提供实时的数据洞察能力
2. 加速数据应用的构建过程
3. 让数据价值链的每一个角色都能更好,更高效的协作
4. 提高数据的透明度,从而能够更好的产生数据创新和增进协作
5. 提升数据和数据服务的可复用性
6. 优化数据质量

7. 构建一个统一的,标准化的,同源的数据协作平台

# 一个成功的DataOps具有几个特质:CAUTA
1. 持续/Continuous

2. 敏捷Agilitly

3. 全面/Universal

4. 可信/Trust

5. 自动/Automation

数字化转型大潮下,挖掘数据价值越发重要,大数据成为企业的宝藏,DataOps作为一种新的数据管理趋势,还属于没有任何标准或框架的新概念,唯一明确的是,它更侧重于对数据的关注。

 

关键词4 · 隐私计算

隐私计算是面向隐私信息全生命周期保护的计算理论和方法,具体是指在处理视频、音频、图像、图形、文字、数值、泛在网络行为信息流等信息时,对所涉及的隐私信息进行描述、度量、评价和融合等操作,形成一套符号化、公式化且具有量化评价标准的隐私计算理论、算法及应用技术,支持多系统融合的隐私信息保护。隐私计算涵盖了信息所有者、信息转发者、信息接收者在信息采集、存储、处理、发布(含交换)、销毁等全生命周期过程的所有计算操作,是隐私信息的所有权、管理权和使用权分离时隐私信息描述、度量、保护、效果评估、延伸控制、隐私泄漏收益损失比、隐私分析复杂性等方面的可计算模型与公理化系统。现有的隐私保护研究主要集中在信息处理过程中的隐私保护、隐私度量与评估两个方面。

事实上,隐私计算技术是密码学的一个前沿发展方向,填补了数据在计算环节隐私性问题的空白,将基于密码学的信息安全体系打造成完整的闭环,为云计算、分布式计算网络和区块链等技术的应用提供隐私性基础,为数权归属提供可能。北京微芯区块链与边缘计算研究院院长董进表示:“区块链有望成为隐私计算产品中必不可少的选项” ;区块链技术可以保障隐私计算任务数据端到端的隐私性,此外,区块链还可以保障隐私计算中数据全生命周期的安全性,可以保障隐私计算过程的可追溯性。随着大数据产业的迅速发展,通过优化算法和协议设计、与云平台的融合应用、软硬件协同设计等融合创新,从而提升计算、交互效率,将是当下和未来隐私计算发展的重要方向。《2021隐私计算行业研究报告》表示,为促进隐私计算发展,仍要不断健全完善数据流通和分享的政策监管体系,奠定隐私计算产业的合法性框架;要逐步建立隐私计算技术和应用标准和产品认证体系,促进行业规范发展;要通过一系列高标准示范应用项目,为市场形成示范。

 

关键词5 · 服务体系

大数据服务体系由规划咨询、部署实施、运维运营等软件共同构成,它解决了产品到应用最后一步。由于大数据技术的复杂性与业务结合的紧密性,大数据项目无法做到“交钥匙工程”,需要优质且持续的服务,通常大数据项目的烂尾通常都是由不完善的服务能力。建立一个完善的服务体系,可能是每个服务管理者的终极梦想,那有什么作用,又如何去做呢? 

 

 

关键词6 · 与云融合

根据 Gartner的报告,全球公共云服务市场在 2019 年已经突破两千亿美元。毫无疑问,历经多年的发展和成熟,云计算已经成为一种潮流,也是现代企业数字化转型中的重要组成部分。现代云计算是由大大小小、形态各异的云服务所组成。业界通行的做法,是将它们大致划分为 IaaS 和 PaaS 两个领域。IaaS(Infrastructure as a Service),即“基础设施即服务”,一般指云计算所提供的计算、存储、网络等基本底层能力;PaaS(Platform as a Service),即“平台即服务”,通常指基于云底层能力而构建的面向领域或场景的高层服务,如数据库、应用服务等。广义上的云计算,还可包括 SaaS(Software as a Service,软件即服务)的内容,一般指基于云构建可开箱即用的各种业务应用。

云计算其实就像是一个琳琅满目的武器库,十八般兵器样样俱全。不论你要完成什么任务,或大或小,都能在这里找到称手的兵器。而当江湖上开始流行什么厉害的新式武器的时候,这个兵器库中,也会很快出现这种武器的“同款”甚至“改进款”,让我们紧跟时代的潮流。

 

关键词7 · 实时计算

离线的计算会越来越慢,难以满足某些场景下的实时性要求,因此很多解决方案中引入了实时计算。实时流计算有两个特点,一个是实时,随时可以看数据;另一个是流。从数据和事件角度,实时流计算需要一套完整的解决方案,比如 Flume + Kafka + spark。Flume 是一个分布式、高可用的海量数据聚合的系统,用于收集数据,进行简单处理后把数据推送到数据队列处理系统,比如 Kafka。Kafka 是一种分布式的、基于发布/订阅模式的消息系统,与遵循 AMQP 标准的 RabbitMQ 不同,Kafka 是一个更通用的消息系统,以时间复杂度为O(1)的方式提供消息持久化能力,对 TB 级别的数据也能保证常数时间复杂度的访问性能。它负责接收消息,然后再把消息传给 spark,对于 spark 来说,Kafka 就是一个永不停歇的数据源。现在市面上实时计算框架很多,比如Spark Streaming、Samza、Flink等等。

 

关键词8 · 数据湖

数据湖是什么?在笔者看来,数据湖其实就是一个概念,只要满足以下三个条件的都可以叫做数据湖。

1、数据集中存储

2、存储任意格式

3、支持多个分析框架

数据湖和数据仓库之间有一个重要的区别。数据湖以数据源提供的任何形式存储原始数据。没有关于数据模式的假设,每个数据源可以使用它喜欢的任何模式。由数据的消费者为自己的目的理解这些数据。随着时代的发展,数据仓库越来越捉襟见肘,弊端日益暴露,比如:来源是确保数据质量、清洗丢弃数据、保存的数据必须是确定的且规范的结构化数据,像业务数据;而数据湖是无模式的,由源系统决定使用什么模式,并由消费者解决如何处理由此产生的混乱。此外,源系统可以随意更改其流入数据模式,而消费者也必须再次应对。显然,我们希望此类更改的破坏性尽可能小,但科学家们更喜欢凌乱的数据而不是丢失数据。这样更有利于数据的价值挖掘,因为这极大的利用了数据湖的优点:集中存储、成本可控、使用简单,能够支持任意格式输入并拥有分析处理能力。
 
# 我们为什么需要数据湖?

1. 基于数据湖的开发模式是一种读时模式,是一种灵活的、快速的数据处理思路,可以快速的对以后数据进行数据分析,并让其立刻产生价值。

2. 它能在数字化的新浪潮下,真正的帮助企业完成技术转型、完成数据积累、完成高效的数据治理,应对快速发展的商业环境下层出不穷的新问题。

 

关键词9 · 数字孪生

数字孪生,是充分利用物理模型、传感器更新、运行历史等数据,集成多学科、多物理量、多尺度、多概率的仿真过程,在虚拟空间中完成映射,从而反映相对应的实体装备的全生命周期过程。官方给的定义非常复杂,看起来晕头转向,其实简单说,数字孪生就是在一个设备或系统的基础上,创造一个数字版的“克隆体”。这个“克隆体”,也被称为“数字孪生体”。它被创建在信息化平台上,是虚拟的。有的人表示,这个用CAD处理一下不就行了嘛?其实没那么简单,相比于设计图纸,数字孪生体最大的特点在于:它是对实体对象(姑且就称为“本体”)的动态仿真。也就是说,数字孪生体是会“动”的。而且,数字孪生体不是随便乱“动”。它“动”的依据,来自本体的物理设计模型,还有本体上面传感器反馈的数据,以及本体运行的历史数据。说白了,本体的实时状态,还有外界环境条件,都会复现到“孪生体”身上。

除了“会动”之外,理解数字孪生还有三个关键词,分别是“全生命周期”“实时/准实时”“双向”。全生命周期,是指数字孪生可以贯穿产品包括设计、开发、制造、服务、维护乃至报废回收的整个周期。而实时/准实时,是指本体和孪生体之间,可以建立全面的实时或准实时联系。两者并不是完全独立的,映射关系也具备一定的实时性。双向,是指本体和孪生体之间的数据流动可以是双向的。并不是只能本体向孪生体输出数据,孪生体也可以向本体反馈信息。

数字孪生起源于工业制造领域。工业制造也是数字孪生的主要战场。除了工业制造之外,数字孪生和5G、智慧城市也有非常密切的关系。在5G的支持下,云和端之间可以建立更紧密的连接。这也就意味着,更多的数据将被采集并集中在一起。这些数据,可以帮助构建更强大的数字孪生体。例如,一个数字孪生城市。城市的管理者,基于这些数据,以及城市模型,构建数字孪生体,从而更高效地管理城市。

 

关键词10 · 硬件变革

数据技术产品的设计与研发与底层硬件的架构和能力息息相关。硬件推动行业变革,2021年,底座硬件正在发生变革,这导致数据技术产品也将随之进行重构。一方面,数据技术产品将直接利用硬件实现数据安全和网络解析等功能。另一方面,未来数据技术产品将开始面向ARM架构实现。我们这样假设一下,如果未来SSD足够快,内存是不是会消失,那没有内存了,我们以往基于内存计算的框架是不是就不能用了,什么流式计算、内存计算、内存存储等都会随之变动调整,那时是不是有新的架构替换。所以硬件是推动行业变革的。

您现在是否对2021大数据十大关键词有了更深刻的了解,我们在数字化转型过程,将数据作为生产要素,确保数据安全,加大数据治理工作的力度,建立数据资产化管理体系,充分挖掘数据资产价值,夯实数字化转型基础。加强DataOps(数据运营),从大数据中获取更大的业务价值;不断健全完善数据流通和分享的政策监管体系,奠定隐私计算产业的合法性框架。建立一个完善的服务体系,提供优质且持续的服务。与云融合,利用云计算的优势,加速数字化转型。结合实时计算以及数据湖概念,完善我们转型过程中的场景需求。最后构建数字孪生体,从而更高效地管理城市。