何宝宏:让数据资源向数据资产发展,从能存、能算到释放价值、对外流通
2023-09-08 20:13:02 人民数据

9月1日,由人民网·人民数据主办的“数据要素发展座谈会暨数据要素公共服务平台上线仪式”活动在人民日报社成功举办。

在主题演讲环节,中国信息通信研究院云计算与大数据研究所所长何宝宏发表《数据要素技术概览》主题演讲。


(资料图)

图为中国信息通信研究院云计算与大数据研究所所长何宝宏发表演讲

何宝宏表示,数据市场发展几十年来,技术一直在变化。在过去20年,大数据时代让所有的数据能够管起来、用起来,把原始数据提炼成数据资源,但仍然面临“用得不够好、价值释放不够”的难题。从大数据到数据要素时代的目标,是让数据资源向数据资产发展,从能存、能算到释放价值、对外流通,真正进入数据3.0时代。

何宝宏指出,围绕数据资产化过程主要有三大类:第一是数据管理,当前的数据管理的工具和智能化不够,人为介入比较高,应该更技术化;第二是数据安全,原来数据安全主要靠防火墙的边界,只有在边界内才是安全可控的,数据要素要求在流通中解决安全问题,就要将边界安全变为数据的内生安全;第三类是数据流通,致力于从“流通即失控”变为“可用不可见”。

何宝宏认为,数据管理技术应达到好用、易用的技术需求。易用,即灵活应对各类需求;好用,即数据质量全面提升。数据管理的基础性技术现已成熟,而创新融合还在继续。面向数据质量自动化管理的AI技术方案已基本成熟,有待进一步推广应用;针对“让数据更好地找到人,而不是让人找数据”的问题,融合各类技术进行数据管理以实现“数据主动找人”的数据编织技术正在快速兴起,但目前处于概念期;数据仓库和数据湖技术已得到广泛应用,融合数据仓库、数据湖各自优势的湖仓一体技术有待进一步提高性能。

何宝宏指出,数据安全保护技术已相对成熟,全生命周期的模式创新不断。数据安全技术方面,应从数据存储、访问、使用和流通安全及数据的分级分类几个方面实现数据的有效保护和有力控制。建立“规则+AI识别”是当前常用的数据安全保护技术路线,分类分级、防泄露、零信任验证等均在一定程度上依赖相应规则的设置和人工智能的精准度;基于“持续验证,永不信任”理念的零信任技术架构进一步适应不断突破边界的云、网环境,进一步推动数据安全对全生命周期的覆盖。

何宝宏表示,数据流通的技术需求:确权、转移和定价。数据流通中的问题主要是确权、转移和定价在法律法规的基础上需要相应技术手段的支持。在确权方面要解决声明技术和共识:声明权利可通过在数据内嵌入标识、凭证以声明权利的数字水印等技术来实现;权利获得共识且不可篡改则可通过数据各类权利共识存证、不可篡改、可追溯的区块链/web3等技术来实现。

何宝宏认为,数据转移则是核心问题,涉及到很多的相关技术。API接口和数据脱敏是目前最常用的两个技术,两者经常会结合使用。何宝宏指出,这两者当前也存在一定的局限性。首先,API接口只提供数据集中的部分记录、字段,数据脱敏改变了原始数据的形态,原始数据的全量信息均受到损失,价值较原始数据大幅降低;其次,通过API或脱敏给出的数据已不再受数据提供方掌控,容易被滥用,或通过其他关联反推原始数据。何宝宏表示,基于加密隐藏的多方安全计算技术是数据转移的另一个重要技术,其需要去中心化及支持通用计算,目前计算效率还较低、开发难度较大,应用性距产业化推广还需要一个过程;另一方面,传递建模中间信息隐藏原始数据的联邦学习日趋发展成熟,广泛适用于风控、营销、政务、医疗、互联网金融等应用场景,但这项技术的局限性在于目前缺乏严谨的安全证明机制,参与方可能通过交互的中间数据反推出原始数据,还易受到数据投毒和模型攻击等攻击方式;另外,联合建模往往需要多轮迭代,在多方参与情况下,由于计算资源不同会造成数据聚合不同步,从而影响整体性能;再者,该技术目前尚缺乏相关法律法规的支持。何宝宏还提到,智能合约则能实现数据流通使用限量、限目的、不可篡改,实现完全数字原生的合约,数字原生的定价机制等,但目前总体处于初步发展阶段,理论和技术手段还不太成熟。隐私计算的“可用不可见”——企业在控制所持数据的基础上,让数据“来去自由”,成为自主可控的数据资产,已经可以产业化应用了。

何宝宏指出,定价问题的技术需求则是多方合作时的数据价值贡献度量。对于多方联合参与计算的场景,每方所提供数据的价值衡量需要技术支持,即在联合计算的过程中通过算法公平合理地衡量数据价值贡献度,作为收益分配的依据。数据定价在多方参与联合建模的场景中,综合运用博弈论、人工智能模型、信息论等技术,探讨数据价值与决策模型精度的关系,可以为度量各数据方的贡献度、进一步分配收益提供依据。何宝宏认为,目前其应用的场景相对比较局限、产业化不足,新的应用场景还不多。

何宝宏表示,总体而言,围绕着数据要素需要更多的新技术,也需要相关法律法规的密切配合,目前依然面临着严峻考验。

来自29个中央部委相关部门负责人,湖北、河南、黑龙江、安徽、内蒙古等省区的地方政府部门负责人,以及各地大数据交易所、大数据企业的代表500多人出席会议。

猜你喜欢