
谁掌握了数据,谁就掌握了数字经济时代的主动权。
数据,被誉为新时代的“石油和黄金”,是与土地、劳动力、资本、技术并列的第五大生产要素。公共数据则是数据领域中最大的“富矿”。小到生活用水用电、城市空气质量、社保公积金,大到国民经济发展情况、宏观政策,公共数据与每个人息息相关。
去年以来,数据要素推动经济发展的乘数效应加速释放,金融服务、城市治理、医疗健康等领域的“数据要素×”创新应用不断涌现,既包括大而强的基础应用突破,也包括小而美的生活服务探索。工商、气象、交通、地理等公共数据广泛应用于数据开发利用中,成为释放数据价值的催化剂。《全国数据资源调查报告(2023年)》(以下简称《报告》)显示,去年我国公共数据开放量同比增长超16%,多个地区的省级数据管理部门开始探索公共数据授权运营机制。调查显示,18.6%的平台企业和51%的中央企业在数据开发利用过程中应用到了政府开放数据。
也要看到,公共数据资源开发利用依然面临数据供不出、流不动、用不好等瓶颈,尤其是供给侧矛盾突出。调查发现,在2023年全年生产的数据量中,只有2.9%被存储,一些数据在源头就被抛弃;在存储数据中,一年未使用的数据占比约为四成。这在一定程度上说明,我国数据资源开发利用程度有待进一步提高。
近日,中央层面首次对公共数据资源开发利用进行系统部署。中办、国办正式发布《关于加快公共数据资源开发利用的意见》(以下简称《意见》),提出扩大公共数据资源供给、规范公共数据授权运营等具体举措,推动构建“供得出、流得动、用得好、保安全”的公共数据开发利用体系。随后,两项配套文件《公共数据资源登记管理暂行办法》和《公共数据资源授权运营实施规范》公开征求意见。伴随着政策体系逐步健全,一大批高质量的公共数据将会有序供出,进一步激发全社会用数活力。
当然,公共数据开发利用涉及的主体多、环节长,还有一些悬而未决的问题尚未达成共识,需要摸着石头过河。比如,公共数据授权运营采用集中授权模式、分散授权模式还是分场景授权模式;如何制定明确的数据要素定价与收益分配体系,以此来激发数源单位的供数动力;如何在充分开发利用的同时保障数据安全等。针对这些焦点话题,《金融时报》记者采访了多位业内专家,探究如何挖掘公共数据这座隐形“富矿”,乘“数”而上,激发经济发展新动能、新活力。
主要矛盾在供给侧
跑好公共数据开放的“马拉松”
“公共数据资源开发利用不足,主要矛盾在供给侧。”国家数据局局长刘烈宏一语道出公共数据开发利用的关键问题。
目前,公共数据供给有共享、开放和授权运营三种方式,即政务部门间的数据共享、面向社会的数据开放,以及授权运营机构进行数据治理、开发等。其中,公共数据共享面向各级政务部门,主要是解决跨层级、跨地区、跨系统、跨部门、跨业务的数据共享交换问题。数据开放主要面向企业和社会公众,是润物细无声的主动供给模式。公共数据规模体量大,客观性、准确性更高,在保障安全的前提下有序扩大开放,对于生产生活、科学研究、社会治理等各领域大有裨益。国家数据局提供的数据显示,截至今年7月份,我国已经有243个省级和城市的地方政府上线了数据开放平台,开放的有效数据集超过了37万个,最近8年来增长了44倍。
开放的公共数据规模更大了,开放的质量更高了吗?
《金融时报》记者近期体验多家省级公共数据开放平台发现,各地开放质量和开放程度良莠不齐。比如,山东省公共数据开放平台开放的数据质量较高、规模大,用户可以按场景、部门、领域分门别类查找所需数据,平台开设了授权运营专区,链接了医疗、地理、融资等多种服务,此外,还提供移动应用、分析报告等多种资源。若平台尚未开放所需数据,用户还可以通过互动交流专区填写数据开放申请。相比之下,某些省级数据开放平台的开放情况则不尽如人意,“在网站上看到文件挂上去了,但根本点不开”“数据资源虽然看上去以应用场景分区展示,但点开之后显示‘建设中’”等虚假开放问题较多。
公共数据开放是一场“马拉松”,需要各地持续、稳定地向社会提供优质数据,关乎公共数据资源开发利用的基本面。但在实践中,很多数据开放平台难以高效持续地运营,数据开放数量少、颗粒度粗、数据更新不及时甚至“断供”,平台运营服务不稳定等问题高发,直接影响了用户对于数据开放的体验感。究其原因,根本在于供给方缺乏供数动力。
“目前,公共数据资源开发利用不足,主要是因为数据供给存在‘三不’问题,即数据持有者不敢供、不愿供、不会供。” 兴业研究金融监管高级研究员任图南在接受《金融时报》记者采访时表示,公共数据确权问题存在争议,涉及个人信息保护与数据安全保护,数据持有机构普遍存在“不敢供”的心理。公共数据开发前期需要大量投入,收益分配机制缺失导致数据持有者开发的积极性不足,也即“不愿供”。公共数据开发利用需要经过数据清洗、整理、对标、匿名化处理等多个技术环节,存储与调用也需要相关系统与技术支持。对于多数供数机构来说,单靠自身能力难以完成数据供给工作。
《意见》提出,要健全公共数据开放政策体系,优先开放与民生紧密相关、社会需求迫切的数据,鼓励建立公共数据开放需求受理反馈机制。“随着制度体系不断完善,公共数据的合理定价与收益分配模式逐步建立,将激励相容地提升各方开发与利用公共数据资源的积极性,改进目前公共数据开放平台存在的诸多问题。”任图南说。
授权运营
让高敏感、高价值数据开放有的放矢
一些公共数据潜在价值高,具有一定敏感性,无法直接向社会开放,需要依托更加专业的力量,付出一定的治理和开发成本,形成数据产品和服务供社会各方调用。在这一背景下,公共数据授权运营方式应运而生。
所谓授权运营,是指将县级以上地方各级人民政府、国家行业主管部门持有的公共数据资源,按照法律法规和相关要求,授权符合条件的运营机构进行治理、开发,并面向市场公平提供数据产品和技术服务的活动。
复旦大学中国研究院副研究员刘典在接受《金融时报》记者采访时表示,公共数据来源于政府部门、公共企事业单位的公共管理和公共服务履职,如果无条件无偿使用,开发利用动力难免不足,也难以持续。授权运营机制有助于提升公共数据的商业化运作水平,推动数据资源创新应用。总体看,授权运营还处于起步阶段,部分地区通过设立专业的数据运营公司或引入社会资本等方式取得了良好成效。
《金融时报》记者关注到,近年来,北京、上海、福建、江苏、浙江、海南、贵州等地,以及人社、气象、电力等部门单位积极探索授权运营。安徽、海南、成都、青岛等地制定出台授权运营的专项制度或者专项政策,全国已有数十个省(市)上线了运营平台或者运营专区。
相较于共享和开放,授权运营在平衡公共数据的公益性与收益性、价值释放与安全保护方面存在较大优势。市场对于加快推广公共数据授权运营抱有较高期待。“公共授权运营方式已成为各地开发公共数据的主流模式,但是由于此前授权责任方、流程等相关规则的缺失,各地在公共数据授权运营和开发的过程中难以做到‘有规可依’,亟需建章立制。”任图南表示。
《意见》重点从资源管理、授权实施、运营监督三个方面明确了诸如建立公共数据资源登记制度、编制公共数据资源目录、建立起规范的授权运营实施机制、建立授权运营情况的披露机制等一系列制度安排,为推进授权运营打好制度基础。
不过,对于授权运营采用何种模式尚不明晰,业界多有讨论和争议,各地也实践不一。具体而言,可以分为整体授权、分领域授权和依场景授权三类,其中,分领域授权和依场景授权可以统称为分散授权模式。成都和北京分别是整体授权和分散授权的典型代表。其中,成都市政府授权本地国资企业成都数据集团作为数据要素市场的一级开发主体,北京则明确以公共数据专区的形式推进公共数据授权运营。
事实上,各地公共数据资源禀赋不一,授权运营模式的选择也不宜一概而论。整体授权或分散授权也是有利有弊。上海交通大学国际与公共事务学院教授吕守军表示,在开展公共数据授权运营过程中,各地政府均面临一个普遍问题,即是否授权一家企业来完全负责公共数据授权运营平台的建设与运作管理工作,也即采用集中授权模式还是分散授权模式。集中授权模式通过“准内部化”的方式将数据安全管理置于行政体系内部来处理,有利于强化公共数据流通的安全管理,然而该模式容易形成数据垄断,不利于充分对接市场业态,数据开放的效率相对较低。与之相对应,分散授权模式有利于提升公共数据产品与市场需求的有效衔接,但是对于政府的数据管理能力与管理资源提出了较高的要求。
定价和收益分配机制
激励各方积极性的“胡萝卜”
公共数据授权运营,一端是数据的巨大价值,另一端是潜在的可观收益。业界对于公共数据授权运营的讨论常常聚焦于价格机制以及收益分配机制,数据定价和收益分配也确实是数据要素市场化配置的难点。
建立健全价格形成机制迫在眉睫。《意见》明确,指导推动用于公共治理、公益事业的公共数据产品和服务有条件无偿使用。用于产业发展、行业发展的公共数据经营性产品和服务,确需收费的,实行政府指导定价管理。国家数据局对此作出说明,即部分公共数据产品和服务收费,主要是在弥补成本的基础上,支持运营机构等相关方按投入和贡献取得合理的回报。对此,刘典表示,建立健全公共数据价格形成机制旨在平衡数据的公益性和市场化需求,有助于解决数据供给不足、开发利用效率低下等问题,形成合理的数据交易秩序,保障数据资源的合理配置和高效利用。
据了解,目前公共数据的定价主要有专家评估、数据收集或管理机构定价、市场公允价值定价等方式,尚未形成统一的公共数据价值评估标准。业内对于数据的非标准化定价也多有讨论,数据定价是否遵循“千用千价”?业内专家告诉《金融时报》记者,数据定价需要区分是数据资源定价还是数据产品定价。其中,数据资源本身没有和场景结合,行业通用的定价标准是成本法。数据产品由于应用场景、算法等的不同,定价很难标准化。对于需要收费的公共数据经营性产品和服务实行政府指导定价管理后,可以将这一价格作为全社会数据定价的锚,以此为基准来推动社会数据和个人信息数据价格的形成,这可能是未来数据产品价格形成的可行路径。
一些地方政府出台的文件已经明确授权运营可以收费。比如,《浙江省公共数据条例》指出,授权运营单位对加工形成的数据产品和服务,可以向用户提供并获取合理收益。不过,数据提供单位如何参与收益分配尚无定论,《意见》鼓励先行先试,支持在制度机制、依规授权、价格形成、收益分配等方面积极探索可行路径。
如何进行收益分配是公共数据开发利用的核心难题。“运营机构和数据持有单位如何分配收益,现在还没有特别明确的定论。事实上,由于无法直接分配授权运营的收益,影响了数据管理部门和数据来源部门的供数动力。”在采访中,业内人士对《金融时报》记者表示。
“公共数据的收益分配机制没有形成,若仅仅凭借行政力量的推广,难以在公共数据资源开发与利用过程中以激励相容的机制形成上下合力。”任图南表示,提升各方开发与利用公共数据资源的积极性,需要逐步建立起公共数据的合理定价与收益分配模式。
中国人民大学经济学院教授李三希也提到了公共数据开发激励不足的问题。他表示,“目前来说,我们并没有明确规定哪些数据可以进行开发,开发怎么收费,收费的标准是什么。地方政府或者行业部门怕担责,不愿意共享数据,事实上他们通过共享数据也得不到相应的激励,缺乏激励机制”。
多方呼吁,通过合理的收费机制,覆盖部分运营成本,并将收益在数据管理部门、数据运营机构等主体之间实现合理分配。对于为高质量的数据付费,数据需求方也有一定积极性。“对于数据需求方而言,只要定价合理,数据能对业务产生价值,是愿意为数据付费的。但大多数情况下,存在有市无数的问题,也就是说需求方愿意付费,但供给侧由于各种原因无法提供相应的数据。”浙江蚂蚁密算科技有限公司CEO王磊表示,公共数据取之于民、用之于民,但数据存储、维护都需要成本,制定合理的价格与利益分配机制,是激发供数动力的关键举措。
寻找适配场景
既要供得出也要用得好
“杭州e融”累计撮合融资3239亿元,服务26.2万家经营主体;“内涝监测预警平台”监控33个易积水点、72个隧道、184个下穿通道、1833个地下空间等重点设施,累计整改隐患81个……在浙江杭州,“城市大脑”赋能城市治理现代化,让政务服务“一网通办”、城市运行“一网统管”、社会治理“一网共治”从愿景变为现实。
15%的中小企业和99%的金融机构网点入驻,发布金融产品超200个,融资申请超2100笔,授信额度超340亿元……在西藏,地方征信平台(藏金普惠)于2022年底建成上线,成为连接银企两端的金融政策、产品、服务“一站式”供给的高速路。
当下,数据要素推动经济发展的乘数效应加速释放。我国数据应用数量较之前有了较大提升,应用场景进一步丰富。但由于数据权责不明晰、数据监督管理复杂、数据安全保障机制不健全等因素,公共数据的开发利用还只能在有限的范围内进行,难以形成丰富多元的创新应用场景,阻碍了公共数据开发开放生态的活力激发。
数据价值只有在应用场景中才能实现。公共数据只有向市场主体开放并被其充分利用,才能使数字创新成为可能,进而赋能产业数字化转型和培育新模式新业态。王磊表示,要开发利用好公共数据,一是要解决公共数据开放质量不高、不足的问题,也就是数据源问题。二是解决技术能力的问题,包括数据加工、数据安全等技术。三是寻找适配的应用场景。目前来看,金融和医疗领域是对公共数据需求较强的两个领域。
以金融领域为例,公共数据的高权威性、高准确性可以帮助金融机构搭建起“客户建立—贷款审批—贷后管理—客户触达与精准营销”的数据链路,优化智能风控体系和精准营销体系。某股份行金融科技专家在采访中对《金融时报》记者表示,该行在汇集多维数据的基础上,运用大数据和机器学习等技术构建了线上融资标准化模型体系,有助于全面刻画小微企业画像,提升风险管理的动态性和高效性。其中,政务数据涵盖了税务、工商、企业用水用电等领域的关键信息,占指标特征库的50%以上。
与数字金融打交道多年,他深谙公共数据对于信贷审批、风控、营销等环节的重要性,但公共数据在供得出方面仍面临一些痛点、堵点。“目前,各个部门对于政务数据的开放程度不一样,各个省份的使用要求也不一样。比如税务、工商、征信是实时接口,更新频率、查得率比较好,但像电力这类数据的覆盖面、查得率还有待完善。但这类数据恰恰对于我们进一步细化模型颗粒度、提升金融服务的精准度十分重要。”该专家表示,造成这种现象的根本原因在于缺乏明确的定价、收益分配机制,数源部门的供数动力不足。“我们银行还是愿意为数据付费的。付费之后,供给方能够更有动力去做好数据治理、数据安全等,数据的质量也更有保障。”他补充说道。
此外,在大规模数据供得出的基础上,提高数据用得好的能力是关键。《报告》指出,公共数据成为引领数据开发利用的催化剂,公共数据开放量同比增长超16%,授权运营初步探索。数据多场景应用、多主体复用难度大,在样本企业中,96%的行业重点企业已实现数据场景化应用,但实现数据复用增值的大企业仅占8.3%,数据价值有待释放。
李三希提到,数据的价值取决于服务能力,现阶段,应用数据的能力十分重要。他举例说,在面临拥有海量数据的阿里、京东和腾讯微视的竞争下,拼多多和字节跳动成功崛起。ChatGPT大模型在美国崛起,也是技术和经济环境等多种因素的共同作用。由此可见,比起单纯的数据量,技术和有利于创新的体系、制度和经济环境至关重要。
“制度+技术”
数据安全的双重保障
对于公共数据资源,开发开放是导向,安全依规是前提。当大规模、高价值的数据流通时代到来,跨主体、跨机构、跨行业、跨地域的流转成为主流,数据的安全性问题凸显。如果数据很难流得动,那就更不用说用得好。
对于数据安全的担忧同样制约着数源单位的供数动力,也在一定程度上影响着授权运营模式的选择。“在激励机制不明确的情况下,开放公共数据意味着供数部门要承担无限风险责任,尽职免责相关规定需要进一步明确。”王磊同时谈到,“授权一家机构去做运营,运营机构通常是国资背景,数据安全性比较容易管控,但可能带来市场集中度较高的问题,授权多家运营机构则难以保障数据安全。”
保护数据安全,制度和技术缺一不可。《意见》强调,应当保密的公共数据不予开放,严格管控未依法依规公开的原始公共数据直接进入市场,严禁运营机构未经授权超范围使用数据。数据管理机构要加强指导和管理。运营机构要切实履行数据安全的主体责任,采取必要措施,保障数据安全。在技术层面,《意见》鼓励开发数据模型、数据核验、评价指数等形式的数据产品,实现原始数据不出域,数据可用不可见,既保障数据安全,也有效保护个人信息。
“在做好私有域和公有域数据安全保护的同时,又希望提高数据的流动效率和共享效率,这是个难点问题。”一家大型银行金融科技专家告诉《金融时报》记者,“目前公共数据供给不足,一方面,个人信息、数据安全立法越来越严格;另一方面,各方又期待数据加快共享和流动,这两个方面有一定的矛盾性。”
技术的突破正在帮助打破这种困境。其中,隐私计算技术被广为提及。任图南表示,在高度强调数据安全的前提下,隐私计算可以实现数据可用不可见,能较好解决数据匿名化后应用价值大幅降低的情况,是实现公共数据安全开放与利用的重要技术支持。隐私计算至少包含三种核心技术,即多方安全计算、联邦学习与可信执行环境,各项技术在发展过程中不断交叉融合,共同形成隐私计算生态。
不过,这项技术也存在一些局限性,比如计算成本较高、性能降低和部署复杂等。在这种情况下,相对更安全和更便宜的密态计算技术脱颖而出。“密态计算的核心是解决数据在流通和使用过程中的全链路安全性问题。”据王磊介绍,密态计算是综合利用密码学、可信硬件和系统安全技术的隐私保护计算技术,计算过程中数据可用不可见,计算结果保持密态化,以支持构建复杂组合计算,实现计算全链路安全保障,防止数据泄漏和滥用。另外,数据价值的快速验证,也是密态计算实现数据要素在产业端流通的重要优势。
王磊表示,密态计算有望触发“多方数据密态汇聚—数据密态研发—数据场景价值高效验证—‘数据要素×’聚变效应”的链条反应,让数据安全流出来、用起来。
责任编辑:杨喜亭