数据与数据要素的底层逻辑

发稿时间: 2023-12-06 09:40 来源:中国电信业 作者: 王春晖 2023-12-06
分享X

当前,我国多地在加快培育数据要素市场、促进数据要素价值释放。数据资源已成为新的生产要素和国家基础性战略资源。事实上,我国数据要素市场还处在培育期,“数据二十条”仅仅是政策层面的指导性文件,需要在“数据二十条”的基础上构建“1+N”的数据要素制度体系和法律制度。本文就数据要素市场涉及的几个重要概念和内涵作以下阐释。

81c5342cb742287a4a093797a53320cc.jpg

“数字经济”的内涵

2023年4月,在参加联合国第四届数据论坛时,我与多个国际组织的专家交流和讨论了数字经济时代的几个重要概念,尤其是有关“数字经济”英译的标准。目前国际上有关“数字经济”的英译,均使用了“digital economy”一词。我认为这个表述是不准确的,应该翻译为“economy powered by digital technology”才能体现数字经济的内涵。

“数字经济”作为一种全新的经济形态,其底层逻辑是以数字基础设施作为重要载体,以数据作为关键生产要素,特别是数据资源体系,并以数字技术赋能实体经济,带动传统产业数字化转型升级,培育新产业、新业态、新模式的一种新的经济形态。由此,诸如“数字社会”“数字教育”“数字医疗”等,均为“powered by digital technology”。上述表述得到了与会国际专家的一致认可。

“数据”与“个人信息”的内涵

目前,“数据”(Data)和“信息”(Information)是使用频率最高的两个词汇,经常被许多政府规范性文件甚至法律视为同一概念。我认为 “数据”和“信息”不能混淆,在法律上有严格的定义。

根据《数据安全法》第三条有关“数据”的法律定义,“数据,是指任何以电子或者其他方式对信息的记录。数据处理,包括数据的收集、存储、使用、加工、传输、提供、公开等”。从上述定义可以清晰地看出,数据在法律层面定义的关键词是对信息的“记录”,即无论是电子方式还是其他方式的记录,凡是数据,一定具有记录的载体,没有载体则不可能存在数据。

目前,在各国的个人信息保护立法中,多数国家将“个人信息”视为“个人数据”。我认为,准确的称谓应该是“个人信息”。我国《个人信息保护法》所定义的个人信息,即“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息”。

个人信息与数据有所不同,其最大的区别在于,“个人信息”无论是以电子或者其他方式,其关键的要义是记录已识别或者可识别的自然人有关的各种信息。“数据”则仅仅是对信息的记录而已,特别是以电子方式附着在电子信息系统载体的客观事物记录,是未经过处理的原始记录,其不能脱离电子信息系统载体而独立存在。

欧盟GDPR第4条对“个人数据”(personal data)的定义是,“个人数据”指的是任何已识别或可识别的自然人(“数据主体”)相关的信息。上述定义的内涵不是“数据”,仍然属于“信息”。我国《个人信息保护法》有关“个人信息”的定义与GDPR第4条的定义基本保持了一致,但是与欧盟GDPR相比较,我国《个人信息保护法》中“个人信息”的内涵更具有创新性,我国个人信息不包括匿名化处理后的信息,这对于个人信息匿名化后的利用设置了巨大的空间价值。

a383aca30e8273a0f53029c3e364876c.jpg

“数据产权”的内涵

在谈及数据产权时,通常情况下会把所有权与产权混为一谈。需要指出,所有权与产权既有联系,也有很大的区别,所有权指对财产归属关系的权利规定,强调财产关系的物质属性;产权是基于财产权的一组权利的有机结合体,强调财产关系的社会属性。数据产权是持有和使用数据资源的权利,并不是对数据资源占有、使用、收益、处置的权利。

科斯定律提出:“在交易成本为零的情况下,只要产权明确界定,无论初始的产权如何配置,通过市场交易都可实现资源最优配置。”目前,数据市场处在培育期,数据交易也在探索阶段,数据交易成本会很高,无法通过市场交易实现资源最优配置,所以一定要构建高效合规的数据交易基础法律制度,关键是数据产权制度。

数据产权制度化的含义是要构建数据资源持有权、数据加工使用权、数据产品经营权的分置运行规则,其关键的问题是“去所有权化”。然而,数据产权分置运行规则的确立,需要解决数据产权在两大层面的清晰问题:一是数据在法律层面的清晰,这要求数据产权的确立要有明确的法律地位,否则很难实现市场主体享有依法依规持有、使用、获取数据收益的权益;二是数据在经济层面的清晰,这要求数据产权的合法持有者对数据产权具有极强的约束力,这需要构建数据产权的约束依据,并通过约束依据明确数据产权的收益目标。

“数据要素”的内涵

目前,很多情况下将数据和数据要素视为同一概念。事实上,数据和数据要素既有联系,也有很大区别。

数据要素主要指数据资源在数字化生产过程中,通过与具有数字知识和技能的劳动者相结合,在算力和算法的驱动下,进入生产过程后产生新的生产函数,当这种新的生产函数和产业融合成必要的生产资源或工具时,才是真正的数据要素形态。

数据成为生产要素(data as a production factor)属于要素投入端,一般由两种方式转化而来:第一种方式是数据资源的要素化,即把数据要素资源作为生产资料与具有一定数字和智能应用技能的劳动者相结合并投入生产过程中,使之成为劳动者进行生产时所必须使用的资源或工具,这才能成为现实的、具有价值的生产要素;第二种方式是将已经产生的数据产品投入再生产的过程中,使之成为生产要素。

数据要素的确认有助于数字基础设施和数据资源体系的发展。目前,考虑到公共数据的总量占所有数据总量的70%至80%,数据资源体系是以公共数据为核心的。对于公共数据的确认,不应以控制数据的主体来判断是否属于公共数据,而应该按照数据服务的属性来判定公共数据的范畴。比如,来自党政机关和公共事业单位的相关数据均属于公共数据,而来自行业和产业的数据也会进入公共数据的视野。

目前,各地都在探索公共数据的授权和运营,但是数据不同于其他资产,其供给的方式主要采用“原始数据不出域,数据不动价值动”的数据增值开发利用新范式,这些新范式可以实现以模型、核验等产品和服务等形式向社会提供有价值的数据,这是公共数据授权运营过程中融合创新利用的新方向。

internet-3592056_1920.jpg

构建数据要素基础制度的底层逻辑

以数据、算法、算力为主要代表的数据生产力是一个结构复杂的系统,算力是算法和数据的底座,算力规模的大小直接决定了数据处理能力的强弱,没有强大的算力支撑,算法和数据就犹如“空中楼阁”,特别是智能算力,不仅能够提供海量的数据处理能力,而且可以支撑高性能的智能计算,进而直接影响数据生产力的发展。

ChatGPT火爆全球,其背后的技术运行逻辑是基于巨大模型和海量数据的持续训练,最重要的是依托于强大的算力支撑。ChatGPT这样的生成式AI不仅需要千亿级的大模型,还需要庞大的算力基础,训练AI现在主要依赖NVIDIA的AI显卡,达到ChatGPT这种级别至少需要1万张A100显卡。ChatGPT火爆后,全球各大科技公司都在加速训练大模型,一张A100显卡已经炒到1.5万美元,所以如果要从零开始开发一个大模型,仅显卡所需的资金可能高达15亿美元,而且还不一定好用,所以一般公司是玩不起的,将来的大模型开发和市场将是竞争者数量非常有限的寡头垄断市场。

总之,构建数据要素基础制度的底层逻辑,就是协调和处理与数据生产力发展相适应的数字化生产关系。目前,我国数字生产力较为发达,数字生产关系相对落后。我们需要通过制度设计,不断创新适应数字生产力发展的数字化生产关系。


作者简介:王春晖,博士、教授、博导、高级翻译,国际数据协会(IDA)主席,联合国世界丝路论坛数字经济研究院院长,联合国国际贸易法委员会(第四工作组)中国观察员专家团成员,联合国国际电联《国际电信规则》中国工作组法律专家,中国科学与技术协会网络与数据法治决策咨询首席专家,华体官方网页版和信息化部信息通信经济专家委员会委员,全球数字经济大会“中国网络与数据法治50人论坛”主席,中国行为法学会学术委员会副主任兼网络与数据法学研究部主任,中国法学会网络与信息法学研究会常务理事,上海市法学会互联网司法研究会副会长,江苏省法学会数字法学研究会副会长。

新闻附件:

相关新闻