经济学家洪永淼:ChatGPT对经济学研究范式的影响(全文)

2月18日,2023年春季首届中国数字经济发展和治理学术年会在清华大学顺利举办。会议由清华大学经济管理学院、公共管理学院和计算社会科学与国家治理实验室承办。中国科学院大学经济与管理学院院长洪永淼教授在大会发表题为《人工智能新近发展及其对经济学研究范式的影响》的主旨演讲。本文根据洪永淼教授现场发言内容整理。

今天主要和大家一起交流人工智能新近发展,特别是ChatGPT的发展理念与方法论,对经济学研究范式的影响。

一、数智时代的基本特征

在数智时代,大数据为人类社会提供了认识世界、改造世界的新思维,即大数据思维。大数据思维是通过大数据去发现、理解现实复杂系统的运行状态与发展规律,分析、解决现实问题,探索、预测未来变化趋势的新范式、新方法、新工具。大数据思维与现代经济学的主流研究范式是一致的。现代经济学的主流研究范式是实证研究,以数据为基础,应用计量经济学方法推断经济变量之间的逻辑关系尤其是因果关系,从而揭示经济的运行规律。大数据思维的实现方式是人工智能,特别是机器学习。

那么,以ChatGPT为代表的人工智能先进技术的发展理念与方法论,会对经济学的研究方法与研究范式产生什么潜在影响?

二、ChatGPT与大模型范式

ChatGPT的方法论是“规模至上”,其算法基础是大语言模型。大模型是参数维数极大的模型,这些参数需要通过数据训练或估计。大语言模型是指输入数据主要为文本数据的大模型。实际上,大语言模型在深度学习发展阶段就已出现。随着人工神经网络模型的隐藏层不断增加,其参数数量呈现快速增长。文本数据本质上是高维或超高维数据,简约模型无法刻画异质性高维数据的特征,因此需要使用大语言模型。从计量经济学视角看,大模型最主要优点是系统偏差比较小。同时,由于ChatGPT的训练数据主要来自互联网文本数据,样本容量极其庞大,从而保证了大语言模型参数的估计精度。因此,大语言模型具有比较强的泛化能力,即样本外预测能力。

长期以来,计量经济学与统计学面临的一个困扰是“维数灾难”:当模型参数维数相比数据容量不是很小时,虽然模型偏差比较小,但因为参数维数大,在有限数据容量条件下,对每个参数的估计不甚精准,导致模型过度拟合,其样本外预测能力较差。“维数灾难”不仅存在于计量经济学与统计学,在社会科学和自然科学很多领域也存在。ChatGPT通过使用海量互联网大数据,确保训练数据容量远大于模型参数维数,从而避免了“维数灾难”。

三、大模型与经济学研究范式

作为学术研究的好助手,ChatGPT可大幅提高研究效率。在经济学研究中,可借助ChatGPT搜索信息、收集数据、撰写文献综述、编写代码、检查程序、设计实验方案、翻译文本等。虽然目前ChatGPT的表现仍有不少缺点,其整体智能水平与人类相比尚有不小的差距,但可以预计,随着人工智能技术的发展以及ChatGPT广泛应用的经验积累,ChatGPT的智能程度在很多方面将日益接近甚至超过人类。ChatGPT及其大模型方法论可能会对经济学乃至整个社会科学产生深远影响。

比如,ChatGPT与大模型将对计算经济学产生较大影响。计算经济学与计算金融学已存在相当长一段时间。经济学是一个比较复杂的系统,数学经常无法给出解析解,这时就必须用到计算机模拟仿真方法,经济学家比较熟悉的有可计算一般均衡模型和基于主体的模型(Agent-Based Model)。近十年出现的计算社会科学就是一种数据密集型研究范式。再如,ChatGPT与大模型将对经济学的理性经济人假设产生较大影响。实验经济学研究表明,人类经济行为并不满足完全理性假设,更多表现为有限理性,甚至存在预期偏差。但是,ChatGPT能够改进理性经济人假设,基于人工智能或人工辅助的决策有可能成为计算经济学的一个重要研究方向,比如提供理想参照系、定量政策评估以及进行人工智能决策等。

我今天重点探讨ChatGPT与大模型将对计量经济学产生的深远影响。计量经济学有两个原则,一个是简约模型原则,即如果能用最简单的模型去总结最多的数据,那就是最好的统计模型;另一个是充分性原则,用低维统计量总结样本信息。20世纪,统计学存在参数与非参数建模的方法论之争。统计学家Ronald Fisher认为非参数模型因其参数维数高而估计不精确,主张使用参数维数较少的参数模型;另一位统计学家Karl Pearson则关注参数模型可能误设而产生较大偏差,主张使用非参数模型。计量经济学也有类似争论。2003年诺贝尔经济学奖得主Robert Engle主张从特定模型出发,通过检验遗漏变量等计量经济学方法拓展模型,这是所谓的“从特殊到一般”的建模方法;而伦敦计量经济学派代表人物David Hendry则主张从高维的一般模型出发,通过统计学假设检验与经济理论约束条件等方法得到特定模型,这是所谓的“从一般到特殊”的建模方法。“从一般到特殊”的建模方法更适合大数据分析,更接近数据驱动研究范式。但是,两种建模方法的最终目的都是获得一个具有经济可解释性的简约模型,参数不多且有经济含义,同时拥有良好的样本外预测能力。为了获得简约模型,计量经济学与统计学提出了很多经典降维方法,比如主成分分析、因子模型、模型选择、经济理论约束等。在大数据时代,由于潜在解释变量或预测变量很多,新的统计降维方法也不断产生。例如,人工智能与统计学的交叉产生了一个新领域——统计学习,其中一个代表性降维方法是LASSO回归。LASSO的基本思想是假设大量潜在解释变量中只有少数变量有重要影响,在此稀疏性假设下,通过引入适合的惩罚项,以牺牲估计偏差为代价,换取估计方差的大幅度减少,从而显著降低均方误差,达到精准选择重要变量和改进样本外预测的目的。

统计学与计量经济学一直考虑的数据均是“小”数据,相对人类拥有的海量大数据来说,只是使用了“沧海一粟”,大量数据信息没有被利用。目前,统计学和计量经济学的研究还是以模型为重心,特别是以降维为导向,这主要是受到可解释性需求、数据容量、计算资源等原因的限制。在预测经济金融数据方面,机器学习比传统计量经济学模型有显著改善,但尚未达到令人满意的程度,特别是与其他领域(如人脸识别)相比,更是如此。这主要是因为经济金融系统是复杂系统,受人类心理影响很大,而且经济金融系统具有时变性。为显著改进经济金融预测,可以考虑大模型范式。大模型可以容纳高维影响因素,允许模型参数时变性或非线性影响,显著减少预测偏差或模型偏差。同时,大模型使用了海量数据,对数据的估计精确度有一定保障。实际上,计量经济学与统计学中的模型组合或模型集合就是一种大模型研究范式,计量经济学已经开始往大模型方向发展,只是发展速度远远比不上ChatGPT。因此,可以考虑使用大量的非结构化数据,通过类似ChatGPT的建模方法来大大改进经济金融预测。在这方面,热力学与统计物理学的发展历史经验或许可以给我们一些启示。关于黑体辐射,曾经出现两个理论——在短波范围拟合较好的维恩近似,以及在长波范围拟合较好的瑞利-金斯定律,后来普朗克将两者综合起来,提出了适合全波段范围的黑体辐射定律。在经济学研究中,大小模型各有优缺点,那么是否可以找到更好的方法把这两种模型结合在一起,从而提高模型的经济可解释力和预测力?

四、ChatGPT范式的局限性

人工智能特别是ChatGPT及其大语言模型正在推动经济学研究范式的深刻变革,但是人工智能与ChatGPT 的大语言模型范式也有局限性。

第一,以ChatGPT为代表的人工智能前沿技术没有人的意识或理解能力,只有预测能力。ChatGPT在《时代》周刊的采访中表示,它只是一个机器学习模型,只能根据给定的训练数据,根据某些单词或单词序列一起出现的概率生成文本。因此,ChatGPT本质上并不是在理解文本数据,而是在预测。此外,目前的人工智能技术不具备与人类一样的批判性思维与想象力,无法从现有数据推断或预测出重大创新成果。

第二,基于大数据的人工智能因果推断本质上其实是一种统计关系推断,并不是真正的因果关系。所谓因果关系,是指其他因素不变的条件下,某一变量的变化必然引起另一变量的变化。实验方法是识别、测度因果关系的最有效方法,通过可控试验控制其他变量不变,只让其中一个变量变化,观察结果是否变化。由于大数据基本上是观测数据而非实验数据,基于人工智能的因果推断本质上是一种预测关系或相关关系,它只不过是两个变量在计算机中的统计关联。这种人工智能因果关系类似于英国哲学家休谟所说的因果关系,比如太阳出来,石头变热。因此,人工智能因果关系和经济学因果关系并不完全一致。要识别经济学因果关系,不能仅仅依靠人工智能因果推断,还必须有经济理论的指导或引入实验经济学的方法。在我看来,经济学家不用担心会被ChatGPT等人工智能工具所替代,如果没有经济学理论的指引,很难找到经济学因果关系。ChatGPT是一种数据驱动的研究范式,比起计量经济学的模型驱动范式,有显著的改进。模型驱动建立在各种假设的基础上,结论常常受到所假设模型的限制,使用不同模型可能会导致不同的结论。Breznau et al. (2022, PNAS) 研究表明,基于同一数据,不同人使用不同的模型,会得到不同的结论,这也是模型驱动的缺点。数据驱动无需假设具体的函数模型,通过算法从数据中获得经济变量之间的逻辑关系,特别是经济学因果关系,以得到更加稳健的结论。但是,对经济学研究而言,数据驱动必须与经济思维、经济理论相结合,否则无法得到经济学意义上的因果关系。

第三,以ChatGPT为代表的人工智能前沿技术没有改变经济学实证研究的本质,即从样本推断总体性质。毫无疑义,大数据与人工智能大大强化了经济学以数据为基础的实证研究范式。虽然ChatGDP使用了海量大数据甚至是整个互联网文本数据,但是互联网大数据并非全样本。人类经济社会发展是一个漫长历史过程,现有互联网大数据纵使样本容量极大,也只是这个历史过程的一个样本。基于大数据的经济学实证研究仍然是从样本推断总体,以及进行样本外预测。此外,经济发展在不同历史阶段具有不同的特征,经济运行规律因此会呈现出显著的时变性,有时是缓慢变化,有时是突变,这使得人工智能对经济金融变化趋势的预测更具挑战性。

第四,模型、算法与数据的可靠性有待验证。以ChatGPT为代表的人工智能正在推动经济学与社会科学研究从模型驱动范式转变到数据驱动范式,从数据直接获得稳健的结论,克服了模型驱动范式得到的结论可能会因模型改变而变化的缺陷。但是,互联网开源大数据存在各种虚假信息与社会偏见,人工智能尚无法确认其表述内容的真实性。此外,互联网大数据也存在“样本选择偏差”问题,如城乡数字鸿沟、地区数字鸿沟、代际数字鸿沟等。这些问题不可避免会影响基于互联网大数据的ChatGPT乃至人工智能所获得的结论的可靠性与科学性。

我们正处于大数据、大科技、大模型的时代,加上中国超大人口规模和超大经济规模给人工智能技术带来的广阔应用场景,这些将为经济学研究提供大量丰富素材。应当充分利用所有数据资源,积极探索大模型研究范式,揭示中国复杂经济系统的运行与发展规律。需要指出,强调大模型并不意味小模型不重要,大小模型分别适用于不同情境;强调大数据并不意味“小”数据不重要,“小”数据的信息密度通常更高;强调文本数据等非结构化大数据也并不意味结构化数据并不重要。

报告观点已整理发表在《中国科学院院刊》2023年第3期。

拓展文章阅读:

作者:江小涓 原国务院副秘书长(来源:清华服务经济与数字治理研究院)

江小涓:

数字时代的经济学

和公共管理学科体系建设

2月18日,2023年春季首届中国数字经济发展和治理学术年会在清华大学顺利举办。会议由清华大学经济管理学院、公共管理学院和计算社会科学与国家治理实验室承办。第十三届全国人大常委、原国务院副秘书长、中国数字经济发展和治理学术年会主席团主席江小涓教授在大会发表题为《数字时代的经济学和公共管理学科体系建设》的主旨演讲。本文根据江小涓教授现场发言内容整理。

我今天要讲的内容是数字时代的经济学和公共管理学科体系的建设,主要源自我自己在教学与研究中的体会。我在清华公共管理学院和中国社会科学院大学都开课,一门课是“数字时代的公共治理”,一门课是“产业经济学前沿文献导读”其中的两讲。备课时我想找一些教材、教学参考书或者能用的一些单元来组织课程内容,发现很难找到合适的内容,感觉数字时代经济学和管理学的学科体系与教学体系的建设是一个突出问题,传统体系在一些方面已经不太适用,新的体系总体上尚未成形。现实世界的改变已显著影响了经济理论的底层结构、逻辑关系和主体问题。“数字”和“数据”早已不是“外部冲击”,而是需要内化于知识体系全链条之中。因此希望能有一个学术平台,大家来共同做这件事情。这也是和主席团各位老师一起发起设立“中国数字经济发展和治理学术年会”的宗旨与目标。

“数字时代的经济学和公共管理学科体系建设”,这个题目很宏大,我没有能力全面讲,就讲我最有体会的几个点,与大家分享。

第一,“数据要素市场”问题。大家都主张数据作为生产要素,我也赞同。但是在实际做研究时,又很难放到传统的生产要素分析框架中去。数据要素有特点,一是多主体可以主张权利,包括消费者也是数据生产者,这使产权问题很难处理,即使比较相似的知识产权框架也难以适用。二是数据可以复用,数据用多少次都依然存在,经济学研究稀缺资源的配置效率问题,数据的复用性使它的稀缺性改变。三是快速迭代,例如当消费者的行为数据被作为平台要智能推送广告的数据时,去年的数据没有什么用处,每个人的习惯都在改变之中,从经济学的角度看就是存量要素(数据)无用或者快速折旧。所以我们可以沿着“数据要素”这个思路去思考,但很可能需要对“要素市场”、“资源配置“这些基本概念的前提和规定进行思考和重新定义,寻求更完善和有效的分析框架。

我举一个例子,智能化生产过程使同一个生产过程能够有两组产出:数字形态与实体形态,即所谓的“数实孪生”。下面这张图中(图1),左侧是实物产出,右侧有很多数据内容产生,数据、数据机理模型、数字孪生体、数字元宇宙模块等。那么右侧是新增加的生产要素,还是新产出的产品?如何测度其价值?我们传统的投入产出表如何调整?这些问题挺让人困惑。我记得上世纪七十年代联合国用一个宽泛的概念定义“服务贸易“时,时任美国统计学会会长的某教授说过一句话:“这个定义对赞同服务贸易分类的学者来说是‘天使’,对统计学家来说则是‘恶魔’”(大意如此)。当下数据被定义为“生产要素”,我想统计学者们或许有相似体会。

图1 实体过程与数据过程的双重价值体系

第二,数字时代服务业性质改变问题。认为服务业低效率,是经济学由来已久的主流观点,可以看PPT中的简要概括(图2左)。鲍莫尔直接将服务业定义为低效率部门,由于服务过程需要服务提供者直接参与,劳动节约型技术应用空间较小,劳动生产率提升缓慢,因此服务业在GDP中的比重上升意味着资源更多地配置在了低效率部门,会带来整体经济增长速度的下降。

然而,在网络技术和数字技术的加持下,服务业一个日益增加的部分呈现出规模效率、贸易效率和分工效率,特别是服务业分工日趋广泛深入,促使服务业整体效率显著提高。数字技术对经济效率的提升远不会止步于各类服务业,而是通过数字服务的全链嵌入,对其它各类产业和各种经济行为效率的提升产生广泛而深远的影响(图2右)。由于经济学视角基本性质的改革,我讲课中服务经济相关内容有根本变化,但总体上看,相关研究还是片段性的,整体学术理论体系的重构依然任重道远。

图2 数字赋能的服务业已经面貌全新

第三,新的产业组织形态出现。产业组织是公认被数字经济影响最突出的领域。一方面,各种交易成本的降低是数字技术最直接的影响。企业与市场边界不仅快速调整,而且形态改变,分工倾向于极致且高度弹性化。另一方面,大企业或大型网络组织管理成本极大降低,大企业与多元、个性、精准特点相容,垂直一体化和网络化生产组织迅速发展。目前看,两种形态并行推进,带来我们不熟知的产业组织形态及相互关系。产业组织多方向变化、多形态并存。

对此我也举一个例子。数字时代,许多产品需求个性化强、技术迭代快、设备更新快,更有些时尚品的需求速涨速消。对这些类型的产品,以企业为中心的生产组织形态由于设备能力和员工技术固化,调整余量小,适应性差,面临新的挑战。数字平台能够链接大量企业、产线、设备、仓库和员工等,形成巨大产能池,按需匹配各种资源,能够迅速组织起以产品为中心、在一定区域范围内的分布式制造产线。典型有如“云工厂”,是一种平台承接订单并通过拆解制造过程分派给不同企业,针对每个订单组建个性化“云产线”的分布式协同生产模式。以宁波的协同制造平台“生意帮”为例(图3),由协同制造供应链体系、众包服务平台、智造工程验证实验室和协同生产物联网平台组成,既随时按需调用平台上数以万计的小微工厂,同时生产后统一物流配送以提高生产速度,并实时监控各生产设备的声音、电流、压力、温度等10余项指标以确保产品质量。这是一种在数字时代之前基本不存在的产业组织模式。现在以产品为中心组织灵活产线已经成为许多快消品领域重要的产业组织方式。

图3 数字化新型产业组织“云工厂”

第四,研发和创新的数字新形态。我体会到三个重要变化。一是开源模式如何能用传统创新理论进行分析。现在大数据和智能产业更多采用开源模式,经济学有关研发的传统分析框架分析开源模式碰到挑战。我和几个学生已经在思考和研究了挺长时间,仍然装不到一个逻辑一致的体系之中。二是数据在研发中的极端重要性使创新分布发生变化,大平台企业借助数据优势,向前沿技术及基础研发攀升,我们如何用一个逻辑一致的分析框架,把这个阶段研发各主体关系的变化,既表达清楚又能合理解释。三是分布式研发模式的出现。以前研发是大企业有研发的中心自己做。上世纪80年代以后,专业研发机构也很通用。有了数字平台之后,研发可以在广泛领域中有非常专业的分工,因为平台可以汇聚大量研发人员,按照每个研发任务组织团队,使参与具体项目的研发人员高度专业化。这是我们国内的一家叫“橙色云”的专业研发平台,这个平台上大概有世界各国的31万个工程设计技术人员,专门为小企业做研发(图4)。以前小企业自己养不起研发团队,所以都是做非常细分自己长期熟知的产品。有了分布式研发平台,小企业提出需求,例如“我给50万,帮我设计一个什么产品或产线”,就跟购物平台上买东西的模式非常相似。需求提出之后,平台就去搜索、平台上每一个专业的研发人员都有标签,做过什么、擅长做什么、愿意做什么,自动去匹配这些研发人员。平台的核心竞争力是项目经理,他们可以把一个大的产品细分成几个部分,在平台上找专业的研发人员去做。这种分布式创新模式降低了各种信息获取、要素单元赋信和网络空间协同的成本,研发专业化程度和效率都得到提升。

图4 数字化分布式研发创新平台

第五,数字时代公共治理边界变化问题。我体会到有以下几个方面的重要变化。一是数字应用导致政府与市场的边界出现变化。政府干预市场与社会活动的依据之一是“外部性”,这类问题由于损益计算不能具体化,因此市场不能解决,必须由政府进行干预。数字技术可以将部分外部性问题“内部化”,例如排放问题、公地问题等。由于网络广泛连接、海量算力和颗粒状信息可获得,外部性可以计算和量化到个体,将外部问题内部化。还有政府调控产业的一个重要依据是分散的市场主体信息缺失,行为有“盲目”性和缺乏预见性。现在大型平台和数据类企业拥有更实时精准的“全局”数据,智能技术正在迅速形成更强大的预见能力,那么相关领域传统的产业调控政策是否应有相应变化?甚至有些原来的完全公共品也具有了商业价值,私人部门愿意提供。公共频道虽然不可收费却能广泛获客,带来网络效应、广告价值和数据价值,无需排他就可以由市场提供。

另一方面,数字平台规模很大,市场控制力和社会影响都很大,是否要监管和如何监管是社会普遍关注的问题,但是面对许多难题。一是大而管不了,一些消费者日常使用的大平台,出了问题肯定不能一关了之,有问题要整改但不得停运。二是快而跟不上,平台上的商户、商品和服务数量巨大,以百万、千万计,而且更新极快,外在监管力量完全跟不上。三是深而看不透,大平台都有上千项多层次投资项目及其他利益关联,不细查深查不易看透看准。四是新而看不懂,不同平台商业模式不同,相似平台也有很大差异,视频平台哔哩哔哩、抖音、快手还有小红书,经营模式有挺大差别,而且各自都在持续创新,外部监管者看明白理解到位很不容易。大家都在谈敏捷监管,即使如此,没有监管理念和思路的重大调整,监管的合理性有效性不易到位。

第六,大数据技术应用于人类价值观判断领域产生的问题。这个问题抽象不好谈,我举个例子。我们的司法系统提倡使用智能辅助办案系统,赞同者很多,认为算法客观可靠,不会受人类主观性的影响,具有客观性、阳光下的纠纷解决情境,从而规避人性局限和排除人为因素的影响,努力做到标准一致、客观公正和“同案同判”。但是2019年3月法国出台了相关法律,禁止多种我们“赞赏”的大数据在司法领域的应用,其中一种是一致性分析:不得将特定法官办案数据进行大数据对比,分析特定法官特定案件与整个司法系统的一致性状况。这个决定涉及的理念很重要,一致性分析会使所有判决向平均结果靠拢,将多种倾向博弈产生的“平均数”固化为不可演进的绝对值。如果某种违法行为的判刑区间是3—7年,法官有酌情自由裁量权。但是有了所谓的大数据系统,法官要搜一下别人怎么判,发现平均判刑5年,自己也就判5年,取平均数能有最少争议和质疑。这听上去好像变得更加公正了。但是这种状况会使社会通过价值观改变和社会博弈产生的演进停滞。如果随着时间推移,多数法官都倾向于往3年这个轻判方向靠拢的话,表明社会是有新的共识在形成,“这个罪没有那么重”;相反,当所有的判案都向7年靠拢的时候,表明社会认为“这是个重罪”,这种演进是人类社会最重要进步方式之一,却会随着所有人在网上查询之后取平均数而停滞下来。随着人工智能的快速发展和应用,这种情况在社会问题领域将是一个普遍的大问题。

第七,数字时代的科技伦理问题,所有的科技都有负面作用。我举了三个当时大家特别担心过的案例:核技术的问题、克隆技术的问题、基因技术的问题,在每一次两面性突出技术出现时,都引起了社会很大担忧(图5)。不过,科学共同体的约束、国家的约束和国际组织的约束也始终存在,总体上没有带来持续和严重的负面影响。但是数字技术不同,应用泛在而无形,同时又在极速发展,如同李健的一句歌词:“刚在身边显现,一眨眼就远去不见”(大意如此)。目前看,社会缺乏约束数字技术发展方向的平衡力量和思考时间,非人类参与的决策逻辑步步强化。特别是数字技术和其它技术的结合,例如和生命科学结合之后,有能力迅速改变我们人类自身的生理、生活、认知和繁衍,很多变化是不可逆的,我们不应该把这样的变化交给市场竞争和社会博弈来解决。在这个时代,信息公开和公众参与比以往更重要,所有民众都有权利对这种问题发声,我们要不要这种结果、我们要不要这样的改变。

图5 科技伦理问题和共同治理

总之我的感受是,国家高度重视数字经济发展,强调加强数字问题治理,其中含有大量需要研究的学术理论问题、需要提出的战略思路和需要应对的重大挑战。我们在这个领域从事教学研究工作,既肩负时代重任,又面临广阔创新空间。让我们共同努力做出应有的贡献。■

Leave a Reply