2024年3月31日,“中国经济微观数据体系构建研讨会暨基于中国实践的新发展经济学微观基础研究圆桌论坛”在武汉大学经济与管理学院举行。此次会议由武汉大学经济发展研究中心主办、《经济评论》编辑部协办,并得到国家社会科学基金重大项目(21&ZD071)支持。来自北京大学、复旦大学、中国人民大学、浙江大学等十余所国内院校的五十余名专家学者出席了此次研讨会,就中国经济微观数据体系构建展开深入交流和探讨。
会议开幕式由武汉大学经济发展研究中心副教授刘岩主持,武汉大学经济与管理学院院长聂军、经济发展研究中心联席主任叶初升出席开幕式并致欢迎辞。武汉大学经济与管理学院院长聂军在致辞中表示,武汉大学经济与管理学院历史悠久,学科齐全,是发展经济学研究重地。构建中国经济微观数据库,为宏观经济学注入微观基础具有重大意义,探讨微观经济数据库构建有利于推动经济学科的发展。经济发展研究中心联席主任叶初升指出,目前我国进入新发展阶段,主要矛盾、发展环境、发展动力等发生变化,实现中国式现代化、由富变强是当前面临的时代课题。而现有发展经济学既有的理论都是以低收入经济体为研究对象,没有系统深入研究“起飞”后的发展问题。武汉大学经济发展研究中心将以基于中国新实践的新发展经济学研究为主攻方向,从不同角度揭示经济体在新发展阶段面临的发展问题,研究解决发展问题的发展策略,以中国为典型样本,但不局限于中国,希冀为世界发展中国家贡献中国智慧。
本次研讨会分为四个部分,包括个人与家庭、城乡与企业、数字经济和财政与金融。各部分分别由武汉大学经济发展研究中心卢盛峰教授、罗知教授、余静文副教授和刘岩副教授主持。
个人与家庭部分,西南政法大学经济学院副教授赵锐介绍了中国健康与养老追踪调查数据库(CHARLS),该数据库旨在收集一套代表中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析我国人口老龄化问题。CHARLS是唯一的具有全国代表性的中老年数据库,目前已有近十年的跟踪数据,包含丰富的健康、社会经济和行为指标,可以满足研究人口老龄化问题中跨学科的数据需求。CHARLS可与外部数据链接,如污染、环境等数据,还可进行国际比较研究。
北京大学中国社会科学调查中心研究员吴琼介绍了中国家庭追踪调查数据库(CFPS),该数据库旨在通过跟踪收集个体、家庭、社区三个层次的数据,反映中国社会、经济、人口、教育和健康的变迁。CFPS访问对象为被抽取家庭的所有家庭成员,对个体、家庭、社区多层级数据进行采集,具有近似“全国代表性”样本和五个“大省”省级代表性样本(广东、上海、甘肃、河南、辽宁),并对样本进行长期动态追踪。西南财经大学经济与管理研究院副教授曾婷介绍了中国家庭金融调查数据库(CHFS),该数据库在全国范围内开展抽样调查,旨在收集有关家庭金融微观层次的相关信息,主要包括人口统计学特征与就业、资产与负债、保险与保障、支出与收入等数据。CHFS样本涵盖29个省、355个县(区、县级市)、1428个社区,家庭样本量达4万,个人样本量达12.7万。
浙江大学公共管理学院特聘研究员詹鹏介绍了中国家庭收入调查数据库(CHIP),该数据库旨在收集家庭调查数据,用于分析改革开放以后的中国诸如收入、不平等以及贫困趋势等问题。CHIP收集了1988年、1995年、2002年、2007年、2013年和2018年的家庭收支信息。CHIP2018以人口普查资料为抽样框,样本不重、不漏,覆盖全国,全国所有市辖区、40%的县、1.6万个小区和16万户参加调查。CHIP收入指标在国家统计局收入定义基础上加入了公有住房的实物性租金补贴、私有住房的归算租金和各种实物收入的市场价值。
城乡与企业部分,暨南大学经济与社会研究院长聘副教授薛森介绍了中国城乡人口流动调查数据库(RUMiC),RUMiC由三个调查组成,包括农村住户调查、城市住户调查和城乡流动人口调查。城乡流动人口调查覆盖了全国流动人口迁入和迁出人数最多的9个省份15个城市,是目前唯一大规模城乡流动人口追踪调查,与流动人口动态监测调查相比,调查内容更加详细。别的大型调查显示流入地调查与流出地调查的流动人口在年龄、性别、教育方面存在较大的差异,认为流出地调查更具代表性。RUMiC采取流入地调查,因为流出地调查难以调查到举家外出者,且不同于其他以普通小区为抽样框的调查,RUMiC以工作单位作为抽样框。
农业农村部农村经济研究中心研究员高鸣介绍了全国农村固定观察点数据库,全国农村固定观察点调查体系是经中共中央书记处1984年批准,于1986年正式建立并运行至今,目前体系覆盖全国31个省(区、市)、368个县、375个样本村、记账农(牧)户23000户、1500多个新型经营主体,累计单条数据超6亿条。全国农村固定观察点数据库采取长期固定、跟踪观察方式,能够准确把握不同类型村户的历史变迁,有利于评价政策的长期效果。全国农村固定观察点数据库调查内容具有系统性和唯一性,农户调查指标体系包括8大类1250个指标,农村调查指标体系包括11大类700多个指标,新型农业经营主体指标体系包括3大类600多个指标。
浙江理工大学经济管理学院讲师杨奇明介绍了中国企业工商注册数据库,该数据库由国家工商总局(现市场监管总局)主办,涵盖了1949年至今全行业公司,包含中小微企业和个体工商户。2015年我国开始实施法人和其他组织统一社会信用代码制度,多证合一下中国企业工商注册数据库可与其他数据库匹配。杨奇明指出,在研究地区政策影响时,需明确企业的行政区划以构建面板数据,但存在区县级行政区划变更频繁、吊销企业记录不再更新和企业信息更新延时等问题,对此可通过行政区划年度变更对照表匹配,或者利用企业“住所”通过地图API返回经纬度数据再匹配。
北京师范大学经济与工商管理学院教授戴觅介绍了中国海关数据库,该数据库包含了中国所有企业的进出口交易记录,提供了企业、产品、目的国/进口国、贸易方式、运输方式、交易金额与数量等主要信息,数据时间跨度为2000-2016年。中国海关数据库包括货源地或消费地独特信息,可用于研究国内运输成本。此外,该数据还可与其他数据匹配结合使用,如工企数据、工商企业数据、专利数据库、企业排污数据库、上市公司数据等。戴觅指出,该数据库也存在局限性,如数据仅到2016年、2007年后缺乏月度数据且部分信息不完整、缺乏交易双方的信息、无结算或计价货币信息等。
数字经济部分,北京大学数字金融研究中心研究主管谢绚丽介绍了中国商业银行数字化转型指数数据库,该数据旨在构建一套商业银行数字化转型指标体系,以科学、全面地对我国商业银行的数字化转型程度进行定量刻画,为银行业数字化转型的相关研究提供测量工具和参考。数字化转型指数共包括三个子维度:战略数字化、业务数字化和管理数字化。该数据库覆盖了246家银行,含6大国有行、12家股份制银行、128家城商行、54家农商行、29家外资行、17家民营银行。该数据库可应用于银行服务实体经济、银行经营、银行风险、银行劳动力需求等领域的研究。
中国人民大学财政金融学院教授李戎介绍了中国地方财政决算数据库,该数据库手动搜集和整理了两千多个区县级财政收支数据及分项数据,资料主要来源全国地市县财政统计年鉴和中国财政数据库。该数据库包含了一般公共预算收支、转移支付数据、政府性基金预算收支和地方债数据等相关信息。
上海财经大学公共经济与管理学院投资系教授郭峰介绍了中国资本市场社交媒体数据库,社交媒体是大众传递信息、表达观点的重要平台,除大众化的社交媒体,我国多个财经门户网站也建立了专业化的社交媒体平台,向资本市场参与者提供专业、及时、海量的财经资讯和金融信息,允许投资者在其中进行交流和互动,这对我国资本市场产生了重要影响。该数据库数据基于东方财富网股吧论坛、上证e互动和深圳互动易等平台的原始数据构建了投资者情绪、投资者意见分歧、管理层回复的时间间隔、管理层回复的可读性等数据。社交媒体数据为刻画公司间显性和隐形的经济联系、探讨社交媒体的公司治理价值与管理层回复策略等问题提供了数据支撑。
对外经济贸易大学中国金融学院副教授姜婷凤介绍了中国线上高频商品和服务价格数据库(iCPI)及基于大数据的中国城市房价指数及预测系统。中国线上高频商品和服务价格数据库参考国家统计局CPI编制方法,商品篮子包括8大类、27种类和262子类,选取同时在三个平台存在交易信息的商品利用算法从大型B2C网购平台及价格信息平台自动获取相关商品每一天的在线价格,逐级加权计算各级各类CPI。除了价格数据来源不同,iCPI在发布与国家统计局CPI相同周期的月度指数基础上,还计算并发布各级各类CPI的周指数和日指数,可实现CPI的无滞后实时更新,对传统CPI形成了有效补充。姜婷凤指出,由于各平台反爬机制的存在,抓取数据的难度逐渐提高。中国城市房价指数及预测系统采用Bartik工具变量的方法进行编制,依赖大模型技术,基于5.3亿套历史房源,构建了房屋朝向、面积、装修类型、情绪指数等特征指标,同时构建小区特征房价、房屋类型特征房价、商圈特征房价、行政区特征房价,并自动依据本房源的当前价格以及特征价格对历史价格进行填充并预测未来房价。该模型房屋价值预测平均误差在1.3%-6.3%,预测效果与美国最先进的Zestimate模型基本持平。
财政与金融部分,复旦大学经济学院教授刘志阔介绍了中国税收调查数据库,该数据库始于1984年,2005年之前采取重点调查和历史调查方式,2005-2008年采取重点调查、抽样调查和历史调查方式,2009-2013年采取重点调查和抽样调查方式,2014年之后以抽样调查方式为主。中国税收调查数据库包括信息表、企业表和货物劳务表,信息表提供了企业层面基本信息,企业表提供了企业详细税收信息及部分主要经营情况,货物劳务表提供了企业具体生产情况。但是该数据库三个表之间存在数据难以匹配的问题,数据可用性有待考量。
北京师范大学统计学院金融统计系教授张勋介绍了中国数字普惠金融指数数据库,该数据库从数字金融覆盖广度、数字金融使用深度和普惠金融数字化程度等3个维度来构建数字普惠金融指标体系,包括33个具体指标,涵盖中国内地31个省(直辖市、自治区)、337个地级以上城市(地区、自治州、盟等),以及约2800个县(县级市、旗、市辖区等)三个层级的数据。张勋指出,该数据库目前还存在指数多样性不足、指数来源比较单一、前期指数缺失和权重没有动态调整等问题。此外,张勋还指出可以考虑利用工具变量来处理中国数字普惠金融指数的内生性问题,如历史上邮电业的发展、城市距离(存在排他性问题)、外生冲击(“宽带中国”政策等)等。
武汉大学经济与管理学院金融系副教授刘岩介绍了中国银行业数据库(CBD),该数据库旨在建设中国首套商业银行微观数据库,覆盖商业银行治理、经营与风险三个方面,对标美国CALL Report dataset和欧洲BvD旗下的Bankscope/Bankfocus数据库。我国缺乏公开且覆盖面广的商业银行数据库,目前国内学术、商业研究主要依赖于Bankscope数据库及容易获取的银行年报。国内目前有1836家商业银行、544家信用社、1645家村镇银行,共4025家存款性银行业金融机构,而2000-2022年间,在国内10大经管顶尖期刊发表的银行相关实证论文平均样本银行仅77家,严重缺乏中小银行数据。CSMAR、CNRDS、WIND、Bankfoucs/Bankscope等数据库虽然有200-400家银行数据,但数据口径、指标粒度、样本量等均均存在各类问题。CBD涵盖了1767家银行营业机构,银行-年份样本数达12000条,截至2021年末,样本总资产占银行业90.23%,占存款性金融机构94.30%,占商业银行(不含村镇银行、信用社)97.69%,为进一步研究我国银行业尤其是中小银行提供了数据支撑。
下午六点会议圆满结束,会议讨论热烈,氛围十分活跃。与会学者指出,构建微观数据库是一项长期、系统工程,需要投入大量成本,但数据库具有公共品属性,意义颇丰,未来如何更好地开放和使用数据库值得进一步思考。期待本次研讨会能够在未来发挥切实作用,为进一步推进中国微观经济数据库建设贡献力量。
(通讯员:陈雅珍,刘岩)