
该论文前不久刚刚代表科研所在国家统计局机关第五届“青联杯”统计建模比赛中获得二等奖,为了参加全国统计建模大赛,三位同志又对其进行了补充和完善。李伟博士首先从研究背景和研究思路、理论分析框、变量和数据描述以及房地产价格预测模型等四方面对参赛论文作了详细的介绍。她认为网络搜索数据通常代表经济主体的预期、预示着经济主体的下一步的经济行为,对其研究分析能够得出经济主体行为的趋势与规律。利用网络搜索数据对房地产价格走势进行预测,将是一种非常有效的工具和方法。为了解决房地产价格的时效性问题,她们尝试利用百度搜索数据预测新建住宅销售价格指数和二手住宅销售价格指数。由于网络搜索数据可以实时获取,可以把影响价格变化的即时因素带入预测模型,这样在每月月初就可以得到上月的新房和二手房价格指数,弥补了传统统计数据信息发布滞后的问题,同时该预测数据也可以作为传统房地产价格统计数据的有益补充和参考。
董倩博士以北京市二手房和新房价格预测为例,向大家详细介绍了预测模型的构建过程。本次建模比赛中,她们创新性地将百度关键词搜索指数数据与官方公布的城市月度二手房住宅和新建商品房住宅价格指数相结合,利用交叉验证技术和线性回归、回归树、随机森林、Bagging、m-Boosting、支持向量机、神经网络和混合线性回归等8种模型,分别对北京、上海、广州、南京、沈阳、西安6个大中城市的二手房和新房价格指数进行了拟合和预测,拟合结果与官方统计数据非常相近。结果表明网络搜索指数能够反映出各大中城市二手房和新房价格指数的变动情况,以及城市间的差异。
孙娜娜从创新与展望两个方面阐述了该论文的研究亮点:采用网络搜索数据进行预测不但具有较好的预测效果,而且每个被预测的城市采用交叉验证技术分别建立模型进行预测,并能够通过比较选取自己预测效果最优的模型。为了弥补月度网络搜索数据过少的不足,论文采用3折交叉验证技术,保证了预测结果的精确性与可靠性。由于百度搜索指数每日实时更新,因此基于她们的预测模型在每月1日即可得到上月的二手住宅和新建住宅销售价格指数的预测数,比官方统计数据提前了两周。随着网络搜索指数数据量的积累,模型预测精度将会越来越高。这一研究思路和方法可以进一步拓展到月度公布数据的其他官方统计领域。
潘璠所长对三位同志的报告给予了充分肯定,在科研所不生产也不掌握大数据的情况下,三位同志能够发挥各自所长、团结协作、克服困难,将网络搜索数据与我国房地产价格指数联系起来具有很强的创新性,在8月7日的局机关报告会上得到了马建堂局长的高度评价,称其“应用性强,达到相当高的水平”、应该评“局长奖”。
副司长级干部余根钱认为,三位青年同志的建模论文具有创新的学术价值,从应用角度考虑还需要通过实践来检验模型的预测效果,在数据变动比较大的情况下是否能表现出很好的预测能力,以此来说明模型对宏观经济的适用性。
围绕建模论文,广大青年同志展开了热烈的讨论。经济统计研究室副主任姜澍认为,搜索关键词的选取是一个难点,需要考虑如何将人的搜索行为细化为具体的关键词;何强博士对论文中如何建立起搜索数据与房价变动的逻辑关系提出了自己的疑问;冯蕾博士建议有必要在建模前对搜索数据与房价变动的逻辑关系作出说明,并准确表述模型与政府统计数据的验证关系;原鹏飞博士提出搜索关键词与房价的变动可能表现出正向或反向的关系,如何确立这种关系是重点;施凤丹博士认为需要寻求房价与搜索量的真实关系,使文章可以从理论上站得住脚,结论和展望部分谨慎一些,实事求是;陶然博士则认为文中采用数据挖掘模型不同于传统的统计建模因果推断,更多的需要从人们搜索行为与房价的相关性去考虑挖掘信息;谷彬博士建议从提高模型实践应用的角度可以考虑将模型的预测功能模块化与规范化。
针对大家的疑问和建议,三位同志一一做了解答和讨论,表示通过此次沙龙活动对她们进一步完善模型,提高论文质量提供了帮助。潘璠所长最后说,“此次活动,是青年学术沙龙活动开展以来,讨论、沟通、互动最充分、最热烈的一次。我们要的就是这样一种学术气氛。”他表示,今后科研所青年同志应当积极参加统计建模和其他各种活动,充分展现青年统计科研人员将统计理论与实践结合的新风貌。