2025 年 3 月 19 日上午,地理数据与应用分析中心举办的AI工具系列讲座迎来第四期。该系列讲座共8期,旨在帮助科研工作者结合最新AI工具,提升科研写作、数据分析等方面的工作效率,由北京师大国土空间与规划设计研究院赵俊老师担任主讲,数据中心宋长青教授、叶思菁主任、高培超副主任共同策划。
在本期讲座中,赵俊老师聚焦数据分析模块,深入讲解了相关内容。他首先介绍了DIKW反馈模型,该模型由数据、信息、知识和智慧四个首字母缩写而成,于1989年提出,理论基础是从无序到有序的删减过程,是人类进行数据加工和思维活动的结果。尽管在传统AI之前已相对成熟,大量信息化系统建设基于此模型,但在实际工作中,数据获取、分析和可视化并非线性流程,而是螺旋上升的,该模型框架可作参考,但不必严格遵循。
随后,赵俊老师通过多个实例展示了AI在数据分析中的应用。在数理统计分析实例中,以房价影响因素分析为例,传统方式下,使用SPSS做主成分分析未能得出理想结果。借助AI工具DeepSeek,推荐采用线性回归和树模型,其中线性回归解释性强,可通过系数判别,还能根据分析目标和数据类型指出PCA不适用的原因。在尝试使用线上AI工具(如豆包数据分析、ChatExcel 等)处理17000多条数据时,因数据量较大,这些工具均未得出结果。最终使用科研中常用的R语言,结合Cursor提问,20分钟内完成工作,且数据报告过程完善,涵盖数据摘要、类型统计、变量解释、预处理方法及结果等内容。
在商业统计分析实例中,以某区域地产公司营销部门面临的业绩问题为例,阐述了实际工作中数据理解不一致、统计口径不一致、数据表格混乱等问题,以及企业应对这些问题时在人才需求上的困境。通过某规划院研究课题案例,展示了如何运用AI解决实际问题。该课题数据量庞大(252万家企业,23张表,507个字段,4G大小),且存在数据打不开、坐标系统不统一、人员对数据库操作不熟悉等问题。利用Cursor加Python对Excel进行处理并生成建库智能语言,成功解决数据处理难题。通过自然语言转标准查询语句技术(Text-to-SQL),如使用相关产品和与大模型对话生成SQL语句,查询企业投资活跃区域等信息。在解读数据时,借助专家经验和AI工具(如向DeepSeek提问),对数据进行分析总结,得出如西青区、滨海新区等区域的投资特点和结论,但同时指出AI分析结果存在黑盒性,需警惕AI幻觉问题。
此外,赵俊老师还介绍了美股财报分析工具 NotbookLM(Google基于最新大模型开发的个人AI个性化研究助理)。以英伟达2025财年财报为例,该工具可快速解析财报文档,生成简报,简报内容依据原文,客观真实,且能准确回答如员工流失情况、研发费用变化、风险分析等问题,分析深入且逻辑清晰。在地方招商分析中,使用Notebook LM对某地方企业类型及标签频率数据进行分析,得出该地区主导产业特点、不同区域产业差异等结论,且模型能将标签与相关信息进行关联,为实际工作提供有价值的参考。
讲座互动环节中,参会人员就工具对比、数据验证、数据获取渠道等问题与赵俊老师进行了深入交流。赵俊老师表示,不同AI产品各有优势,如NotbookLM在解析文档生成数据报告方面表现出色;在数据验证方面,部分单位已开始建设基于大模型的私有数据库,确保数据真实性和权威性;数据获取可通过商业渠道购买、天眼查、政府企业信用网站(虽反爬厉害,但可人工查看少量数据),对于就业相关数据,可从猎聘、boss、智联等招聘平台获取活跃企业数据。
讲座最后,赵俊老师总结了AI在科研办公中的应用前景。他指出,AI工具能够显著提升科研工作者的工作效率,尤其是在数据处理和分析方面。然而,AI工具的“黑箱化”问题仍需警惕,科研工作者在使用AI工具时应保持批判性思维,确保分析结果的准确性和可靠性。
宋长青教授在总结发言中表示,AI技术的应用为科研工作带来了新的机遇和挑战。他希望科研工作者能够通过系列讲座,掌握AI工具的使用方法,并将其应用到实际科研工作中,进一步提升科研效率和质量。
接下来的讲座将继续围绕AI在科研办公中的应用展开,涵盖图像和视频处理、科研写作等主题。感兴趣的科研工作者和学生可关注地理数据与应用分析中心的官方通知,及时报名参加。