2025年3月12日上午 ,一场聚焦数据获取与AI应用的讲座在生地楼180会议室成功举办。讲座围绕数据价值分析、AI对传统数据获取的影响以及相关工具应用等内容展开,为科研工作者们带来了前沿的知识与深刻的启发。
数据蕴含巨大价值,多领域案例彰显其能
讲座伊始,赵俊老师以字节跳动为例阐述了数据的价值。2012年,张一鸣带领团队创立字节跳动,初期核心业务为信息收集与分发,通过抓新闻数据、打标签及个性化推荐,历经十余年发展,到2023年字节跳动员工数达12万,营业收入8600亿,净利润2000多亿,旗下拥有今日头条、抖音等众多知名产品。除字节跳动外,量化私募基金公司幻方利用统计方法和数学模型,借助API获取股票市场实时交易数据进行建模、回测与真实交易,其管理基金规模最高达 600多亿。芝麻信用通过收集个人教育、资产、消费信贷记录等数据计算芝麻信用分。企查查等公司从工商、法院、国土、海关、招聘平台、招投标平台等多渠道获取企业数据并整合展示。电商领域的全网比价平台通过搜索全网数据为消费者提供最低价格信息。考研机构通过汇集全国高校信息吸引学生报班。这些案例充分展示了数据在不同领域的重要性与广泛应用。
同时,讲座特别强调在数据获取过程中存在法律风险。法律法规层面,物权法、民法典、个人信息保护法等对敏感信息如身份证号码、手机号、姓名等有严格保护;商业协议层面,公司商业数据虽在法律上可能无限制,但违反商业协议获取也可能被诉侵权,如京东、淘宝等电商平台以及高德地图、百度地图等;技术层面,过度爬取数据可能影响网站正常运行,如全国企业工商查询网站因大量机器访问导致负担过重。因此,科研工作者在出于学习和科研目的获取数据时,务必注意规范使用。
AI革新数据获取方式,新工具助力效率提升
AI的出现深刻影响了传统数据获取方式。以爬虫工程师岗位为例,过去数据强相关公司会专门招聘此类岗位,但在日常工作中,多数人面临偶发、小量且不规范的数据需求,以往解决方式有限,如找外包兼职、安排会编程人员或自学。如今,AI工具的出现改变了这一局面。
赵俊老师介绍了八爪鱼和后羿两款数据采集工具,对于小规模使用免费且智能化水平高。以八爪鱼采集招聘网站数据为例,用户只需输入网址,软件即可自动分析页面,识别结构化数据,设置翻页、登录等操作,生成数据采集逻辑图,最终采集数据并导出为 Excel 格式,整个过程无需编写代码,高效便捷。同时,八爪鱼还提供大量免费模板,涵盖小红书、淘宝、天猫、京东以及招投标网站等,方便用户直接使用。
在非结构化数据提取方面,以微信公众号文章爬取为例,传统爬虫工具因腾讯强大的反爬机制难以实现。而借助 RPA(机器人流程自动化)软件可模拟人操作电脑,结合AI大模型对公众号文章内容进行解析,从而实现数据提取。例如,通过RPA软件自动打开微信搜一搜、输入关键词、按最新排序点击文章、复制链接、打开网页浏览器,将文章内容输入AI应用进行解析,最终将提取到的信息转化为格式化数据。这一过程展示了AI与RPA结合在处理非结构化数据方面的强大能力,且该方式可拓展至政策文件解读等更多场景,如通过AI大模型将政策文件转化为通俗易懂的文体,实现政策解读公众号的自动化运营。
应对复杂任务,AI 编程工具大显身手
针对复杂数据提取任务,如从文献插图中提取数据,传统方法难以实现。借助AI编程工具则可有效解决。讲座中展示了通过向DeepSeek描述任务需求,如描述插图为直角坐标系上的散点图,包含蓝色和橙色数据点,x 轴为年份,y 轴为取值,希望得到点位置的x坐标和y坐标,DeepSeek给出了使用在线工具、本地软件或编程处理的建议。选择编程处理后,利用Cursor等编程AI工具,用户在聊天框输入需求,如描述图片文件为直角坐标系散点图,请求创建新文件提取实心点坐标,Cursor即可生成代码,过程中若遇报错,用户将错误反馈给工具,它能自动修改错误,最终成功提取数据。尽管在提取刻度等细节上需要用户不断与AI对话优化提示词,但整个过程大幅缩短了数据提取时间,以往难以完成的任务如今在AI辅助下得以高效实现。
讲座最后,参会人员积极提问。有同学询问修改代码软件与ChatGPT plus版本能力对比,赵老师解释两者目的功能不同,ChatGPT适用于单一问题解答,而新软件可在工程领域从前端到后端完成复杂功能开发,满足业务型开发团队需求,初级程序员工作将因此受到挑战。还有同学提问如何学习与AI对话及AI能否生成AI大模型,赵老师建议通过搜索 “提示词工程” 学习与AI对话技巧,对于AI能否生成AI大模型表示此为哲学层面问题难以回答。此外,针对RPA与按键精灵的区别及AI在地图矢量化方面的应用等问题,赵老师均进行了详细解答。
此次讲座为科研工作者们清晰呈现了数据获取领域在AI时代的新变化与新机遇,强调了规范获取数据的重要性,同时展示了一系列强大的AI工具及应用案例,为科研工作者在今后的研究中更好地利用数据和 AI 技术提供了有力的指导与参考。