生成式人工智能如何辅助研究生知识生产———基于23万篇硕士学位论文的大模型语义识别研究

发布者:徐月红发布时间:2025-09-06浏览次数:10

该研究立足生成式人工智能(AIGC)成为科学研究“第五范式”的时代背景,依托自主研发的AIGC-CHECK系统与大模型语义识别技术,对2022-2024年23万篇硕士学位论文展开实证分析,首次系统揭示AIGC在研究生知识生产中的使用规律、类型特征与学科差异,为规范技术应用、优化科研训练路径提供重要依据。

AIGC介入科研成趋势,传统研究方法存局限

“当前AIGC已深度融入学术写作,但现有研究多依赖问卷、访谈等自我报告数据,难以反映真实使用情况。”王传毅教授在研究中指出,随着人工智能重构知识发现路径,硕士研究生作为科研新生力量,既是AIGC的积极接纳者,也是技术与学术融合的关键群体——2-3年的科研训练周期中,他们既需夯实知识基础,也需适应技术工具带来的写作范式变革。

此前全球范围内的调查显示,63%科研人员用AIGC润色文本,56%用于代码处理,但多集中于语言支持等低阶任务;中国研究生虽将其用于选题、文献梳理等环节,却普遍对反馈质量存疑。更关键的是,不同学科对AIGC的接纳程度、使用方式差异显著,却缺乏大样本、跨年度的实证数据支撑。“传统研究难以捕捉AIGC在知识生产中的动态变化与嵌入深度,这正是本研究要填补的空白。”同方知网强浩补充道,其团队研发的AIGC-CHECK系统,针对中文学术文本优化,对人机混合文本的识别准确率最高达98%,为研究提供了技术支撑。

23万篇论文解码AIGC使用:增长、类型与学科分野

研究通过对23万篇有效样本的分析,勾勒出AIGC辅助研究生知识生产的清晰图景:

1.使用比例逐年攀升,结构差异显著。数据显示,硕士论文中AIGC生成内容占比从2022年不足2%,增至2024年的5%,部分论文占比甚至达88.7%。从论文结构看,AIGC更青睐语言密集型环节——摘要部分使用指数最高,2024年达10.74%(2022年为3.98%),结论部分从2.43%升至7.56%;而强调专业判断的研究方法部分使用最低,2024年仅1.07%,反映出技术介入科研的“选择性适配”特征。

2.四类使用方式凸显梯度差异。基于潜在剖面分析(LPA),研究将AIGC使用划分为四种类型:占比11.1%的“初步探索型”(全段落使用率低,引言接近零),体现部分学生的试用状态;占比61.3%的“功能偏好型”(主要用于摘要润色,其他部分极少),是当前主流模式;占比20.4%的“论证支持型”(聚焦引言、综述、正文等核心环节,方法部分零使用),常见于软学科;占比7.2%的“融合使用型”(全流程系统嵌入),则体现技术与科研的深度结合。

3.学科差异根植知识生产逻辑。跨学科对比发现,“功能偏好型”在所有学科中均占比最高(纯硬学科达75%),而“论证支持型”在软学科中更突出(应用软学科28%、纯软学科24%,远高于硬学科的10%-11%);“融合使用型”集中于应用硬学科(11%),如工学、农学等技术导向领域。从增长趋势看,应用型学科(管理学、艺术学)2022-2024年使用比例增幅显著(从1.48%、1.04%升至9.05%、8.58%),而理论型学科(理学、历史学)增长缓慢(2024年仍为3.39%、2.51%)。“这本质是学科知识生产方式的差异——软学科依赖语言建构意义,与AIGC文本能力契合;硬学科侧重实证逻辑,技术更多用于操作性任务。”通讯作者周钢解释道。

规范AIGC应用,守护科研训练本质

面对AIGC在研究生知识生产中的快速渗透,研究特别强调“技术工具性”与“学术规范性”的平衡,并提出三方面建议:

1.明确技术边界,避免认知外包。研究指出,AIGC虽能辅助写作与论证,但不具备独立学术贡献能力,学生需对生成内容严格核查,尤其在文献引用(防止虚假DOI)、数据处理等关键环节保持自主判断,避免因过度依赖降低研究质量。

2.聚焦科研训练核心,优化使用引导。指导教师需结合学科特征,帮助学生判断AIGC在不同环节的适用性——如软学科可借助其优化论证结构,硬学科需警惕其在方法设计中的局限性;学校应避免“一刀切”,鼓励在基础工作(如文献初筛、格式调整)后合理使用,禁止未经审查的内容直接纳入成果。

3.完善制度保障,防范潜在风险。高校需明确AIGC使用的学术规范,如敏感数据处理、隐私保护等;同时建立动态评估机制,跟踪技术对科研训练的长期影响,避免“工具理性”凌驾于“育人目标”之上。

摘编自:《清华大学教育研究》2025年8月