12月25日下午,成都东软学院大模型应用与研发中心科研沙龙暨中心第三十九场分享会顺利举行。本场沙龙由科研部刘轩老师主持,基础教学学院金树林老师担任主讲嘉宾,围绕“大模型蒸馏与微调实战”展开系统讲解。大模型应用与研发中心相关人员、各学院科研骨干教师共同参与了本次研讨。
金树林老师首先从“什么是微调”入手,生动说明预训练大模型如同“博学的大学毕业生”,而微调则是让其通过“专业培训”成为特定领域的专家。金老师强调,微调的本质是在预训练模型基础上,使用特定领域的小规模数据进行二次训练,使其适应新任务、掌握新知识、具备特定风格,从而弥补通用大模型“广度有余、深度不足”的局限。
在“为什么要微调”部分,金老师系统阐述了微调的四大核心价值:专业知识内化、数据与隐私安全、成本效益显著以及品牌与体验定制。他特别指出,微调不仅能将行业知识“刻入”模型,还能在本地环境中保护敏感数据,避免因API调用导致的信息泄露风险,同时大幅降低训练成本,助力各类机构实现智能化转型。
针对“怎么进行微调”,金老师重点介绍并演示了当前主流的高效微调工具LLaMA-Factory。该平台支持零代码图形化操作,覆盖上百种开源模型,集成LoRA、QLoRA等高效微调技术,提供从数据准备、训练监控到模型评估与部署的一站式解决方案。金老师通过实操演示,详细展示了在云端GPU服务器上部署LLaMA-Factory、加载模型、准备数据集、配置关键参数以及启动微调任务的全过程,强调“即使不懂代码,也能轻松完成大模型定制”。
在互动环节,与会教师围绕微调后模型的精度评估、数据量需求及应用场景展开热烈讨论。金老师结合项目经验指出,微调效果需综合损失函数变化与人工评估判断,通常千条左右的高质量数据即可在特定任务上取得明显提升。他还分享了大模型中心在客服问答、养老陪伴等实际项目中的微调应用案例,展现了微调技术在落地场景中的广阔前景。
本次分享会内容详实、注重实操,既有理论深度,又有工具指导,为在场教师打开了大模型定制化应用的大门。未来,大模型应用与研发中心将持续推出系列技术沙龙,推动人工智能技术与教育教学、科学研究的深度融合,助力我校师生在智能化浪潮中稳步前行。