点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

随着大模型规模和复杂度的不断提升,优化算法正成为支撑模型训练效率、稳定性与系统性能的核心基础技术。近日,“一日工作坊”在上海交通大学徐汇校区举办。国内外高校科研专家与业界人士,围绕大模型、量子计算、机器人等领域的优化技术前沿展开深度研讨。
本次工作坊直击行业痛点,聚焦大模型训练与推理的效率提升核心。宾夕法尼亚大学苏炜杰副教授从梯度各向异性与曲率建模视角,解析Muon优化器的理论局限与改进方向,为新一代优化算法设计提供新思路;香港中文大学(深圳)孙若愚副教授提出的多项式权重预条件化方法,实现大模型预训练效率显著提升且无额外推理开销,为超大规模模型训练提供实用方案。
多位青年学者和产业界研究人员还带来了跨领域的前沿成果。华东师范大学王祥丰教授探讨了利用大语言模型改进优化算法并结合形式化验证的方法建立可信代码生成的框架;香港中文大学(深圳)在读博士研究生张雨舜从理论角度解析了神经网络Hessian矩阵的特殊结构及其与主流优化器之间的内在联系;来自杉数科技的李泓霈研究员分享了将混合整数规划引入大模型流水线并行调度的新范式,展示了运筹优化在ML系统中的工程价值;来自上海大学的李舒怀与上海交通大学安泰经济与管理学院林江浩助理教授分别从MoE推理优化与LLM优化建模的角度,探讨了资源受限场景下的在线优化与智能建模问题。
上海交大讲席教授叶荫宇在总结中明确提出,我国需构建自主完整的AI技术生态,涵盖基础优化算法、资源管理机制到核心求解的全栈体系。这一倡议回应了当前国际科研形势下的技术自主需求,引发与会者广泛共鸣。
据悉,“一日工作坊”搭建的产学研协同平台,是推动理论创新与产业应用深度衔接的重要实践,为培育中国自主AI核心技术力量、推动我国在人工智能与科学计算领域跻身世界前列奠定基础。(光明日报全媒体记者 颜维琦 通讯员 魏娜)
