报告人:袁坤 助理教授(北京大学国际机器学习研究中心)
报告内容:
子空间优化算法(以 GaLore (Zhao et al., 2024) 为代表)因其内存效率而在大语言模型(LLMs)的预训 练和微调中备受关注。然而,这类方法在随机场景下的收敛性保证尚不明确。我们意外发现 GaLore 并非总 能收敛到最优解,并通过一个明确的反例加以验证。随后,我们分析了 GaLore 收敛的条件,证明其在确定 性场景或采用足够大的小批量数据时可以实现收敛。更重要的是,我们提出了一种 GaLore 的全新变体—— GoLore(Gradient random Low-rank projection),该方法在随机场景下即便使用标准批量大小,也能够被严 格证明收敛。我们的收敛性分析还可以自然推广至其他稀疏子空间优化算法。最后,我们通过数值实验验 证了理论结果,并实证探索了所提出机制的效果。。
报告人简介:
袁坤,现任北京大学国际机器学习研究中心助理教授,北京大学博雅青年学者。他于2019年在美国加 州大学洛杉矶分校获得博士学位,并在2019年至2022年在阿里巴巴达摩院西雅图研究中心任高级算法专家。 袁坤主要从事最优化、信号处理、机器学习、数据科学等领域中的理论与算法研究。他目前主要关注如何 为人工智能大模型设计稳定快速的训练、微调与推理算法。他在2018年获得IEEE信号处理协会青年作者最 佳论文奖。
主持人:陈默涵 研究员(北京大学应用物理与技术研究中心)
时 间:2024年11月28日(周四)12:00
地 点:北京大学工学院1号楼210会议室
|