配资114平台 傅立叶微调颠覆LoRA架构,可训练参数数量骤减千倍

  傅立叶变换,一种广泛应用于数据压缩领域的技术,现已被香港科技大学(广州)的研究团队引入大型语言模型微调领域。这一创新方法,被称为傅立叶微调(Fourier Fine-Tuning,FourierFT),相比现有的LoRA等低秩适应方法,在保持甚至超越其性能表现的同时,可训练参数量却骤减为原来的千分之一至十分之一。这一突破性成果近日已被顶级机器学习会议ICML2024录用。

  傅立叶微调的核心创新:空域到频域的转换

  傅立叶微调巧妙地利用了傅立叶变换的特性:将空域信号转化为稀疏的频域信号。研究者将模型权重的增量视为一种空域信号,通过学习其在频域下的稀疏表示,实现了显著的参数压缩。具体而言,该方法在频域中随机选择少量点作为有效信号,并将其拼接成一维向量。在前向传播时,这一向量通过傅立叶变换恢复出空域矩阵;在反向传播时,由于傅立叶变换的可导性,可以直接对这一可学习向量进行更新。得益于傅立叶基底的高信息量,极少的频域采样点即可达到与LoRA相当甚至更优的表现。

  广泛的实验验证:从NLP到CV的全面胜出

  为验证傅立叶微调的有效性,研究者在自然语言理解(GLUE基准)、自然语言生成(LLaMA系列模型、MT-Bench和Vicuna任务)以及计算机视觉(8个常见图像分类数据集)等多个领域进行了广泛实验。结果显示,傅立叶微调以最少的参数量达到了甚至超越了包括LoRA在内的其他微调方法的性能。此外,在GLUE基准的RTE数据集上,FourierFT还打破了LoRA的低秩限制,实现了更高的增量矩阵秩。同时,相比LoRA,FourierFT在微调过程中的GPU资源消耗也更少。

  傅立叶微调的面世,为大型语言模型的高效微调开辟了崭新的道路。它不仅大幅降低了存储和计算需求,更展现了傅立叶变换这一经典数学工具在现代机器学习领域的巨大潜力。可以预见配资114平台,这一突破性方法必将在自然语言处理和计算机视觉等领域掀起新的研究浪潮,并加速人工智能技术的产业化应用进程。