LLN-训练与微调
为什么需要多种微调方法?
在大模型应用落地的过程中,预训练后的微调(Fine-tuning)是使模型适应特定任务的关键环节。随着技术的发展,研究者们提出了从传统的监督微调(SFT)到基于人类反馈的强化学习(RHLF),再到最新的直接偏好优化(DPO)等一系列方法。本文将系统解析6种主流微调技术的工作原理、适用场景及实践要点,根据具体需求选择最佳方案。
一、基础方法:监督微调(SFT)
1.1 技术原理
**监督微调(Supervised Fine-Tuning)**是最基础的微调方法,使用标注数据集通过标准交叉熵损失进行训练:
1  | L_SFT = -Σ log P(y|x;θ)  | 
其中(x,y)是输入-输出对,θ是模型参数。
1.2 典型流程
- 准备高质量标注数据
 - 在预训练模型上继续训练
 - 使用学习率衰减策略(如cosine衰减)
 
1.3 优缺点分析
优势:
- 实现简单,计算成本低
 - 对小规模数据适应良好
 - 可复用传统NLP训练流程
 
局限:
- 依赖大量标注数据
 - 容易过拟合
 - 无法学习复杂偏好
 
适用场景:任务明确、有充足标注数据的领域适应
二、高效微调技术:参数高效微调(ReFT)
2.1 核心思想
**参数高效微调(Resource-efficient Fine-Tuning)**通过冻结大部分参数,仅更新少量新增参数来降低计算成本。主要变体:
| 类型 | 代表方法 | 参数更新量 | 特点 | 
|---|---|---|---|
| 适配器 | Adapter | 0.5-5% | 插入小型全连接层 | 
| 前缀调优 | Prefix | 0.1-3% | 添加可训练前缀token | 
| LoRA | LoRA | 1-10% | 低秩矩阵分解 | 
| 部分解冻 | BitFit | <1% | 仅调整偏置项 | 
2.2 LoRA实现示例
1  | from peft import LoraConfig, get_peft_model  | 
2.3 技术对比
计算效率:BitFit > Adapter ≈ Prefix > LoRA > 全参数
效果表现:LoRA ≈ 全参数 > Adapter > Prefix > BitFit
内存占用:全参数 > LoRA > Adapter > Prefix > BitFit
三、基于人类反馈的强化学习(RHLF)
3.1 三阶段训练流程
- SFT阶段:基础监督微调
 - 奖励建模:训练奖励模型(RM)预测人类偏好
 - RL微调:使用PPO算法优化策略
 
3.2 关键组件
- 奖励模型:通常使用6B左右模型,输入为response,输出标量分数
 - PPO算法:通过策略梯度优化,公式:其中r(θ)是新旧策略概率比,A是优势函数
1
L^CLIP(θ) = E[min(r(θ)A, clip(r(θ),1-ε,1+ε)A)]
 
3.3 挑战与解决方案
| 挑战 | 解决方案 | 
|---|---|
| 奖励黑客(Reward Hacking) | KL惩罚项、多奖励模型集成 | 
| 训练不稳定 | 梯度裁剪、自适应学习率 | 
| 人类标注成本高 | 半自动标注、主动学习 | 
四、新兴技术:直接偏好优化(DPO)
4.1 算法突破
DPO(Direct Preference Optimization)去除了复杂的RL流程,将偏好学习转化为分类问题:
1  | L_DPO = -log σ(β log πθ(y_w|x)/πref(y_w|x) - β log πθ(y_l|x)/πref(y_l|x))  | 
其中(y_w, y_l)是偏好对,πref是参考策略。
4.2 相比RHLF的优势
- 训练稳定:不需要奖励模型
 - 计算高效:单阶段训练
 - 超参更少:主要调节温度系数β
 
4.3 代码实现
1  | from trl import DPOTrainer  | 
五、自动化偏好学习:RLAIF
5.1 核心概念
**RLAIF(Reinforcement Learning from AI Feedback)**使用大模型替代人类进行偏好标注:
- 用LLM生成候选回答
 - 相同LLM作为评判员进行评分
 - 基于AI生成的偏好进行强化学习
 
5.2 实施步骤
- 构建提示词模板:
1
2
3
4"请比较以下两个回答,根据[标准]选择更好的一个:
回答A: {response_a}
回答B: {response_b}
选择结果:" - 使用温度采样(T=0.7)获得多样性评判
 - 过滤低置信度样本
 
5.3 效果验证
Anthropic研究显示:
- 在无害性任务上,RLAIF达到RHLF 90%的效果
 - 在有用性任务上,达到RHLF 70-80%的效果
 
六、技术全景对比与选型指南
6.1 方法对比矩阵
| 方法 | 数据需求 | 计算成本 | 效果潜力 | 实现难度 | 适用阶段 | 
|---|---|---|---|---|---|
| SFT | 标注输入-输出 | 低 | 中 | 易 | 初期领域适应 | 
| ReFT | 标注输入-输出 | 很低 | 中 | 中 | 资源受限场景 | 
| RHLF | 偏好对 | 极高 | 高 | 难 | 最终效果优化 | 
| DPO | 偏好对 | 中 | 高 | 中 | 替代RHLF | 
| RLAIF | 无标注 | 高 | 中高 | 难 | 无人类数据时 | 
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 念念不忘,必有回响!




