LLN-训练与微调

为什么需要多种微调方法？

在大模型应用落地的过程中，预训练后的微调(Fine-tuning)是使模型适应特定任务的关键环节。随着技术的发展，研究者们提出了从传统的监督微调(SFT)到基于人类反馈的强化学习(RHLF)，再到最新的直接偏好优化(DPO)等一系列方法。本文将系统解析6种主流微调技术的工作原理、适用场景及实践要点，根据具体需求选择最佳方案。

一、基础方法：监督微调(SFT)

1.1 技术原理

**监督微调(Supervised Fine-Tuning)**是最基础的微调方法，使用标注数据集通过标准交叉熵损失进行训练：

1	L_SFT = -Σ log P(y\|x;θ)

其中(x,y)是输入-输出对，θ是模型参数。

1.2 典型流程

准备高质量标注数据
在预训练模型上继续训练
使用学习率衰减策略（如cosine衰减）

1.3 优缺点分析

优势：

实现简单，计算成本低
对小规模数据适应良好
可复用传统NLP训练流程

局限：

依赖大量标注数据
容易过拟合
无法学习复杂偏好

适用场景：任务明确、有充足标注数据的领域适应

二、高效微调技术：参数高效微调(ReFT)

2.1 核心思想

**参数高效微调(Resource-efficient Fine-Tuning)**通过冻结大部分参数，仅更新少量新增参数来降低计算成本。主要变体：

类型	代表方法	参数更新量	特点
适配器	Adapter	0.5-5%	插入小型全连接层
前缀调优	Prefix	0.1-3%	添加可训练前缀token
LoRA	LoRA	1-10%	低秩矩阵分解
部分解冻	BitFit	<1%	仅调整偏置项

2.2 LoRA实现示例

from peft import LoraConfig, get_peft_model

config = LoraConfig(
    r=8,  # 低秩维度
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.1,
    bias="none"
)
model = get_peft_model(model, config)

2.3 技术对比

计算效率：BitFit > Adapter ≈ Prefix > LoRA > 全参数
效果表现：LoRA ≈ 全参数 > Adapter > Prefix > BitFit
内存占用：全参数 > LoRA > Adapter > Prefix > BitFit

三、基于人类反馈的强化学习(RHLF)

3.1 三阶段训练流程

SFT阶段：基础监督微调
奖励建模：训练奖励模型(RM)预测人类偏好
RL微调：使用PPO算法优化策略

3.2 关键组件

奖励模型：通常使用6B左右模型，输入为response，输出标量分数
PPO算法：通过策略梯度优化，公式：
1
L^CLIP(θ) = E[min(r(θ)A, clip(r(θ),1-ε,1+ε)A)]
其中r(θ)是新旧策略概率比，A是优势函数

3.3 挑战与解决方案

挑战	解决方案
奖励黑客(Reward Hacking)	KL惩罚项、多奖励模型集成
训练不稳定	梯度裁剪、自适应学习率
人类标注成本高	半自动标注、主动学习

四、新兴技术：直接偏好优化(DPO)

4.1 算法突破

DPO(Direct Preference Optimization)去除了复杂的RL流程，将偏好学习转化为分类问题：

1	L_DPO = -log σ(β log πθ(y_w\|x)/πref(y_w\|x) - β log πθ(y_l\|x)/πref(y_l\|x))

其中(y_w, y_l)是偏好对，πref是参考策略。

4.2 相比RHLF的优势

训练稳定：不需要奖励模型
计算高效：单阶段训练
超参更少：主要调节温度系数β

4.3 代码实现

from trl import DPOTrainer

dpo_trainer = DPOTrainer(
    model,
    args=training_args,
    beta=0.1,
    train_dataset=train_dataset,
    tokenizer=tokenizer,
)
dpo_trainer.train()

五、自动化偏好学习：RLAIF

5.1 核心概念

**RLAIF(Reinforcement Learning from AI Feedback)**使用大模型替代人类进行偏好标注：

用LLM生成候选回答
相同LLM作为评判员进行评分
基于AI生成的偏好进行强化学习

5.2 实施步骤

构建提示词模板：

"请比较以下两个回答，根据[标准]选择更好的一个：
回答A: {response_a}
回答B: {response_b}
选择结果:"

使用温度采样(T=0.7)获得多样性评判
过滤低置信度样本

5.3 效果验证

Anthropic研究显示：

在无害性任务上，RLAIF达到RHLF 90%的效果
在有用性任务上，达到RHLF 70-80%的效果

六、技术全景对比与选型指南

6.1 方法对比矩阵

方法	数据需求	计算成本	效果潜力	实现难度	适用阶段
SFT	标注输入-输出	低	中	易	初期领域适应
ReFT	标注输入-输出	很低	中	中	资源受限场景
RHLF	偏好对	极高	高	难	最终效果优化
DPO	偏好对	中	高	中	替代RHLF
RLAIF	无标注	高	中高	难	无人类数据时