graph TD
A[大模型微调方法] --> B[全量微调<br/>Full Fine-tuning]
A --> C[参数高效微调<br/>PEFT]
B --> B1[更新所有参数<br/>效果最好但成本高]
C --> C1[LoRA]
C --> C2[QLoRA]
C --> C3[Prefix Tuning]
C --> C4[Adapter]
C1 --> D[只训练少量参数<br/>效果接近全量微调]
主流微调方法详解
方法
原理
训练参数量
显存需求
适用场景
全量微调
更新所有模型参数
100%
极高(4×模型大小)
资源充足、追求极致效果
LoRA
低秩矩阵分解,只训练增量
0.1%-1%
低(模型大小+少量)
主流选择,性价比最高
QLoRA
LoRA+4bit量化
0.1%-1%
极低
消费级GPU微调大模型
Prefix Tuning
学习输入前缀向量
0.01%
低
多任务场景
Adapter
插入小型适配层
1%-5%
中等
跨任务迁移
LoRA原理图解
graph LR
subgraph 原始模型
A[输入 x] --> B[权重矩阵 W<br/>冻结不动]
B --> C[输出]
end
subgraph LoRA微调
D[输入 x] --> E[原始 W<br/>冻结]
D --> F[低秩矩阵 A]
F --> G[低秩矩阵 B]
E --> H[相加]
G --> H
H --> I[输出]
end
微调数据准备
数据格式规范
常见数据格式:
格式类型
适用场景
示例结构
指令格式
问答、对话
Instruction + Input + Output
对话格式
多轮对话
User/Assistant交替
补全格式
文本续写
Prompt + Completion
数据质量检查清单
检查项
合格标准
常见问题
格式一致性
所有样本格式统一
JSON格式错误、字段缺失
内容相关性
与目标任务强相关
混入无关数据
输出质量
符合期望的回答标准
回答不准确、不完整
多样性
覆盖各种情况和表述
样本过于相似
长度分布
与实际场景匹配
样本长度分布不均
数据量参考建议
任务类型
建议数据量
说明
风格迁移
100-500条
只改变输出风格
领域适配
1000-5000条
注入领域知识
复杂任务
5000-20000条
新任务学习
深度定制
20000+条
全面改变行为
私有化部署方案
部署架构选择
graph TB
A[私有化部署方式] --> B[本地服务器]
A --> C[私有云]
A --> D[边缘设备]
B --> B1[适合:大企业<br/>数据敏感度最高]
C --> C1[适合:中型企业<br/>弹性扩展需求]
D --> D1[适合:端侧场景<br/>低延迟要求]
硬件配置指南
模型规模
典型模型
推理最低配置
微调最低配置
推荐配置
7B
Qwen2.5-7B, Llama3-8B
16GB显存
24GB显存
RTX 4090
14B
Qwen2.5-14B
32GB显存
48GB显存
A100-40G
70B
Llama3-70B, Qwen2.5-72B
80GB显存
160GB+(多卡)
A100-80G × 2
100B+
更大模型
多卡并行
集群
H100集群
量化技术:让大模型”瘦身”
量化级别
精度
显存占用
速度影响
质量损失
FP32
32位浮点
100%
基准
无
FP16/BF16
16位浮点
50%
更快
极小
INT8
8位整数
25%
更快
小
INT4
4位整数
12.5%
依赖实现
中等
GPTQ/AWQ
4位优化
12.5%
接近FP16
较小
主流部署框架
推理框架对比
框架
特点
适用场景
学习曲线
vLLM
高吞吐、PagedAttention
高并发API服务
中等
Ollama
一键部署、极简操作
个人使用、快速体验
极低
TGI
HuggingFace官方、功能全
企业级部署
中等
llama.cpp
CPU优化、跨平台
边缘设备、无GPU场景
低
DeepSpeed
分布式训练推理
超大模型、多卡场景
较高
Ollama快速部署示例
操作
命令
说明
安装
下载安装包
macOS/Linux/Windows全平台
运行模型
ollama run qwen2.5
自动下载并启动对话
列出模型
ollama list
查看本地已有模型
API调用
curl localhost:11434/api/generate
REST API接口
vLLM高性能部署
特性
说明
优势
PagedAttention
显存分页管理
提升2-4倍吞吐量
Continuous Batching
动态批处理
减少等待时间
OpenAI兼容API
标准接口
无缝迁移现有应用
微调实战流程
端到端流程
graph LR
A[需求分析] --> B[数据准备]
B --> C[数据清洗]
C --> D[格式转换]
D --> E[模型选择]
E --> F[参数配置]
F --> G[训练执行]
G --> H[效果评估]
H --> I{达标?}
I -->|否| J[调整策略]
J --> B
I -->|是| K[模型部署]
微调参数调优建议
参数
推荐范围
调优建议
学习率
1e-5 ~ 5e-4
先用1e-4试,过拟合则降低
批次大小
4-32
显存允许范围内尽量大
训练轮数
1-5
监控验证集Loss,防过拟合
LoRA Rank
8-64
任务越复杂,rank越大
LoRA Alpha
16-128
通常设为rank的2倍
Dropout
0.05-0.1
数据量少时适当增加
效果评估方法
评估类型
评估方法
适用场景
自动评估
困惑度(PPL)、BLEU、Rouge
快速迭代筛选
人工评估
准确性、流畅性、相关性打分
最终质量把关
A/B测试
与基线模型对比
业务效果验证
专项测试
领域特定测试集
专业能力验证
成本与ROI分析
部署成本估算
成本类型
API调用(每月)
私有化部署(首年)
算力成本
¥3-50万(按量)
¥20-100万(硬件)
运维成本
近乎0
¥10-30万(人力)
数据安全
有风险
可控
定制能力
有限
完全可控
扩展成本
线性增长
边际递减
选型决策框架
graph TD
A[是否需要私有化?] --> B{数据敏感度}
B -->|高| C[必须私有化]
B -->|低| D{调用量}
D -->|日均<10万次| E[API更划算]
D -->|日均>10万次| F{定制需求}
F -->|强| C
F -->|弱| G[评估总成本]