Swift DOCUMENTATION — swift 3.6.0.dev0 文档 (
original
) (
raw
)
swift
Swift DOCUMENTATION
查看页面源码
Get Started
SWIFT安装
Wheel包安装
源代码安装
旧版本
镜像
支持的硬件
运行环境
Notebook环境
快速开始
安装
使用样例
了解更多
Web-UI
Instruction
命令行参数
基本参数
原子参数
集成参数
特定模型参数
其他环境变量
预训练与微调
环境准备
预训练
微调
Merge LoRA
推理(微调后模型)
部署(微调后模型)
人类对齐
数据集
GRPO
DPO
RM
PPO
KTO
CPO
ORPO
SimPO
推理和部署
推理
部署
Megatron-SWIFT训练
环境准备
快速入门案例
Benchmark
命令行参数
采样
能力介绍
环境准备
使用PRM和ORM进行结果过滤
自定义PRM或ORM
显存控制
实际例子
大模型蒸馏采样
评测
能力介绍
环境准备
评测
训练中评测
自定义评测集
问答题格式(QA)
导出与推送
Merge LoRA
量化
推送模型
强化微调
强化微调的概念
什么时候使用强化微调
SWIFT的实现
实验结果
未来计划
GRPO
集群支持
奖励函数
参数与运行脚本
自定义奖励模型
多任务训练
DAPO
FAQ
Agent支持
数据集格式
tools格式
loss_scale的使用
训练
推理
部署
支持的模型和数据集
模型
数据集
使用Tuners
接口列表
常见问题整理
训练
推理
部署
评测
Customization
自定义模型
模型注册
自定义数据集
标准数据集格式
dataset_info.json
数据集注册
插件化
callback回调
定制化loss
定制化loss_scale
定制化metric
定制化optimizer
定制化agent template
定制化tuner
PRM
ORM
Best Practices
GRPO完整实验流程
任务与数据集定义
奖励函数定义:
GRPO训练实验记录
多模态GRPO完整实验流程
ClevrCount 任务
奖励函数定义:
Geometric QA任务
Multimodal Open R1 数据集实验
GRPO代码训练
奖励函数
训练脚本
Embedding训练
loss
数据集格式
脚手架
推理
快速训练VL模型
模型修改
训练
推理/部署/评测
NPU支持
环境准备
微调
推理
部署
更多最佳实践
Indices and tables
索引
模块索引
搜索页面