AI训练师人工智能客服之训练自己的数据集

然后将自己的xlx.json和dataset_info.json文件拖到自己服务器底下的LLaMA。找到dataset_info.json文件配置自己的训练集。

O执O

353人浏览 · 2025-03-11 20:19:31

O执O · 2025-03-11 20:19:31 发布

选择数据集

找到dataset_info.json文件配置自己的训练集

然后将自己的xlx.json和dataset_info.json文件拖到自己服务器底下的LLaMA

两种数据格式

Alpaca格式

指令监督微调数据集
instruction:用户输入的指令
input:用户输入的内容
output:模型回复的内容

备注：最终会把instruction、input、output进行合并

1、指令监督微调数据集（单轮）
{
  "instruction":"P4班",
  "input":"多少钱？",
  "output":"100元"
}
最终用户提问的是：P4班多少钱？
模型回答是：多少钱？

当然数据集也可以这样写：
{
  "instruction":"P4班多少钱？",
  "input":"",
  "output":"100元"
}

数据集格式：
//demo.json

ShareGPT格式

参数说明：
human:用户输入的问题
gpt:模型回复的问题
observation:对话中观察或外部事件
function:外部函数或API调用生成的内容

把准备好的数据集，添加到dataset_info.json中
通过PyCharm也好、其它编辑器也好，复制、粘贴过来，起个名字
xlx.json（json格式）

需要把dataset_info.json、xlx.json这两个文件，
拖到服务器里面的LLaMA-Factory-main、data

LoRA参数设置：
LoRA学习率比例：16
LoRA作用模块（非必填）：all

输出目录：train_13（根据实际情况填写）

点击‘预览命令’、‘开始’，开始训练模型

当训练完毕后，在‘检查点路径’，选择‘输出目录’，点击‘加载模型’
此时就可以，进行问答测试了

AI编程社区

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

第一篇：AI编程工具发展史-从工具到伙伴的蜕变

AI编程工具如何3年改变开发方式：从GitHub Copilot的震撼到日常生产力革命摘要：GitHub Copilot的问世彻底改变了编程方式，使AI编程助手从简单补全进化为真正的"编程伙伴"。数据显示76%开发者已使用AI工具，效率提升35-50%。文章回顾了编程工具四个发展阶段：石器时代的痛苦摸索（1990s-2010s）、青铜时代的机器学习曙光（2010s-2018）

AI编程社区

开发AI编程工具的方案分析

大语言模型的 Token 成本是项目运营的核心成本之一，需要实现精确的上下文控制、智能压缩策略、增量更新机制，在保证功能完整性的前提下最小化 Token 消耗，这涉及复杂的文本压缩算法、上下文窗口管理、模型调用优化等技术。：必须与 VS Code、IntelliJ、Vim 等主流开发环境实现无缝集成，涉及插件开发、协议适配、实时同步等复杂技术。：不仅要理解代码语法，更要理解代码的业务逻辑、设计模式

AI编程社区

Copilot移动开发指南：Android_iOS双平台实战

先写一个User// 用Retrofit定义GitHub API接口，包含获取用户列表的GET请求（路径：/users）suspend fun getUsers(): Response<List<User>> // 用suspend函数支持Coroutines先写Todocase avatarUrl = "avatar_url" // 映射JSON的蛇形命名在Android Studio和Xcod

AI编程社区

所有评论(0)

查看更多评论

O执O

@one_xyc

已为社区贡献1条内容