
阿升
V1
2023/02/12阅读:121主题:默认主题
ChatGPT内核:InstructGPT,基于反馈指令的PPO强化学习
GPT-1用的是无监督预训练+有监督微调。GPT-2用的是纯无监督预训练。GPT-3沿用了GPT-2的纯无监督预训练,但是数据大了好几个量级。InstructGPT在GPT-3上用强化学习做微调,内核模型为PPO-ptx,下面的论文会详细分析。ChatGPT沿用了InstructGPT,但是数据大了好几个量级。
1.目录
2.论文
3.论文视频
参考文献:
[1]ChatGPT内核:InstructGPT,基于反馈指令的PPO强化学习:https://zhuanlan.zhihu.com/p/589747432
[2]InstructGPT论文精读:https://www.bilibili.com/video/BV1hd4y187CR
作者介绍

阿升
V1
吾爱DotNet(公众号)