GPT-1用的是无监督预训练+有监督微调。GPT-2用的是纯无监督预训练。GPT-3沿用了GPT-2的纯无监督预训练，但是数据大了好几个量级。InstructGPT在GPT-3上用强化学习做微调，内核模型为PPO-ptx，下面的论文会详细分析。ChatGPT沿用了InstructGPT，但是数据大了好几个量级。

1.目录

2.论文

3.论文视频

参考文献：
[1]ChatGPT内核：InstructGPT，基于反馈指令的PPO强化学习：https://zhuanlan.zhihu.com/p/589747432
[2]InstructGPT论文精读：https://www.bilibili.com/video/BV1hd4y187CR