阿升

V1

2023/02/12阅读:121主题:默认主题

ChatGPT内核:InstructGPT,基于反馈指令的PPO强化学习

  GPT-1用的是无监督预训练+有监督微调。GPT-2用的是纯无监督预训练。GPT-3沿用了GPT-2的纯无监督预训练,但是数据大了好几个量级。InstructGPT在GPT-3上用强化学习做微调,内核模型为PPO-ptx,下面的论文会详细分析。ChatGPT沿用了InstructGPT,但是数据大了好几个量级。

1.目录

2.论文

3.论文视频

参考文献:
[1]ChatGPT内核:InstructGPT,基于反馈指令的PPO强化学习:https://zhuanlan.zhihu.com/p/589747432
[2]InstructGPT论文精读:https://www.bilibili.com/video/BV1hd4y187CR

分类:

人工智能

标签:

自然语言处理

作者介绍

阿升
V1

吾爱DotNet(公众号)