唐小风

V1

2023/02/16阅读:93主题:默认主题

ChatGPT前世今身及探索

0x01 ChatGPT

基本介绍

OpenAI 成立于 2015 年,由Elon Musk、Sam Altman等出资10亿美元成立,致力于研究安全、通用、对人类有益的人工智能技术。OpenAI 最早是一家非营利性研究机构,在2019年微软注资10亿美元后,OpenAI转变为以盈利为目的的公司,将部分研究成果,如GPT-3,Codex等产品化并提供付费服务

基本原理

ChatGPT 是由 OpenAI 开发的语言模型。它是一种预训练的深度学习模型,使用 Transformer架构 , ChatGPT 所能实现的人类意图,来自于机器学习、神经网络以及Transformer模型的多种技术模型积累。Transformer 建模方法成熟以后,使用一套统一的工具来开发各种模态的基础模型这种理念得以成熟,随后GPT-1、GPT-2、GPT-3模型持续演化升级,最终孵化出ChatGPT文本对话应用。

核心技术

0x02 Paradigm Shift

进化
国内外现状
微软商业化

0x03 Emergent Capabilities

上图展示了每个任务的模型大小和准确率之间的关系,因为大型模型可以达到小型模型不具备的能力,而且ChatGPT已经实现大量的模型,所以量变引发了质变,很明显未来在人工智能领域中,其他研究者想突破ChatGPT难度更高。

另一项相关研究关注 GPT-3 在类比推理中的新兴能力,发现在抽象模式归纳、匹配和其他需要类比思维的问题中,足够大的语言模型即使没有直接训练,模型也能表现出超越人类的表现。准确性。

最初的 GPT-3 展示了三个重要的能力:

  1. 语言生成 遵循提示,然后生成给定提示的完成。 今天,这可能是AI 交互最普遍的方式。
  2. 上下文学习 遵循给定任务的几个示例,然后为新的测试用例生成解决方案。 有趣的是,虽然是语言模型,但最初的 GPT-3 论文几乎没有谈到“语言建模”—— 把他们的写作精力投入到他们对上下文学习的愿景上,这才是 GPT 的真正重点
  3. 世界知识 包括事实知识和常识。

GPT3.5 模型展示了四种重要的能力,使他有别于最初的 GPT-3

  • 响应人类指令:以前,GPT-3 的输出主要是训练集中的高频提示完成模式。 现在模型会针对提示生成合理的答案,而不是相关但无用的句子。
  • 泛化到未见过的任务:当用于调整模型的指令数量超过一定规模时,模型可以自动为不在训练集中的新指令生成补全。 此功能对于部署至关重要,因为用户总是会提出新的提示。
  • 代码生成和代码理解:显然,因为模型是在代码上训练的。
  • 复杂推理 with chain-of-thought:之前,该模型无法完成需要多步推理的任务。 codex-davinci-002 和 text-davinci-002 是展示链式思维推理能力的两个初始模型

0x04 网安落地应用

测试ChatGPT后,发现确实可以提高知识获取的效率,不需要像搜索引擎一样让我们自己去过滤筛选有效信息,可以直接给出标准答案,而且准确率很高

(1)用ChatGPT解析日志

对于SIEM类产品,日志解析是一个关键点。无论是基于schema-on-write,还是基于schema-on-read的各种日志查询语言技术,都需要对日志进行语义解析,让分析者能够看懂日志所代表的含义。

由于日志千万条,没有统一的格式和语义标准,目前唯一能做的就是采用基于规则的知识库形式,将各种日志的解析规则固化下来,变成知识库,内置到SIEM中。

如果在安全运营中遇到一个日志,没有现成的策略匹配,那么就需要安全人员自己写解析规则。 ChatGPT可以解决这个问题,如下图

(2)用ChatGPT生成子域名枚举代码

对于安全人员,大部分人都会使用安全工具,但是很多时候,基于不同的场景可能会需要安全人员自己编写DIY代码,这个时候通过ChatGPT来自动化生成代码,只需要简单的修改就可以使用。如下图

(3)用ChatGPT生成扫描Webshell的代码
(4)与Github Copilot联合编写代码

Github Copilot可以很明显的加快开发效率。基于ChatGPT与Github Copilot联合起来,相信未来代码编写起来会越来越简单,代码开发速度可以大大加快且理论上代码错误率会越来越低。如下图所示(在Vscode中集成ChatGPT和Github Copilot)

0x05 合规风险

Wrong(错误)

具体来说目前已发现的包含: (1)存在大量错误信息:ChatGPT 能够生成大量的文本内容,其中可能存在虚假、误导性或有害的信息,这可能对互联网的真实性造成负面影响。

(2)响应时间的限制:ChatGPT的文本生成是异步的,即每生成一小段就会展现在用户UI中展示。但若回答的文本在1分钟左右还没有完全生成,ChatGPT就会中断这次http会话,用户无法得到完整的回答。

(3)服务不稳定:在使用ChatGPT时,某一段时间内ChatGPT会完全不响应用户的请求,直接报网络错误。因为此时的登入登出功能均正常,故推测是由于ChatGPT的服务器并发处理量过高导致的服务崩溃。

(4)使用频率限制:当连续使用ChatGPT一段时间后,会出现提示告知使用次数已到上限,请等待一段时间。该提示出现后一定时间内无法继续使用ChatGPT。

(5)输入字数限制:输入的单个问题如果过长,ChatGPT会拒绝处理。

(6)输出字数限制:输出的答案文字如果过多,ChatGPT会停止输出。

Privacy(隐私)

个人信息收集和披露

使用 ChatGPT 的过程中可能涉及到数据收集和分析,因此存在隐私泄露的风险。

(1) chatGPT收集的个人信息类别

(2) chatGPT如何以及向谁披露该个人信息的更多信息。

收集的个人信息类别

:在过去的 12 个月中,chatGPT收集了以下类别的个人信息,如上文“个人信息收集”部分所述:

  • 身份信息,例如您的姓名、电子邮件地址、电话号码、实际地址或邮政编码,以及设备标识符。

  • 人口统计信息,例如学校、性别、年龄或出生日期,以及有关您的兴趣、活动和偏好的信息。

  • 通信信息,例如您与chatGPT和chatGPT的合作伙伴通信的内容。

  • 专业和教育信息,例如您就读的学校或您考虑就读的学校,以及您或chatGPT的合作伙伴提供的有关您的学术和工作经历的信息。

  • 在线活动信息,例如用于在线访问服务的设备以及有关该设备与服务交互的使用信息,包括通过服务发送和接收消息的时间和内容。

  • 个人信息来源:chatGPT从您、chatGPT的合作伙伴处收集上述类别的个人信息,并按照上文“个人信息收集”部分中所述的方式收集。

  • 收集和披露的目的:chatGPT收集和披露上述类别的个人信息用于上述“chatGPT对您的信息的使用”和“信息共享”部分中所述的商业和商业目的。

  • 出于商业目的披露的个人信息类别:在过去 12 个月中,chatGPT出于商业目的向服务提供商披露了上述所有类别的个人信息,如上文“信息共享”部分所述。

  • 出售的个人信息类别:在过去 12 个月中,chatGPT没有出售您的个人信息。

1. 个人信息收集。

通过提供服务,chatGPT可能会收集以下信息,这些信息可以单独或与其他合理可用的信息相结合,合理地识别或涉及特定的个人或家庭(“个人信息”):

1.1 **您提供的信息*:***chatGPT会收集您在与服务交互以与合作伙伴沟通时提供的个人信息,例如通过与合作伙伴网站上提供的机器人聊天或使用chatGPT的服务向合作伙伴发送短信。此个人信息包括您在这些互动过程中提供的信息,例如您的姓名、电子邮件地址、电话号码、实际地址或邮政编码、人口统计信息(例如您的学校、性别、年龄或生日)以及有关您的兴趣和偏好的信息.

请注意,chatGPT的聊天机器人只会询问您的姓名、电子邮件地址和电话号码;您提供的任何其他个人信息均由您自行决定,您使用服务不需要这些信息。chatGPT可能会将chatGPT通过服务从您那里收集的信息与chatGPT拥有的有关您的其他个人信息结合起来,如本聊天机器人隐私政策中所述。任何与个人信息结合的信息都将被视为个人信息。

1.2 chatGPT的合作伙伴提供的信息:chatGPT的合作伙伴将您的个人信息输入到服务中,以便他们可以通过服务与您沟通。此个人信息包括但不限于您的姓名、电子邮件地址、电话号码以及chatGPT的合作伙伴可能选择提供的任何其他个人信息。

1.3 第三方服务:chatGPT的服务可能会在chatGPT的合作伙伴或其他第三方(例如 Facebook)的网站上提供。chatGPT的服务还可能包括指向第三方托管的网站或服务的链接,例如聊天室或小组咨询会议,您可以通过这些链接与第三方和/或其他用户直接交流。chatGPT仅收集有关您与服务互动的信息,不会从第三方网站收集有关您与第三方或其他用户在这些服务上互动的信息。

chatGPT收集的信息受本 Chatbot 隐私政策的约束。第三方收集和存储的信息仍受第三方隐私惯例的约束,包括第三方是否与chatGPT共享信息、共享信息的类型以及您对第三方网站上其他人可见内容的选择网站和服务。有关第三方内容和服务的更多信息,请单击此处

1.4 第三方可能提供的关于您的信息: 在法律允许的范围内,chatGPT还可以使用来自第三方的外部记录来补充chatGPT收集的信息,例如学校、大学、组织、服务和机构,它们不是chatGPT的合作伙伴,为了向您提供您所要求的信息、服务或商品,以增强chatGPT为您服务的能力,为您量身定制chatGPT的内容,并为您提供chatGPT认为您可能感兴趣的机会。chatGPT可能会将chatGPT从其他来源收到的信息与chatGPT通过服务收集的信息结合起来。在这些情况下,chatGPT会将本 Chatbot 隐私政策应用于合并信息。

1.5 自动收集的信息:根据所使用的服务,chatGPT和某些服务提供商可能会在您在线访问和使用服务时自动收集“使用信息”。为此,chatGPT会自动为您用于在线访问服务的任何计算机、手机或其他设备(统称为“设备”)分配和收集唯一标识符(“设备标识符”),以便chatGPT的服务器能够识别您的设备。chatGPT根据您的设备标识符自动收集的使用信息包括您与服务的在线交互的详细信息,例如您通过在线服务发送和接收的消息的时间和内容。使用信息通常是非识别性的,但如果chatGPT将其与您关联为特定且可识别的人,chatGPT将其视为个人信息。

Risk(风险)

ChatGPT 是根据大量数据进行训练的,因此其生成的内容可能反映出特定文化和价值观,这可能对互联网的多样性造成影响。 (1)一些问题ChatGPT虽然拒绝正面回答,并号称自己不会解决,但实际上ChatGPT完全具备相关知识并能够给出清晰高效的解决方案,不能给出答案基本是由于内容安全策略的原因。

(2)作为一款全球化的产品及应用,在国内目前的国情下,ChatGPT在国内的商业化可能需要还需要更多的限制,相比于国外,ChatGPT的某些回答在国内是不允许出现的。

(3)ChatGPT作为一个免费且高影响力的应用,其内容安全策略演进速度快,覆盖范围广。换言之,ChatGPT作为一个免费AI应用,考虑到法律、道德、伦理等社会因素,为避免滥用,其使用限制将越来越多。

0x06 Summary

ChatGPT一经发布,短时间内就成为了现象级的应用。其清晰明确的回答和丰富的知识,昭示着AI技术造福人类,彻底简化我们生活工作这一美好的未来愿景。对于解决各行各业的许多问题,ChatGPT也提供了另外一种思路,为更加自动化、智能化地优化IT产品与服务带来了可能性。

从产品上看,ChatGPT作为GPT系列模型应用的一个开放产品,在解答问题的正确性和知识库储备上仍然存在明显的不足,因此依赖其解决实际问题不够稳定,只能将其看作一个智能顾问。此外,作为一个免费应用,ChatGPT在使用上具有诸多不利于用户的限制,例如限制了输入输出长度、使用频率、响应时间,因此其很难直接用其赋能现有产品。若需要在产品中引入类似能力,选择OpenAI其他更为稳定和便利的付费应用是更明智的选择。

从技术上看,ChatGPT依托于2020年发布的GPT-3模型目前的最新版本GPT-3.5进行开发,ChatGPT的功能在2020年左右的GPT-3应用中已经可以实现。因此笔者认为ChatGPT自身并不存在划时代性质的技术突破。但ChatGPT展现出的效果,让我们对未来的GPT-4模型充满了期待,更极大地提高了社会各界对于AI技术的认可,同时鼓舞了资本和从业人员对于近期缺乏重大进展(相对于2018年左右)的AI技术的信心。

从未来发展来看,工具主要作用还是降本增效,如果你的工作跟工具的作用重合率很高,那很可能就会被取代,说到底我们还是需要保持自身的核心竞争力,不论是IT行业,还是其他行业,如果每天只是做一些简单而重复的工作,迟早会被取代。退一步讲,如果你能打败你身边80%的人,那么在AI取代你之前,它先会取代你身边80%的人,这个就是竞争力的优势。

相信随着AI技术的不断进步,终有一天人类可以通过自然语言交互的方式,命令机器来正确、快捷地处理我们工作生活中的复杂任务。ChatGPT的出现向整个社会揭示了这一美好未来的可能性,是人类在向这一美好愿景迈进的过程中,一个不能被忽视的里程碑。

参考文献 1、https://huggingface.co/transformers/v3.5.1/model_summary.html 2、Floridi, L. and Massimo Chiriatti. “GPT-3: Its Nature, Scope, Limits, and Consequences.” Minds and Machines 30 (2020): 681-694. 3、https://arxiv.org/abs/2205.01068 4、https://github.com/facebookresearch/metaseq/tree/main/projects/OPT 5、https://pypi.org/project/chatgpt-api/ 6、https://arxiv.org/abs/1812.08989 7、https://yaofu.notion.site/How-does-GPT-Obtain-its-Ability-Tracing-Emergent-Abilities-of-Language-Models-to-their-Sources-b9a57ac0fcf74f30a1ab9e3e36fa1dc1#09ced687e4274b1aa17f4debf571e97c

分类:

人工智能

标签:

人工智能

作者介绍

唐小风
V1