yzzheng

V1

2023/02/08阅读:25主题:红绯

沐神AI(NLP部分)

NLP

  • authro:yzzheng
  • date:2023年02月08日

P51-序列模型

序列数据,有时序结构的数据,例如电影的评价随时间变化而变化。音乐、语言、文本和视频都是连续的,标题“狗咬人”和“人咬狗”完全不一样

统计工具

条件建模
条件建模
抽象
抽象

计算总的概率方法 马尔可夫模型简单化了条件概率的计算方法 马尔可夫假设 引入潜变量,计算 , 这个是一个模型,会 潜变量

总结:

  • 时序模型中,当前数据跟之前观察到的数据相关
  • 自回归模型使用自身过去数据来预测未来
  • 马尔科夫模型假设简化了概率计算模型,假设当前数据只与最近少数数据相关
  • 潜变量模型使用潜变量来概括历史信息

P52-文本预处理

把文本当作一个时序信息,核心思想是把词变成能够训练的东西

  • (1)每个文本许可被拆分成一个标记列表tokenize
  • (2)构造一个字典(Vocabulary),用来将字符串类型的标记映射到从0开始的数字索引
  • (3)把序列变成一个id list

P53-语言模型

给定文本序列 ,语言模型的目标是估计联合概率 (1)使用计数来建模 相当于一个联合概率 计数模型

(2)N元语法(n-gram模型) 马尔可夫假设,最大的好处就是计算量少了 N-gram模型

总结:

  • 语言模型就是用来估计文本序列的联合概率
  • 使用统计方法时常采用N元语法

分类:

人工智能

标签:

自然语言处理

作者介绍

yzzheng
V1

hello