
yzzheng
V1
2023/02/08阅读:25主题:红绯
沐神AI(NLP部分)
NLP
-
authro:yzzheng -
date:2023年02月08日
P51-序列模型
序列数据,有时序结构的数据,例如电影的评价随时间变化而变化。音乐、语言、文本和视频都是连续的,标题“狗咬人”和“人咬狗”完全不一样
统计工具
马尔可夫模型简单化了条件概率的计算方法
引入潜变量,计算
,
这个是一个模型,会
总结:
-
时序模型中,当前数据跟之前观察到的数据相关 -
自回归模型使用自身过去数据来预测未来 -
马尔科夫模型假设简化了概率计算模型,假设当前数据只与最近少数数据相关 -
潜变量模型使用潜变量来概括历史信息
P52-文本预处理
把文本当作一个时序信息,核心思想是把词变成能够训练的东西
-
(1)每个文本许可被拆分成一个标记列表tokenize -
(2)构造一个字典(Vocabulary),用来将字符串类型的标记映射到从0开始的数字索引 -
(3)把序列变成一个id list
P53-语言模型
给定文本序列
,语言模型的目标是估计联合概率
(1)使用计数来建模 相当于一个联合概率
(2)N元语法(n-gram模型) 马尔可夫假设,最大的好处就是计算量少了
总结:
-
语言模型就是用来估计文本序列的联合概率 -
使用统计方法时常采用N元语法
作者介绍

yzzheng
V1
hello