漯
漯禾
V1
2023/03/26阅读:46主题:橙心
用户画像LDA模型
用户画像
什么是用户画像?
-
用户画像是 1999 年由“交互设计之父” Alan Cooper提出。
-
用户画像(_Personas_)是基于用户真实的行为及动机,代表真实用户并在数据基础上形成综合原(_Composite Archetype_),即“真实用户数据的虚拟代表”。
-
绝大部分学者将用户画像翻译为“_User Profile_”,用以表述基于用户数据描述的标签集合。
研究意义
-
大数据时代的到来,引发了图书馆服务转型及变革的浪潮,用户画像在图书馆领域的应用,为智慧化图书馆的建设,以及实现图书馆向用户提供精准化、精细化和个性化服务创造了条件。
-
用户画像技术能够充分利用图书馆基础数据,描绘用户特征,挖掘用户动态化的行为与兴趣偏好,洞悉、预测用户的资源需求,可应用于图书资源建设、服务与管理当中,提升图书馆纸本图书资源综合效益。
数据来源
-
中文 CNKI 数据库
-
TS=“用户画像” -
共检索到 2113 篇中文文献,经筛选得到 2027 篇有效文献 -
从中抽取关键词 4368 个,摘要 2027 条,设定停用词 2287 个。
-
-
发文趋势图

-
学科分布图

代码实现
-
导包
import pandas as pd
import jieba
papers = pd.read_excel("CNKIWordCloud.xlsx",names =["Summary"])
papers.head()
-
自定义词典和停用词表
jieba.load_userdict('dictionary.txt')
stopLists = list(pd.read_csv('stopwords.txt',names=['w'],sep='\t',encoding='utf_8').w)
#定义分词方法
def paperCut(intxt):
return [w for w in jieba.cut(intxt) if w not in stopLists and len(w)>2]
-
定义分词方法
wordList = [paperCut(paper) for paper in papers.Summary]
wordList[:1]
(此处隐藏核心代码)
LDA 可视化结果









-
用雷达图进行结果展示 -
文档数量雷达图
-

-
主题热度雷达图

结果分析
1.用户画像的研究已经逐渐成为图书情报领域的研究热点。
2.研究主题较为集中单一,但技术性较强。
未来展望
-
由以上分析可见,一方面,当前用户画像在国内图情领域的研究主题较为单一,主要基于图书馆读者服务过程及用户行为过程中产生的数据构建读者画像,目的是提高读者服务和资源利用的精准化和个性化。
-
另一方面,图书馆用户画像的研究多是应用和实践研究,研究者多为图书馆员,对用户画像构建方法较少,尽管细分主题多元,但应用主体单一。
-
用户画像的构建和本体研究涉及到数据挖掘、智能技术等主题,离不开计算机、数据建模等技术应用,因此,图书馆和计算机学科交叉融合,图书馆和计算机技术人员进行合作必不可少,该举措将有利于拓展用户画像主题研究广度和深度,提高科研产出,进而提升学术影响力。
小组分工
-
冯超凡:数据获取抽取、停用词构建 -
朱子涵:代码实现 -
刘佳豪:Markdown -
李玉莹:梳理总结、制作PPT -
李圆:梳理总结、课堂汇报
作者介绍
漯
漯禾
V1