基于LDA的电商评论主题抽取

2022-07-13 电商运营 0 0 5 0

作者｜贾少华

1 理论介绍

LDA(Latent Dirichlet Allocation)于2003年BLei在论文中提出，该模型立足于LSA(Latent Senmantic Analysis与pLSI(probabilistic Latent Senmantic Analysis)模型，是一种更完善、成熟的概率主题模型。即LDA模型通过引入超参数的概念，使得整个模型较之pLSI更加概率化，形成了三层贝叶斯网络结构。LDA概率图模型见图1。

图1. 传统LDA模型

LDA模型意在寻求一篇文档中蕴含的潜在主题，其中对于潜在主题的个数一般通过困惑度亦或是对数似然值来确定。通常，一篇文档有包含多个部分，每个部分有N多词构成，也就是说由N多词构成一个个主题，而后由一个个主题构成了一篇文档。

对于文档集D中的每个文档w，LDA假设了以下的生成过程：

1)

2)

3)对于个单词中的每一个单词：

（a）

（b）从中选择一个单词；

LDA模型中，需要估计的参数有两个，分别为θ和φ，即文档-主题概分布与主题-词概率分布。因使用EM对θ和φ进行参数估计的方法难以通过代码实现，故而在后续的模型学习与实现中，通常采用Gibbs抽样对这两个参数进行值的估计。

2 数据准备

此次Demo实验选取部分Yelp电商评论中的文本部分，其中评论有真有假，分别对真实评论和虚假评论进行主题抽取。其中表一展示的是一条原始的评论数据集和对应的清洗干净的数据集。

表1原始数据与干净数据

当数据量较小的时候，LDA抽取的主题代表性不强，因此此处为了扩大建模的单词量，将真实评论合并为一个文档，虚假评论合并为一个文档，分别使用LDA对其进行建模，主题抽取结果如表2，表3所示。

表2 真实评论主题抽取

表3 虚假评论主题抽取

附录：代码（python3.6，jupyter notebook）

-END-

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

数据仓库数据统计数据运营案例分析

免费下载或者VIP会员资源能否直接商用？

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。若由于商用引起版权纠纷，一切责任均由使用者承担。更多说明请参考 VIP介绍。
提示下载完但解压或打开不了？

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量，若小于网盘提示的容量则是这个原因。这是浏览器下载的bug，建议用百度网盘软件或迅雷下载。若排除这种情况，可在对应资源底部留言，或联络我们。
找不到素材资源介绍文章里的示例图片？

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材，文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买，且本站不负责(也没有办法)找到出处。同样地一些字体文件也是这种情况，但部分素材会在素材包内有一份字体下载链接清单。
付款后无法显示下载地址或者无法查看内容？

如果您已经成功付款但是网站没有弹出成功提示，请联系站长提供付款信息为您处理
购买该资源后，可以退款吗？

源码素材属于虚拟商品，具有可复制性，可传播性，一旦授予，不接受任何形式的退款、换货要求。请您在购买获取之前确认好是您所需要的资源

评论(0)

提示：请文明发言取消回复