2.2.2 文本分析
中文分词是把一个连续汉字句子按照一定规范拆分成有意义的词语,词语是文本的最小单元,也是文本分类的基础。本文使用Python的Jieba分词模型对评论数据进行分词,提取评论或帖子的关键词,获取词频、词性后,便于情绪值判别或空间位置提取。
共词分析统计一对词语两两在同一评论中出现的次数,通过分析这些词的共现频率,频率越高表明这些词之间的关系越紧密。本文中选用共现频率前20的词语进行分析,挖掘高频词之间的联系。
为了解民众对于突发地震事件的讨论主题,研究采用了隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)模型对数据进行了主题建模。LDA模型基于贝叶斯概率模型,假设每个文档都遵循狄利克雷分布(θ),每个主题词分布对应表述为φ的狄利克雷分布,超参数α, β为φ的超参数, ω,z为主题词和主题。LDA模型可以表达为:
P(ω,z,θ,φ|α,β)=∏n=1N p(θ|α)p(z|α)p(φ|β)p(ω|θ) (1)
在LDA中,用于评估模型质量和确定最佳主题数的两个常见指标是困惑度(Perplexity)和主题连贯性(Coherence)。困惑度衡量模型对新数据的拟合,表示在确定一段文本是否属于特定主题时的不确定性,较低的困惑度值表示模型的拟合越好。主题连贯性用于评估主题模型的质量,衡量同一主题中单词之间的平均相似度,较高的连贯性表示同一主题中单词之间的相似性更强,反映出更好的模型质量。困惑度P( D )表示为:
式(2)中,D表示测试文本集,e为自然数,N表示文档数量,ω表示文档d中的词序列,p( ωd)为给定的主题矩阵。主题连贯性C表示为:
式(3)中, k为主题个数, ωi和ωj为两个不同的主题特定单词,sim ( ωi , ωj )为ωi和ωj的相似性,E为预期的相似性。
2.2.3 情感分析方法
文本情感分析是对带有情感色彩的主观性文本进行分析处理、归纳推理的过程,研究公众的情绪极性和强度可以判断对特定事件的情感和观点。研究采用武汉大学沈阳教授研发的ROST-CM6平台进行情感分析,平台将文本情绪分为正面、中性、负面三个情感极性,文本的情绪值反映情绪强度,绝对值越大,该类情绪越强烈,如:0~10分表示一般积极情绪;10~20分表示中度积极情绪;20分以上为高度积极情绪。示例如表1:
表1 正面、中性、负面情绪评论示例Table 1 Examples of comments with positive,neutral,and negative emotions