短文本信息流的无监督会话抽取技术(4)

　　以0.04的间隔遍历tsim的各种取值,用贪心策略调整tW和dW的值,测试基准算法SPWC,SPNN,SPWNN的性能.同等性能时,tW和dW取最小值.结果表明,SPWNN性能最好,SPNN次之,SPWC最差.最佳tsim值远小于文献的实验结果,是因为本文的测试数据来自真实的网络聊天记录,文本信息的特征稀疏性、奇异性更为突出,导致了文本信息间的相似性很差.

　　性能比SPWNN提高了27.9%.单元格的数值是ω和Δt取相应表头的值时,测试取得的F值.SPF算法是一种边界检测算法,其性能与会话窗口tW、文档窗口dW的大小无关,但与Δt和ω的取值关系密切.当Δt≤135时,信息产生频率采样的时间窗口较小,产生频率的变化较大,导致会话切分过细,性能表现不佳.测试还发现,当采样时间窗口大于3min小于20min时,该参数的变化对算法性能影响不大,且性能较好.这说明,这个QQ群的大部分会话持续了20min以上.ω是计算信息产生频率移动平均值的时间窗口,从测试结果来看,ω取值在40~60期间,性能较佳.

　　SPC比基准算法对参数变化有较好的适应性.当相关度阈值ζ的取值在[0.02,0.056]期间时,SPC的性能变化不大,F值均能保持在0.5以上,不似基准算法对tsim那样十分敏感,因此,更具实用性.当前导信息窗口k为6时,各数据集上的效果最佳.这与无监督训练语料上会话的平均信息条数有关.当搜索窗口μ=4,ζ=0.024时,数据集D1上的性能最佳,μ值变大后数据集D1的性能略有下降,但只要相关度阈值合适,仍能达到较好的性能.图3展示了ζ=0.056时,μ值变化对性能的影响.其中,横轴为搜索窗口μ,纵轴为F度量值.μ大于10后,其改变对性能的影响不大.当3种基准算法和SPC算法取得最大性能时,tW都在2~4左右,说明在大多数情况下,交错进行的会话不超过4个,这与我们对数据集的观察相一致.当dW>10时,dW的改变对算法性能影响不大.为了使会话的特征向量更加稠密,dW通常设为一个较大的值.

　　SPFC算法相比SPF和SPC的优势在于,它既利用了时序特性,又能处理会话的交错性.如第3.3节所述,SPF算法只考虑利用时序特性判定会话边界,所以即使参数设置合适,面对交错性严重的数据,其召回率仍然成为影响性能的瓶颈.应用SPFC时,应将时间窗口参数设置为较小的值,使得根据时序特征切分时能够得到较细粒度的初步会话,再利用相关度聚合,从而达到比SPF和SPC更高的性能.相反,如表10所示,若时间窗口属性设得较大,交错的会话无法被检测到,准确率下降,导致F值降低.

　　此外,SPFC对参数变化具有更好的适应性.因为信息产生频率的波动并不一定是会话边界,SPF算法对频率的微小波动进行了平滑,所以ω参数的变化对SPF的性能影响较大.SPFC在SPF的基础上引入了内容相关度的判定,对SPF切分的会话进一步进行聚合.所以,即使Δt,ω参数取值不当,对产生频率的变化过分敏感,将信息流切分成过碎的片段,但SPFC算法可以将这些片段进行聚合,仍可达到较好性能.实验测试ω>10,ω<Δt<1140时的各种组合,发现Δt,ω对性能几乎没有影响.tW取2或3时,dW取大于20的任何值,对算法性能也几乎没有影响.SPFC算法的性能表现主要取决于相关度阈值ζ.数据集D1最合适的相关度阈值ζ是0.1,而数据集D2最合适的相关度阈值ζ是0.54,相差较大.这是因为D2中的信息长度比D1长,内容更加丰富完整,所以D2上的信息更容易在G中找到相似信息,信息间的相关度普遍较高,所以需要一个较高的相关度阈值;否则,SPFC会将大部分会话片段聚合起来,导致准确率下降.不过,即使参数的取值不当,SPFC也有不错的表现,性能仍然明显高于SPC和SPWNN的最佳性能.由于人们日常的对话中同时进行的会话不可能太多,tW值可设为2,设dW为任意大于20的值.

　　随着文本信息流规模的增长,各算法的时间开销呈线性增长.横轴为信息条数,纵轴为时间(单位为ms).SPC算法由于要频繁搜索训练语料,速度最慢;SPFC的耗时大于SPWNN,但远小于SPC,处理1万条信息只需4s左右时间.

　　本文提出的SPF,SPC,SPFC这3种算法的最佳性能对比.可见,SPFC算法性能最优.上述关于参数的讨论表明,SPF对参数设置较为敏感,SPC计算量较大.SPFC则综合了两者的优势,具有较高的实用性,适用于高速文本信息流的处理.

　　5、结论和展望

　　网络聊天、微博数据等短文本信息流的会话抽取,是短文本信息流挖掘的一项重要任务.本文给出了文本会话抽取的定义,从文本信息流的时序特性和文本会话上下文相关性两个角度出发,发现了文本信息流中会话的生命周期性和相邻信息的上下文相关性规律,提出了基于信息产生频率的会话边界检测方法和基于上下文相关度的会话抽取方法,以及这两种方法的综合算法SPFC.SPFC是一种无监督的机器学习算法,它从历史语料中学习特征项间的会话相关度.在中文数据集上进行的大量实验表明所提方法是有效的,SPFC的性能比基于文本相似度的方法提高了30%.并且算法的时间开销较小,适用于高速文本信息流的在线处理.

　　但是,文本会话抽取的性能还有很多改进空间:首先,SPF算法假设大部分信息产生频率的突变代表了会话边界,但仍有一些会话主题在信息产生频率持续上升或下降时产生了漂移,SPF算法暂时没有考虑这类会话边界;其次,SPFC算法是在SPF算法切分的会话上利用上下文相关度对文本会话进行进一步聚合,对于交错性特别严重的信息流,仍有可能无法完全正确地区分交错的会话.下一步,我们将尝试改进SPC算法的性能,引入现有的知识库,提高上下文相关度计算的准确率;尝试改进SPC算法的时间开销,使SPFC算法在每条信息到达时都进行一次相关度判断,从而检测出不符合信息产生频率突变性质的会话边界.

　　核心期刊网（www.hexinqk.com）秉承“诚以为基，信以为本”的宗旨，为广大学者老师提供投稿辅导、写作指导、核心期刊推荐等服务。
　　核心期刊网专业期刊发表机构，为学术研究工作者解决北大核心、CSSCI核心、统计源核心、EI核心等投稿辅导咨询与写作指导的问题。

　　投稿辅导咨询电话：18915033935
　　投稿辅导客服QQ：论文投稿

1002080872、论文投稿

1003158336
　　投稿辅导投稿邮箱：1003158336@qq.com