短文本信息流的无监督会话抽取技术

　　摘要:文本会话抽取将网络聊天记录等短文本信息流中的信息根据其所属的会话分检到多个会话队列,有利于短文本信息的管理及进一步的挖掘.现有的会话抽取技术主要对基于文本相似度的聚类方法进行改进,面临着短文本信息流的特征稀疏性、奇异性和动态性等挑战.针对这些挑战,研究无监督的会话抽取技术,提出了一种基于信息流时序特征和上下文相关度的抽取方法.首先研究了信息流的会话生命周期规律,提出基于信息产生频率的会话边界检测方法;其次提出信息间的上下文相关度概念,采用基于实例的机器学习方法计算该相关度;最后综合信息产生频率和上下文相关度,设计了基于Single-Pass聚类模型的会话在线抽取算法SPFC(single-passbasedonfrequencyandcorrelation).真实数据集上的实验结果表明,SPFC算法与已有的基于文本相似度的会话抽取算法相比,F1评测指标提高了30%.

　　关键词:会话抽取;短文本;短文本信息流;无监督;时序特征;上下文相关度

　　短文本信息流存在于当今广泛使用的手机短信、互联网即时通信、论坛和微博等系统中.一个短文本信息流通常包含多个会话,涉及多个话题.会话抽取任务旨在根据短文本信息讨论的话题以及信息间的对话关系,将信息分检到多个队列,每个队列是一段主题明确的会话.以会话组织的短文本信息数据,比原始的按时间顺序组织的短文本信息流更便于内容管理和进一步的挖掘.然而,人工在海量的文本信息流中抽取会话是一项费时费力、甚至不可能完成的艰巨任务.很多国家已在网络聊天记录的自动化分析上做出尝试,并有一定进展.

　　短文本信息流的特征稀疏性、奇异性、动态性和交错性等特点,给会话抽取任务提出重大挑战.短文本信息的长度短、信息量少,因此,以词为维度的向量空间模型呈现出高维稀疏的特点.奇异性是指网络聊天语言中广泛存在的谐音词和简写词,如“稀饭”代表“喜欢”;动态性反映出短文本信息流上的流行词语随着时间不断变化,并不断有新词出现;交错性是指短文本信息流中的会话交错出现,相邻的信息可能讨论不同的话题,隶属于不同的会话.

　　关于文本会话抽取的研究始于2000年Smith等人对会话树和聊天线程的研究,近年来更成为研究热点.

　　在已有的研究中,有利用知识库来扩展短文本的特征向量以解决特征稀疏性问题;有利用信息的时序对词的重要性加权以适应信息流的动态性;有利用信息的语言特征改善奇异性带来的影响;还有一些采用了基于规则的机器学习方法.然而,现有的方法大部分只对基于文本相似度的聚类方法进行特征扩展,忽视了文本信息间的交互性,即上下文相关性.只简单地以信息的时间顺序对特征向量值进行加权,忽视了会话深层的时序特征.

　　针对这些挑战和已有研究的不足,本文创新性地提出了基于时序特征和上下文相关度的短文本文本信息流会话抽取方法.该方法是一种无监督的机器学习方法.首先,利用信息流中会话的生命周期规律,基于信息产生频率初步检测出会话边界;其次,定义了信息间的会话上下文相关度的概念,并采用基于实例的无监督机器学习方法计算这一相关度;最后,提出了短文本信息流的在线话题分检算法SPFC(single-passbasedonfrequencyandcorrelation).该算法动态更新相关度的训练语料,解决了信息流的语言动态性问题.本文的方法用信息间的上下文相关度代替相似度,更合理而有效,能够解决特征稀疏性、奇异性带来的影响.在一个时间跨度长达一个月的Linux技术讨论QQ群聊天记录上,SPFC算法与SPNN,SPWC,SPWNN这3种基于文本相似度的改进算法相比,F1评测指标提高了30%.

　　本文第1节对相关研究进行介绍.第2节给出问题定义.第3节给出基于时序特征和上下文相关度的短文本信息流会话抽取方法.第4节通过实验表明算法的有效性,测试算法的运行效率.最后给出总结和展望.

　　1、相关研究

　　计算语言学很早就开始研究文本会话.Grice提出自然语言有其独特的逻辑关系,会话的最高原则是合作,称为合作原则.在这个原则下,人们遵守数量、质量、关联、方式这4项准则;文献研究了中文网络聊天语言的奇异性和动态性,指出网络聊天用语经常是不规范的,是一种包含很多简写、谐音字、新词的网络非正规语言.

　　与会话抽取任务相似的传统文本挖掘技术是话题检测与跟踪(topicdetectionandtracking,简称TDT),它的主要任务是标识出文本集合中的文档所属的话题,主要的方法分为在线话题检测和回顾话题检测两类.与本文工作相似的是在线话题检测,这方面的经典算法是Single-Pass.已有的TDT算法都假定每篇文档有足够的信息表明它所属的话题,在新闻报道、学术文章等长文本上已比较有效.然而,传统的TDT技术没有考虑短文本信息的特征稀疏性、时序性、交互性、奇异性和动态性,导致计算出的短文本信息间的相似度都很低,难以区分短文本信息的差异程度,因此,信息所属会话也难以判断.

　　文本会话边界检测是文本会话抽取早期研究的目标,主要有3条技术途径:第1条是采用统计和监督学习的方法;第2条是基于词的一致性,通过已有的外部知识源构建的词汇链来检测信息的一致性;第3条是综合了统计方法和相似度测量方法.

　　近期的研究主要尝试利用文本信息流中的用户信息和时间信息,更深入地从语义和语法层面改进会话抽取的效果.有些算法是在Single-Pass聚类算法的基础上进行了改进.Shen的方法基于向量空间模型,用信息产生的时间顺序对特征向量进行加权,分别用KNN和中心向量两种方法判断信息与会话的相似度.此外,还引入了语言特征来计算信息间的上下文相关性.特征之一是信息中使用的句型,另一个是个人的拼写习惯,通过统计训练语料中各种句型组合是否属于同一会话的概率,给信息间的相似度加上一个系数,以改善文本会话抽取的效果.Wang在文献的工作基础上,利用知网扩展短文本的特征项设计了缓存相似文本信息的内存结构,用以对信息进行会话分组,并提出了双时间窗口的聚类算法,使得会话抽取可应用于在线高速文本信息流.针对短文本信息特征稀疏的缺点,采用特征扩展可在一定程度上加以克服.然而,特征扩展的效果依赖于知识库,而网络聊天数据存在奇异性和动态性,要维护一个全面的知识库,人力代价巨大.文献在新闻组风格的会话中研究了隐含线程结构的发现,其方法与Shen的方法很相似,假设信息间的时间靠得越近,文本相似度越高,则越有可能存在父子关系.

　　除了基于Single-Pass方法以外,基于规则的机器学习算法也被用于会话抽取.Wu最先从语法层面研究聊天室的会话挖掘,采用基于错误驱动的布尔逻辑规则学习算法.但这种方法依赖于专家制定的规则,当聊天数据的内容所属领域不一样时,需要制定新的规则集合,维护代价较高.

　　近来十分流行的LDA模型也被应用到会话抽取任务中,比如文献,提出了一个名为SMSS的稀疏编码模型,同时对会话的语义和结构进行建模.该模型将每条信息映射到一个话题空间,并通过线性组合同一会话先前的信息来度量每条信息与会话的相似度.

　　2、问题定义

　　核心期刊网（www.hexinqk.com）秉承“诚以为基，信以为本”的宗旨，为广大学者老师提供投稿辅导、写作指导、核心期刊推荐等服务。
　　核心期刊网专业期刊发表机构，为学术研究工作者解决北大核心、CSSCI核心、统计源核心、EI核心等投稿辅导咨询与写作指导的问题。

　　投稿辅导咨询电话：18915033935
　　投稿辅导客服QQ：论文投稿

1002080872、论文投稿

1003158336
　　投稿辅导投稿邮箱：1003158336@qq.com