短文本信息流的无监督会话抽取技术(2)

　　本节首先给出短文本信息和会话的定义,然后明确定义会话抽取的任务.

　　定义1(文本信息,textmessage).一条文本信息是指使用数字化终端参与会话的用户一次发言的文本片段.用户使用数字化终端编写,通过网络发送文本信息与其他用户进行对话.信息又可以分为起始信息、回复信息和终止信息.一条起始信息引发一个新信息序列,这个信息序列关注某个特定的主题;回复信息是对前面某条信息的某种回应,比如肯定、强调或补充等;一条终止信息结束对某个主题的讨论.我们将信息发送的时刻称为信息的产生时刻,信息的字数称为信息长度.

　　定义2(短文本信息,shorttextmessage).短文本信息是指信息长度较短(字数一般不超过30个字)、信息含量较小的那类文本信息,如论坛回帖、即时聊天消息、手机短信等.

　　定义3(文本会话,textconversation).一个文本会话是一个围绕某个特定主题的信息序列,开始于一条起始信息,结束于一条终止信息,中间有若干条回复信息.文本会话的粒度小于TDT任务中话题的粒度,有利于下一步基于会话展开更深入的研究,比如基于会话研究用户间的社交关系、研究文本信息流中的社区网络.

　　定义4(会话抽取,conversationextraction).会话抽取将文本信息流中的每条信息映射到其所属的会话,并在文本信息流中发现新会话.会话抽取将图中左侧按时间顺序排列的信息流,按文本会话将信息重新组织为右侧所示的两个会话队列.

　　3、基于时序特征和上下文相关度的文本信息流会话抽取

　　会话抽取在本质上是一个聚类问题.本文提出的会话抽取方法首先利用会话的生命周期性将文本信息流切分为粒度较小的会话片段;再利用信息间的会话上下文相关性,对第1步切分的细粒度会话片段进行聚合,得到最终的文本会话.

　　第3.1节利用文本信息流的时序特征——会话生命周期性,提出基于信息产生频率的会话边界检测方法;第3.2节定义了会话上下文相关度,提出了一种基于机器学习方法的相关度计算方法;第3.3节给出支持训练语料动态更新,综合信息产生频率和上下文相关度的在线会话抽取算法.

　　3.1基于信息产生频率的会话边界检测

　　首先以一个例子说明该方法的思路.

　　根据文本会话的定义,我们对一个Linux技术交流QQ群进行了人工标注,得到一个熟语料.语料中随机截取的聊天片段,横轴为时间,纵轴为信息条数,实线为单位时间产生的信息条数(即信息产生的速率),虚线表示文本会话的边界.可见,大部分情况下,会话边界处于信息产生速率曲线的波谷.通过观察大量的熟语料我们发现,信息流中会话的边界点与信息产生的速率有关.

　　性质1.人们的会话过程符合事物发展的一般生命周期规律,经历起源、发展、高潮、衰弱、消亡几个阶段.在文本会话中,这一规律体现在特定信息属性的变化上.信息产生速率的变化趋势与大部分会话边界的关系符合性质1.会话边界4是一个例外,观察数据发现,这是因为人们讨论的主题发生了漂移.应用性质1的规律,若暂不考虑文本信息流的主题交错性,则会话抽取任务简化为求解会话边界的时刻.因此有如下定义和方法.

　　定义5(信息产生时刻).函数τ(M)的值为信息M的产生时刻距离1970年1月1日0时0分的毫秒数.

　　定义6(信息流的信息条数).对于某个短文本信息流S,用函数φS(t)表示信息流S从诞生时刻至时间点t所产生的信息条数.

　　φS(t)的一阶导数φS′(t)表示时间点t的信息产生频率.我们所求的会话边界时刻是φS′(t)的值由大变小,而后由小变大(或持续为0)的转折点.令φS′′(t)为φS(t)的二阶导数,公式(1)所示的方程组的解就是会话边界点:息的产生时间是离散的,因此φS′(t)和φS′′(t)须采样拟合.为了使拟合更加准确,我们设定每条信息产生的时刻为采样点.另外,如图2所示,信息产生频率的微小波动不能认为是会话的边界.对信息产生频率这个时序数据进行平滑,可减小微小波动带来的影响.采用n阶移动平均法来进行平滑,对任意信息Mi,可用如下公式求得Mi产生时刻的产生频率φS′(τ(Mi)):φτ+=.′..Δ=Δ×+Σ(2)其中,Δt是一个可配置的参数;v指的是时间期间[τ(Mi).ω,τ(Mi)]内产生的信息条数,u指的是时间期间[τ(Mi),τ(Mi)+ω]内产生的信息条数,ω是一个可配置的参数.由于(τ(Mk).Δt)不一定在采样点上,可用距(τ(Mk).Δt)最近的采样点的信息条数来替代φS(τ(Mk).Δt)的值.

　　在求得φS(t)的基础上,φS′′(τ(Mi))的值用公式(3)逼近:φτττ..′(.′(′′(=(.(3)其中,n是一个可配置的常量.同样,φS′′(t)为0的时间点也不一定在采样点上,故公式(1)的方程组简化为公式(4)所示的方程组:SiMφτ.′′(<...′′(≥(4)该方程组所求得的Mi就是区分会话边界的信息.

　　3.2基于实例的上下文相关度计算方法

　　从信息内容的层面来判断两条信息是否存在会话上下文关系,已有的方法主要基于信息间的内容相似度.

　　然而真实对话中,构成回复关系的两条信息内容可能完全不同.例如,“感谢你们的帮助”与“不用客气”这两条信息.为此,我们提出信息会话上下文相关度(简称相关度)的概念,度量信息间构成对话关系的可能性大小.用会话上下文相关度来对信息进行聚类以得到会话,比简单地根据相似度进行聚类更合理和有效.

　　核心期刊网（www.hexinqk.com）秉承“诚以为基，信以为本”的宗旨，为广大学者老师提供投稿辅导、写作指导、核心期刊推荐等服务。
　　核心期刊网专业期刊发表机构，为学术研究工作者解决北大核心、CSSCI核心、统计源核心、EI核心等投稿辅导咨询与写作指导的问题。

　　投稿辅导咨询电话：18915033935
　　投稿辅导客服QQ：论文投稿

1002080872、论文投稿

1003158336
　　投稿辅导投稿邮箱：1003158336@qq.com