您的位置:首页 > 论文 > 文科论文 > 正文

浅谈网络新闻传播中如何发挥语言信息处理技术的作用

【www.chuban323.com--文科论文】

    摘 要:本文分析了语言信息处理技术在网络新闻传播中的应用表现和重要作用,认为语言技术的应用使得网络新闻自组织为一个结构化资源,促进了网络新闻的高效传播;重塑了传统新闻体系中的新闻把关人的角色,促进了网络把关人角色的领域分化;帮助更好地完成了网络新闻反馈信息的接受和理解过程,完善了网络新闻传播的互动机制,并实现了反馈信息的重大经济价值及社会价值。
  关键词:语言信息处理技术 网络新闻传播 反馈信息
  
  一、引言
  
  随着现代科学技术的发展,特别是计算机网络的出现和信息传播技术的进步,新闻传播也由传统媒体如报纸、电视、广播媒体主导的时代走向了多元化,网络媒体和手机媒体的出现和崛起不仅仅是技术的革新,而且也同时创造了新的传播理念和传播方式。其中,网络媒体对于突发事件的报道,对于重大事件的关注,对于民间声音的表达及对高层决策的影响等等,使得网络媒体成为普通民众之间、民众与政府之间信息交流的重要渠道。可以说,网络新闻传播已经成为新闻传播链条上不可缺少的一环。
  网络新闻传播作为一种新兴的传播方式受到了学术界的广泛关注和普遍重视,网络新闻传播已经成为传播学中的一个重要概念。近年来关于网络新闻传播方面的研究广泛而深入,涉及到网络新闻传播理论研究、网络技术和新媒体研究、网络传播监管研究以及面向网络新闻传播的应用研究等各个方面。
  本文拟从语言信息处理技术的角度对网络新闻传播中的相关问题进行阐述。
  
  二、人类语言与网络新闻的表达形态
  
  从表达形态上看,网络新闻表现为多媒体形态和文本形态。多媒体形态的新闻可以进一步分为图片新闻、视频新闻和语音新闻,其中视频新闻包含了视觉形态和语音形态。文本形态的新闻是指以编码文字形式(如ASCII,BIG5,GB2312-80,GBK,UNICODE等)组织起来的新闻文本。多媒体形态的新闻元素和文本形态的新闻元素常常结合在一起,形成组合式的新闻形态。其中,我们把纯粹由文本形态构成的网络新闻称之为文本网络新闻,而把文本形态能独立构成新闻主体的网络新闻称之为综合文本网络新闻。
  文本网络新闻以及综合文本网络新闻的文本形态部分可以看作是通过互联网发布、传播的特定的人类语言产品,按照新闻的定义,当这种特定语言产品以一定的结构形式组织,并反映了国内外新近发生的具有一定社会价值的人和事实的时候,便形成了文本网络新闻。
  从网络新闻的形式构成可以看出,人类语言包含语音形式及其文本形式,是语音新闻,视频新闻的语音形态,文本网络新闻以及综合文本网络新闻的文本形态的实现形式,构成了网络新闻的主体形式。语言文字作为人类社会信息的主要载体,它具有特定的信息结构,因此更有利于减少信息的歧义和节省编码空间。特别是在网络空间上,一般说来,新闻的实现诉诸于语言比诉诸于视频、图片形式更为经济、有效;而视频和图片则表达了信息的形象性、细节性以及艺术感。事实上,文本和图片、视频在网络新闻中常常是相辅相成的,在图片新闻和视频新闻中,语言常常是不可或缺的元素。
  
  三、网络新闻传播的信息整合问题
  
  雷跃捷,辛欣(2004)总结了网络新闻传播相对于传统新闻传播的七大特点,其中包括传播主体的多元化、传播方式的多媒体化、传受关系的交互性、信息传播的快捷性、传播内容的广泛性、传播环境的全球化等。新的传播方式提高了物理传播效率,增加了信息传递量和传递的可能性,也提升了受众的需求,但同时也带来了新的信息整合问题:
  (1)由于网络创造了传递网络上所有新闻的可能性,那么,如何在浩如烟海的网络新闻中,找到大家最感兴趣的内容或者我们所感兴趣的内容?
  (2)由于我们创造了网络新闻传受关系的交互性,那么,如何在浩如烟海的反馈信息中分辨不同的反馈信息和相同的反馈信息?这些反馈信息的比例如何?
  (3)由于传播主体的多元化,传播环境的全球化以及传播内容的广泛性,如何在网络中过滤我们所不需要的内容,比如虚假信息、意识形态入侵以及色情信息等?
  这些问题表明,网络所造成的信息爆炸的问题在网络新闻传播中也同样存在,只有真正解决这些问题才能使网络新闻传播从无序的状态变为有序的状态,从而使网络新闻整合成为可利用的结构性资源。更进一步说,使网络新闻传媒成为一个真正的交互式分众传媒,即每一对传播者——受众的信息都得到相互的理解。
  网络新闻传播中有两种重要的力量:人和机器。在传统的新闻媒体中,所有的传播过程,比如,在新闻制作过程中,新闻的发现、选择、编辑、发布等都由人来操控,因此,传统的新闻媒体存在一个严格的把关人角色,只有符合群体规范或把关人价值标准的新闻内容才能进入传播的渠道。而在网络新闻传播中,由于传播主体的多元化,信息的爆炸效应的存在,造成了把关人角色的相对缺失,这是形成问题(3)的主要原因,因此,解决3个问题的关键是塑造网络把关人的角色。问题(1)和问题(2)是由于信息爆炸和网络连通效应带来的新问题。在现实生活中,问题(1)~(3)都可以通过人工干涉得到部分解决。比如,通过建立专门的新闻网站,雇用专门的新闻人解决问题(1),通过人工审查用户的评论干预问题(3),通过大量的查阅掌握某个话题信息的反馈情况来应对问题(2)。然而,这种解决只是局部的,对于问题(1),某受众不能发现隐藏于某个论坛或者个人网页上的或者已被众多人群关注的重要新闻信息,而问题(2)、(3)的人工解决方案则更显得应对不暇。解决问题(1)的关键在于寻找一种查询相关的新闻检索技术,解决问题(2)的关键在于建立关于某个新闻话题的评价机制,并寻找一种评价信息的抽取技术。而这些问题都是属于人类语言技术的研究范畴。
  
  四、语言信息处理技术在信息整合中的作用
  
  语言信息处理技术是以人类语言为对象的信息处理技术,它的目的是让计算机对语言的处理更加智能化,进而实现自然语言的理解。上文提到,网络新闻以人类语言为主要载体,可以看作是具有特定结构和特定内容的语言产品。因此,在语言信息处理技术使计算机获得一定的智能的基础上,网络中的计算机对于网络上新闻内容的一定程度的理解必然会影响网络新闻的传播过程,一定程度上实现网络新闻的自组织和网络新闻传播的智能化,使网络上的新闻自组织为一个具有较高整合性的系统。
  (一)查询相关的新闻检索技术与网络新闻分类技术
  如何在浩如烟海的网络新闻中,找到大家最感兴趣的内容?理想的解决方法是对网络上的新闻进行内容分类,然后按照各类数量的降序进行排序。但是,由于网络新闻数量巨大,需要消耗大量的计算时间,这与新闻的实时性及人们的需求难以相符,使得计算的可行性降低。Google采用了一个简便而著名的方法PageRank,其基本思想是某个网页被链接(引用)的次数越多,这个网页就越为重要,其排名就越靠前。这样网络新闻便完成了第一遍自组织,成为了具有一定结构的资源,为进一步传播做好了准备。
  然而,网络上大家最感兴趣的新闻内容仍然是数量巨大,丰富多样的,那么,如何在浩如烟海的网络新闻中,进一步找到我们所感兴趣的内容呢?一般的做法是通过关键词相关的查询来实现。既然新闻主要是人类语言组织而成的文本,而在网络上,文本是经过统一编码的。我们可以通过一定的语言技术,让计算机在一定程度理解文本,实现查询与文本的相关性度量,从而找出最为相关的网页。举个例子来说,比如我们要查询“原子能的应用”,如何计算查询串与文本的相关性,找到相关的网页呢?我们首先对查询串进行分词分为“生物能的应用”,然后计算某个关键词Wi在各个网页中的出现频率TFi和含有Wi的逆向文本频率IDFi,即“所有网页数/含有Wi的网页数”,我们把TFi和IDFi相乘作为网页与Wi相关性的度量。也就是说,关键词Wi在某个网页中越常见,该网页与Wi越相关,如某网页中如果“生物能”出现很多,该网页与“生物能”就很相关;Wi在各个网页中分布得越均匀,越不能代表查询的特征,如“的”可能在各个网页中分布都很多,所以它不能作为相关性的度量特征,因此IDF可以用作对TF的修正。我们把某网页中所有关键词的TFi*IDFi的和作为它与查询相关性的度量。这样每个网页便获得了一个度量值,按照该值与PageRank值的乘积对网页进行排序,便可获得我们较为关心的内容的网页。事实上,TF/IDF的方法可以用来选取网络新闻的主题特征,从而用于网络新闻的自动聚类。比如说,对于两篇网络新闻,我们可以抽取出TF*IDF值较高的主题词向量,并把它们的值映射到同一个词表中,组成两个具有相同特征和不同特征值的向量V1和V2,应用夹角余弦定理,我们就可以根据向量空间模型计算出两篇新闻的相似度。将这样的方法应用于所有的网络新闻,Google实现了网络新闻的自动分类,这极大地辅助了网络新闻的人工编辑工作。
  查询检索技术和新闻分类技术大大提高了网络新闻的查询、组织和传播的效率。在网络新闻的传播过程中,查询扩展也大大方便了新闻信息的检索。查询扩展有多种技术思路,有基于概念扩展的,有基于同现扩展的,限于篇幅,这里不作详细介绍。
  (二)反馈信息采集和评价技术
  互动性的大大增强是网络新闻传播的一个重要特征。在网络上,对于一篇新闻报道,常常有成千上万的反馈信息,这些反馈信息表明了网民对于该新闻的观点。那么,如何接收和理解这些海量的反馈信息呢?对于网民来说,可以通过逐一阅读完成信息接收过程,这种接收和理解过程只是局部的,面对海量信息,很少有人能够读完所有的信息,对于大家的反馈意见有一个全面的理解。事实上,反馈越多的新闻是大家越为关注的新闻。在某些关键的领域,如商业新闻领域,这种反馈显得尤为重要。举例来说,如一家汽车企业将要研制或发布一款新的汽车,或者某客户(个人或单位)需要购置汽车的时候,需要搜集关于汽车指标的相关评论。一般的做法可以在网络上设置相关的汽车指标,由网民投票来获得相关信息。但这种做法是有局限的:第一,相关的指标不可能设置太多,否则网民可能完不成全部指标的投票;第二,投票时间可能会比较长,影响商业决策;第三,网民必须浏览到投票网页才能完成投票,大大限制了投票的人流量。
  网络新闻搜集评论信息是一个比较可行的办法。上文提到,Google使用余弦定理实现了网络新闻的自动分类。在此技术基础上,我们可以对某一个主题类别的反馈信息进行进一步的挖掘。首先,根据商家或者客户的需要,尽可能全面细致地设置挖掘点,比如对于汽车,需要了解外观、耗油、舒适度、速度、安全性等不同的指标;其次,对每一个指标设置评价向量,比如外观的积极评价向量可以是{好,酷,漂亮,好看,时髦,……},中等评价向量可以是{一般,中等,……},消极评价向量可以是{丑,难看,差,……},消极评价还可以是积极评价的否定;再次,在局部理解的基础上,根据这种结构化的评价指标在网络新闻的反馈信息中进行挖掘,并统计相关数据,由此可以获得网络新闻评论的结构化数据,如{外观(好:80;中:15;差:5),耗油(低:10;一般:10;高:80),舒适度(好:70;中:15;差:5),速度(快:85;中等:15:慢:0);安全性(高:90;中:8;低:2)}。这些数据是基于真实用户反馈信息而来,对于企业或者客户的决策具有很高的参考价值。
  反馈信息是网络新闻传播过程中的一个重要环节,是网络新闻传播的互动性的体现。对于一篇网络新闻,互动不是无限的。我们认为,互动至少终止于第一次的相互理解,包括网络新闻发布者和接受者之间的相互理解、网络新闻接受者和接受者之间基于反馈信息的相互理解。如果反馈信息无法得到理解,价值无法体现,网络新闻传播的互动性便无法体现。
  
  图1 一次完整的互动示意图
  很明显,反馈信息的采集和评价技术有助于更好地完成网络新闻反馈信息的接受和理解过程,完善了网络新闻传播的互动机制,并实现了反馈信息的重大经济价值及社会价值。
  (三)非法网络新闻及反馈信息过滤技术
  在传统的传播体系中,新闻的传播和反馈过程都要经过层层的严格把关,不符合群体规范或把关人价值标准的新闻内容往往被提前过滤掉,不能出现在受众的面前。比如,色情内容的传播、不同意识形态内容的国际传播等往往受到比较严格的审查。网络媒体的出现为新闻传播模式打开了新的局面,造成了传播主体的多元化,传播环境的全球化以及传播内容的广泛性。这一方面打破了专业新闻机构和新闻人垄断新闻发布的特权,使得草根阶级也能制作和发布新闻信息,出现了民间新闻;另一方面,传播主体的多元化,网络传播的自主性也使得传播内容更为全面和繁杂。在这种全面和繁杂之中,也掺杂了一些不符合群体规范的新闻内容,如虚假新闻、非法新闻,包括非法的反馈信息。这种局面与传统的新闻传播体系走上了两个极端,即由严格的把关人制度到把关人几乎完全缺失。在语言信息过滤技术之前,一些新闻机构和监管部门只能通过人工审查的办法在庞大的新闻网络中寻找和过滤非法新闻,显然效率是极为低下的。
  将语言信息过滤技术应用于新闻审查最成功的案例是基于HNC的邪教信息过滤技术和色情信息过滤技术。HNC是概念层次网络的简称,它是关于自然语言理解处理的一个理论体系,其目标是建立自然语言的知识表述和处理模式,使计算机能够模拟人脑的语言感知功能。HNC应用于邪教信息过滤和色情信息过滤是在实现文本局部理解的基础上,实现对文本的语境分析和立场判定,其技术细节仍然是机密。
  可以看出,语言信息过滤技术事实上充当了网络新闻传播体系的把关人角色。尽管目前这种技术在某些领域取得了成功,但在更多的领域中还没有得到推广。由于网络新闻主要是由人类语言组织而成,因此,重塑把关人角色的重任也必然会由人类语言技术来承担。随着语言处理技术的进步,把关人角色必然会进一步地完成领域分化,语言信息过滤技术会在更多的领域中发挥作用。
  综合以上分析,语言信息处理技术,诸如查询相关的新闻检索技术与网络新闻分类技术、反馈信息采集和评价技术、非法网络新闻及反馈信息过滤技术在网络新闻传播中担负了重要的角色。这些技术将无序状态的网络新闻自动地重组为结构化可理解的资源,完善了网络新闻传播体系,使得网络新闻传播得以高效地运作。
  
  五、结语
  
  本文分析了语言信息处理技术在网络新闻传播中的应用表现和重要作用。以往的研究着重于网络技术和网络本身的特性对于新闻传播的影响,而很少从语言技术的角度进行分析。正是由于语言信息处理技术的应用,网络新闻才得以自组织为一个结构化资源,散落于网格中的潜在热点网络新闻才得以浮现在人们的眼前,网络新闻才得以以更高效的模式传播;人类语言技术重塑了传统新闻体系中的新闻把关人的角色,促进了网络把关人角色的领域分化;人类语言技术还帮助更好地完成了网络新闻反馈信息的接受和理解过程,完善了网络新闻传播的互动机制,并实现了反馈信息的重大经济价值及社会价值。
  
  参考文献:
  [1]昌慧东.“忽悠”事件与网络新闻过滤系统缺失[J].传媒观察,2008,(3).
  [2]雷跃捷,辛欣.网络新闻传播概论[M].北京:北京广播学院出版社,2004.
  [3]晋耀红.HNC(概念层次网络)语言理解技术及其应用[M].北京:科学出版社,2006.
  [4]徐波,孙茂松,靳光瑾.中文信息处理若干重要问题[M].北京:科学出版社,2003.
  [5]张甜.对新媒体时代“把关人”理论的新思考[J].新闻实践,2007,(11).
  [6]郑婧,孙卫.国内自然语言处理技术研究与应用的状态[J].数字图书馆论坛,2008,(7).

本文来源:http://www.chuban323.com/lunwen/11694/