聚类分析算法(Cluster Analysis)

“聚类分析算法(Cluster Analysis)”反垃圾邮件功能,系统通过对比所收到的邮件与反垃圾库中的数据相似程度来进行判断,当两者的相似度超过所设定的限值时,即认为所收到的邮件为垃圾邮件。

 
所采用的聚类分析算法简单的说就是比较样本中各语句之间的性质,将性质相近的归为一类,而将性质差别较大的分在不同的类。通过对类的处理将有相似特性的数据集合到一起,进而可以用来对邮件内容进行分析和归类,以达到垃圾邮件识别的目的。
举一个实际操作的例子,以下是一封很常见的垃圾邮件内容:
您好!我公司有发票可以代开,价格优惠,验证后付款,欢迎来电洽谈。联系人:钟先生:158 02135482
相信大家都对此类邮件头痛不已,因为如果管理员将“发票”做为关键字进行处理,很快此类垃圾邮件的内容会变异为“fa piao”。如果用“钟先生”做关键字,不久也会变异为“李先生”、“王先生”之类。而电话号码更可以随意变化。
事实上,更让管理员头痛的是通常垃圾邮件会对邮件服务器实施欺骗,常见的方法包括:

您*好*!*我*公*司*有*发*票*可*以*代*开*,*价*格*优*惠*,*验*证*后*付*款*,*欢*迎*来*电*洽*谈*。*联*系*人*:*钟*先*生*:15*8* *2*8*3*2* *4*0*5*1

或在有效内容之前或之后加一段随机信息,比如:

KQNSOWY93DOV您好!我公司有发票可以代开,价格优惠,验证后付款,欢迎来电洽谈。联系人:钟先生:158 2832 4051

 
更复杂的则是远期内容的可能变异,比如:

大家好!我们公司有全国各地发票可以代开,价格实惠,可以验证后付款,欢迎洽谈。 王生:139,6454,5728

截止至2009年,行业内对于此类垃圾邮件的处理,特别是对于最后的几种欺骗以及远期内容变异的识别基本上是非常困难,并且要面对巨大的误判风险。

原创文章,转载请注明: 转载自可乐博http://keleblog.com/

本文链接地址: 聚类分析算法(Cluster Analysis) URL: http://keleblog.com/2009/08/22/cluster-analysis-spa/

Leave a comment

0 Comments.

Leave a Reply

( Ctrl + Enter )