ISSN在线(2320 - 9801)打印(2320 - 9798)
使用电子邮件的用户数量为教育目的或专业的目的。但垃圾邮件会导致严重的问题为电子邮件用户喜欢浪费的用户?年代能源和浪费用户的搜索时间。本文作为调查论文基于一些流行的分类技术识别电子邮件是否是垃圾邮件和非垃圾。代表垃圾邮件,我们使用向量空间模型(VSM)。因为有那么多不同的词在电子邮件,和所有分类器无法处理如此高的维度,只有一些强大的分类术语应该被使用。另一个原因是,一些条款可能没有任何标准的意义为分类器可能造成混乱。
垃圾邮件和非垃圾邮件过滤,再邻居,朴素贝叶斯、阻止、停止词删除,向量空间模型。
介绍
今天,电子邮件被许多用户用于通信目的。邮件大致归类为垃圾邮件和非垃圾邮件。首先,我们将试图解释什么是垃圾邮件和非垃圾邮件和如何影响电子邮件用户垃圾邮件的定义是不好的电子邮件和不必要的邮件发送与病毒传播的目的,对于商业欺诈和损害电子邮件用户。封邮件是我们常规的邮件为电子邮件用户是有用的。据调查,今天封电子邮件用户收到垃圾邮件比邮件。1997年,公司网络获得10%的邮件是垃圾邮件。电子邮件分类的目的是决定垃圾邮件,而不是让他们送到电子邮件用户。在文档分类技术,文档可分为不同的预定义的类别,已应用于电子邮件分类和满意的结果。在文档分类、文档可以表示为向量空间模型(VSM) (1]。每个电子邮件可以到向量空间模型来表示,即:每一封电子邮件都被认为是一个向量的词项。因为有那么多不同的词在电子邮件,和所有标识符迦南¢t是处理如此高的维度,只有一些强大的分类术语应该被使用。
Tak-lam wong Kai-on chow, Franzwong(2007年8月19 - 22日)”7]Incorporting关键字过滤文档分类电子邮件垃圾邮件”导致了“电子邮件过滤软化硬聚类的研究决定,也获得成本评估的结果火腿火腿垃圾比垃圾邮件。任王(IEEE CCECE / CCGEI,渥太华,2006年5月)“[10]一些特征选择策略为垃圾邮件过滤器的设计得出的结论是,使用优化技术作为特征选择策略减少邮件的尺寸以及提高分类过滤的性能。
答:文档预处理:
文档预处理的过程中吸收新的文本文档转换为文本分类系统。
文档预处理可用于以下用途:
•代表文档有效去除无用的关键词。
•提高检索性能。
文档预处理包括以下阶段:
一个词法分析。
b。停止词消除
引发的c。
一个词法分析。
词法分析器使用记号赋予器从文本文档中提取关键字。它决定了单词从文本文档4]。词法分析把字母输入字符(字母a - z)和分隔符(空间、换行符选项卡)。
词法分析删除数字标点符号,因为这些都是无用的在文本分类决策。
b。停止词消除
在文本分类的背景下停止词称为无用的符号。所以重要的是要删除这些阻止语言文本文档为了提高文本分类器的性能。停止词包括冠词、介词、连词、代词和可能有某些动词、名词、副词。停止词消除改善索引结构的大小。
引发的c。
在信息检索系统形态变异的单词有相似的语义解释,可以被认为是等价的。为此阻止算法设计,减少其根形式的词。因此,文档是由茎而不是由原词有助于减少字典大小。“写”的意思,“写”、“写”、“写”一样在上下文的信息检索系统。阻止算法减少了单词“写作”的时候,“写”和“写”根词,“写”。
b .加权方案:
tf-idf,缩写词frequency-inverse文档频率作为文本挖掘的加权因素。反映出单词是很重要的一个文档。tf-idf的价值上升,因为文档中一个单词出现的次数。术语frequency-inverse文档频率的组合两个方面:
•词频率
词的频率是一个概念,它可以被定义为ti一词的出现次数在特定文档dj。
特遣部队我,我= n我,我
其中n我,我术语ti的出现在文档dj。
为了防止偏见对于较大的文档,经常项频率归一化方程(1)如下所示,
(1)
•逆文档频率
逆文档频率被定义为文档总数除以t包含这个词的文档的数量我和商的对数方程(2)所示,
(2)
为了避免除以零误差,我们可以使用1 + | {d: ti∈d} |。
c .数据集:
封很难收集邮件,因为保护个人隐私。因此我们收集数据集上可用www.csmining.org/index.php/pu1-and-pu123a-datasets.htmlpu1corpus [1]。这个语料库由总量的1099封电子邮件,其中481封垃圾邮件,618邮件。pu1语料库的邮件只有主题名称和电子邮件正文文本,标题字段和HTML标记删除。
朴素贝叶斯分类:
朴素贝叶斯分类器是由一组定义的C类和一组属性。泛型类属于C用Cj,属于一个作为一个通用的属性我。
考虑数据库D和一组属性值的类标签。贝叶斯分类器的训练包括每个属性的条件概率分布的估计,鉴于类(5]。
让n (本土知识c |j的病例数我出现与价值本土知识和类是cj。
然后p (本土知识c |j)= n (a本土知识c |j)/Σn (a本土知识c |j)也p (cj)= n (cj)/ n。
这仅仅是基于频率估计。将我们之前对p(一个信念本土知识c |j)我们用c类添加αj虚构的用例j其中αjk是假想的情况下,人工智能出现的数量和价值本土知识和类是cj。
因此p (本土知识c |j)=(αjk+ n (本土知识c |j))/(αj+ n (cj))
还p (cj)=(αj+ n (cj))/(α+ n),α是全球精密之前。
一旦培训(每个属性的条件概率分布的估计,鉴于类)完成我们可以分类新病例。
发现p (cj| ek我们首先计算
p (cj|一个1 k)= p (a1 kc |j)p (cj)/Σp (a1 kc |h)p (ch)
p (cj|一个1 k,一个2 k)= p (a2 kc |j)p (cj|一个1 k)/Σp (a2 kc |h)p (ch|一个1 k)等等。
b .决策树:
决策树也被称为分类树。它可以从设置独立的实例运用„分而治之”的方法。决策树设计其节点包含属性测试条件分类实例具有不同的特征(6]。决策树分支导致这些分类和叶节点代表各自的类。构造最优决策树是一个NP完全问题;启发式用于构建最优的树。最好选择那些特性,将训练数据分区的记录分成更小的子集。重要的一步是如何决定哪些特性分割。有不同功能的评估技术可以找到最优分裂功能。这些技术都是从信息理论和他们中的大多数都是基于ShannonA¢年代熵。
信息增益是一种技术也可以应用于功能排序法。它是最广泛使用的分割标准。通过扩大树节点造成最大涨幅平均全球互信息最大化。规则来自距离措施计算类间可分性和歧视。基尼指数措施,多样性的一个受欢迎的距离测量的不平等分配,Kolmogorov-Smirnov距离。
决策树算法的工作原理如下:首先,它选择一个属性来创建根节点并创建一个分支为每个值的属性。这将训练集划分为子集,一个用于每一个值的属性。然后,重复这个过程递归为每个分支。如果在任何特定时间都记录在一个节点有相同的分类然后停止发展,树的一部分。
c .再算法:
再(资讯)算法属于一类基于实例的学习很简单,一个重要的机器学习算法。基于实例的学习者也叫做懒惰学习算法,因为它延迟实际推广过程,直到执行分类。没有模型建立过程。Instancebased学习者从训练数据不抽象的任何信息在学习阶段。学习仅仅是一个封装训练数据的问题。
资讯工程基于原则的实例数据集内通常存在于靠近其他实例数据集内也有类似的性质。如果对象是与一个分类标签标记的对象进行分类以多数票的邻居,它分配再邻国之间最常见的类(2]。K是之前小奇怪的正数和正确的分类。的对象实例可以在n维ndimensional点空间,每个点对应一个n特性描述对象。对象的距离计算通过使用距离度量,例如曼哈顿距离和欧几里得距离[7].KNN极易受噪声的训练数据由于高度的当地的敏感性。K的值从而影响资讯算法的性能。k是一个问题的最优选择问题,但交叉验证可以用来揭示最佳训练集内的k值的对象。
在拟议的系统中,我们认为提高效率的要求,数据挖掘技术如朴素贝叶斯分类的准确性,决策树,再,好数据挖掘算法。
对我们来说是一个巨大的享受的机会向纸”的评价分类技术分类为垃圾邮件和非垃圾邮件”表达我们心中留下感谢那些慷慨提供他们对论文的完成有价值的建议。信贷去我们的共和国Mangale教授(RMCET、Ambav Ratnagiri)的积极态度;精神上的支持和鼓励导致论文的成功。
教授Mangale S.R.我完成计算机工程学士。我感兴趣的软件项目管理和数据挖掘。
Ms.Ankita Mohite。我正在寻求B.E.在信息技术、RMCET、孟买大学。我是一个ISTE的成员。我的兴趣是网络和安全领域。
Ms.Rupali Lokam。我正在寻求B.E.在信息技术、RMCET、孟买大学。我是一个ISTE的成员。我的兴趣是网络和安全领域。
Ms.Simeen Wasta。我在信息技术、追求我B.E. RMCET、孟买大学。我是一个ISTE的成员。我的兴趣是网络和安全领域。
Ms.Pooja奇卡内。我正在寻求B.E.在信息技术、RMCET、孟买大学。我是一个ISTE的成员。我的兴趣是网络和安全领域。