ISSN在线(2320 - 9801)打印(2320 - 9798)
Hridesh古普塔1,Pankaj沙玛2 |
相关文章Pubmed,谷歌学者 |
访问更多的相关文章国际期刊的创新在计算机和通信工程的研究
微博是一种很常见的互联网用户之间的交流方式。微博实时内容发布的人们和这个内容通常是拉登个人意见在日常生活的各种方面。这使得微博舆论的丰富来源数据挖掘。我们使用语料库从受欢迎的微博网站Twitter [1]。我们认为微博的时期2014年在印度首相的选举之前,分析微博的集体情绪,反对和赞成的总理候选人。我们把微博积极和消极观点类和我们使用机器学习分类技术实现这一目标,译者翻译语言评论和微博将印地语。雷竞技苹果下载
关键字 |
意见挖掘,情绪分析、评论、朴素贝叶斯定理,印地语翻译。雷竞技苹果下载 |
我的介绍。 |
微博是一种很常见的和强大的互联网用户之间的交流方式。微博常常反映出个人观点和意见挖掘非常有用。我们认为twitter的语料库。微博twitter被称为tweet。我们选择推期的2014年在印度总理选举。我们主要尝试分类推到政治观点反对和赞成总理候选人,纳兰德拉·莫迪,拉胡尔。甘地。我们使用不同的特征选择方法和分类算法。最好的结果是通过使用语法特征和支持向量机(SVM)分类器。语料库是手工注释用于情绪状态,我们使用这个作为黄金标准的评估精度,回忆和f值的分类和译者翻译语言评论和微博使用印地语翻译转换为印地语。雷竞技苹果下载 |
二世。相关工作 |
情绪分析越来越多的研究领域的地位。因为twitter限制字符/职位。舆论表一直在工作情绪分析twitter语料库的机器学习分类方法(Pak &帕劳贝克,2010)。舆论表已经专门为政治观点挖掘工作从Twitter(梅纳德&恐慌,2011)。不同于使用不同的特性和分类,有各种各样的方法,如使用表情符号(et al ., 2009),使用意见逆转词汇等识别情绪。我们已经使用了一些类似的想法在我们的数据处理。 |
三世。算法 |
我们的方法是各种各样的想法借用了自然语言处理区,信息检索和机器学习。该算法主要设计以下步骤, |
1。数据处理 |
2。特性 |
3所示。训练分类器 |
数据处理 |
语料库已经大量的元数据,如日期、时间、身份证号码等,提取自然语言内容。我们需要主题数据的一系列处理步骤之前的数据可以用来提取特征和训练分类器。这是一个之前的原始数据样本数据的过程。 |
315、41199、0:26:17,新闻分析:在第二场辩论莫迪反击战(纽约时报):与朋友分享。 |
1。停止词删除——我们使用自然语言工具包(NLTK) [2] stopword语料库对英语移除阻止文字段落。这有助于消除最常见的阻止的话包括字格的计算和特征提取。 |
2。阻止-Twitter数据通常是使用非正式语言,它包括网络术语,俚语和当代的拼写。我们非常节俭的阻止,以便不删除单词和失去可能的风险特性。我们采用基本遏制(例如使用Bosnion)。 |
3所示。拼写校正——Twitter用户通常使用非正式的语言。经常有错误的拼写在tweet。我们使用花哨的开源魔法检查[3]检测错误的拼写在tweet,段落,代之以最接近的单词从英语词典。 |
4所示。实体—我们使用的实体是莫迪或拉胡尔。甘地。但是,这些实体是由各种名字写给莫迪。通常是自我解决总理先生,莫迪等等。所以,我们正常通过替换可能的名字人们用来解决莫迪或拉胡尔的实体。 |
5。情绪,表情符号映射有众多的表情符号中重复使用Twitter。我们使用一种方法受所使用的方法(et al ., 2009)和一些表情符号映射到正面和负面情绪和丢弃的表情模棱两可或与情绪无关。 |
6。词性标记——我们尝试NLTK和OpenNLP[4]词性薄铁片的启发式形容词或副词通常用来表达意见的自然语言。数据是由空间和标记化的令牌被涂画者。我们也尝试通过副词和文字等,不包括所有数据无实体,形容词,不能等通常表示情绪的逆转。他等于所使用的路线看来逆转的话(梅纳德&恐慌,2011) |
7所示。过滤——微博包含大量的元数据和作物的喧嚣被移除。以下数据过滤, |
一个¯¯·身份号码、日期、时间等,tweet。一个¯ |
一个¯·一个¯无关的标签 |
一个¯·¯一个超链接 |
一个¯·#标签例如# msnbc2012¯一个 |
一个¯·Twitter处理例如@Pawan¯ |
一个¯·标点符号,一个¯特殊字符和数字 |
8。编码——有一些推特不是在印地语和其他语言。这些微博包含utf - 8编码的字如天真。这些角色被排除在推特和只在ASCII编码字符。 |
所有的内容也被转换为小写。这些干扰字符分类器。 |
对推特这个数据处理过程后,剩下的只有推特和人类的自然语言内容使用带注释的情绪,在监督学习分类算法。数据处理后,样品推我们认为之前将会改变, |
“新闻分析第二场辩论莫迪反击战纽约时报头条新闻,分享朋友1” |
1为正,1为负的注释用于情绪分类。 |
9。翻译——译者翻译转换成印地语所有微博和推特和微博&微博是任何语言但是译者翻译成印地语。使用谷歌翻译。 |
四、特点 |
语法功能——使用处理过的数据提取功能,将用于指导我们的分类器。我们已经尝试了Ngram。数据被标记化的空间使用NLTK和这些令牌受到NLTK生成字格。 |
词性的功能——因为语言中使用Twitter是一般非正式,词性标记消息并不准确。我们使用两个NLTK词性薄铁片和开放NLP词性薄铁片连同一个形容词和副词的启发式,JJ, JJR, JJ, RB, RBR银行和苏格兰皇家银行在潘树标记集,通常用于在自然语言表达意见。所以我们进一步处理数据不包括所有的数据保存。实体、形容词、副词等词语,不能等通常表示情绪的逆转。这类似于使用的路线看来逆转的话梅纳德和恐慌(梅纳德&恐慌,2011)。在使用词性涂画者,我们试过unigrams,三元和unigrams和三元的组合。我们尝试用术语recap-inverse文档回顾(tf-idf),我们只考虑最常见术语tf-idf下令。我们使用的绝对方法考虑字格的所有功能。 |
情绪词汇特征——我们使用条款在正面和负面意见单词列表(胡&刘,2004)作为分类特征。 |
诉训练分类器 |
我们尝试各种组合的特性、分类算法和测试选项。如前所述在特征提取部分,我们提取的各种特性集和使用这些构造特征向量。这些都是用来训练分类器。我们尝试了4种不同的分类器, |
一个¯·多项朴素贝叶斯 |
一个¯·罗吉斯回归 |
一个¯·随机森林 |
一个¯·支持向量机(SVM) |
我们使用这些分类器从weka (weka是一个机器学习算法),一套流行的机器学习软件[5]和自由SVM支持向量机[6]的图书馆。我们也尝试了一个对所有与SVM分类策略。我们尝试了评价方法,70 - 30分和10倍交叉验证百分比。 |
第六,伪代码 |
步骤1:初始化P(积极的)一个¯¬num一¯AA¯一popozitii / num_total_propozitii(积极的) |
步骤2:初始化P(消极的)一个¯¬num一¯AA¯一popozitii(消极的)/ num_total_propozitii |
步骤3:句子转化为对每个类{正数、负数}:{短语}的每个单词 |
P(字|类)< num_apartii(字|类)1 | num_cuv(类)+ num_total_cuvinte |
P(类)P(类)* P(字|类) |
返回马克斯{P (pos)、P(底片)} |
句子译成英语(所有语言)转换为印地语使用谷歌翻译 |
六。实验结果 |
我们使用的各种组合的特性和分类,这里是使用Weka和LibSVM不同的实验结果。表1显示的结果,使用8000个最频繁unigrams没有删除停用词与朴素贝叶斯多项分类器使用70 - 30%的评价方法。我们没有显著变化,结果当我们尝试了使用逻辑回归和随机森林分类器。表2显示了使用10000 unigram特性的结果tf-idf下令使用朴素贝叶斯分类器。我们使用10-deflect交叉验证下列结果。 |
表1:混淆矩阵- 8000最常见unigrams没有stopword删除功能使用多项朴素贝叶斯分类器 |
表2:混淆矩阵- 10000 unigram tf-idf下令使用朴素贝叶斯分类器的特性 |
我们尝试了积极和消极的意见单词列表(胡&刘,2004)作为分类特征。表3:混淆矩阵——看来单词列表功能使用逻辑回归分类器 |
获得的结果运用词性标记为特征选择如表4所示。 |
表4:混淆矩阵-词类标记(形容词/副词标签)用于特征选择和使用朴素贝叶斯分类器 |
然后我们对整个训练语料库训练模型和评估测试数据通过使用unigrams和三元的组合特征和支持向量机分类器使用一个对所有分类策略.Table-5显示了这些结果。我们使用LibSVM这个实验。 |
表5:混淆矩阵——测试数据,使用支持向量机分类器和one-vs unigram &三元特性。——分类策略 |
VIII.CONCLUSION |
在本文中,我们提出了一个意见挖掘的所有语言语料库及其印地语翻译。所有语言语料库为研究社区免费提供。所有语言的翻译语料库由评论从web页面获得相关电影和电影。雷竞技苹果下载然后,我们生成的所有语言语料库,这是使用一个自动的印地语翻译机器翻译工具。两个语料库包括共有500条评论,250阳性和250阴性。雷竞技苹果下载此外,我们已经完成了一些实验语料使用两种不同的机器学习算法(SVM和朴素贝叶斯)和应用一个阻止的过程。 |
引用 |
|