在线刊号(2320-9801)印刷刊号(2320-9798)
Swati Tidke, SaritaGangbhoj, AnkitaBadwaik
|
有关文章载于Pubmed,谷歌学者 |
更多相关文章请访问国际计算机与通信工程创新研究杂志
现在年轻一代最好的娱乐方式是以社交网站的形式提供的。在线社交网络(OSN)主要帮助个人在线上与他们的朋友、家人和社会联系,以便与他人聚集和分享新的体验。如今,osn面临的问题是,有人在任何人的留言板上发布不雅信息,其他人看到后会感到恼火。为了过滤掉那些无法忍受的信息,一个叫做机器学习介绍了。因此,目前工作的目的是提出并实验评估一个自动化系统,称为过滤墙(FW),能够过滤来自OSN用户墙的不需要的消息。
关键字 |
在线社交网络,信息过滤,短文本分类,以及基于策略的个性化,灵活的基于规则的系统。 |
我的介绍。 |
在线社交网络(OSNs)主要是作为一种互动媒介进行交流,分享相当数量的人类相关信息。OSN通常用于共享多种类型的信息,如文本、图像、音频和视频数据。在线社交网络是在人与人之间建立社交网络或社会关系的平台,例如分享兴趣、图片、文字和实时联系。社交网络服务由每个用户拥有自己的个人资料、社交链接和各种附加服务组成。一些主要用于与朋友联系的社交网络有:facebook,谷歌+,YouTube, Twitter在全球广泛使用。 |
今天,OSN提供了很少的支持来防止用户配置文件上的不必要消息。例如,facebook允许用户声明谁可以在他们的墙壁上插入消息,即朋友,朋友的朋友,定义的朋友组。过滤墙用于过滤OSN用户墙中不需要的消息。这面墙是一个公共写作空间,所以其他人可以看到墙上写的东西。因此,在在线社交网络中,有可能在墙上张贴不好或不受欢迎的信息,这对其他人也是可见的。为了检测这个问题,应该对用户的留言进行分类,并在留言所有者上过滤掉不需要的留言。短文本分类是一项困难的任务,因为它没有足够的单词出现。此外,想要在朋友的留言板上写攻击性信息的攻击者不会直接使用坏词,而是会使用各种特殊字符的模式,这样消息就不容易被系统追踪到。因此,我们使用一个短文本分类器来分类短文本单词。 |
2相关工作 |
由F. Sebastiani[2]描述了一种方法“自动文本分类中的机器学习”。一种描述将文本自动分类(或分类)到预定义类别的方法在过去十年中引起了广泛的兴趣,这是由于数字形式文档的可用性增加以及随之而来的组织它们的需要。在研究界,解决这个问题的主要方法是基于机器学习技术:一个通用的归纳过程,通过从一组预先分类的文档中学习类别的特征,自动构建分类器。 |
由Robert E Schapire和Yoram Singer[3]描述了“一个基于增强的文本分类系统”。一种可用于采用不同方法的方法,该方法使用Boost的两个扩展,这些扩展专门用于多类、多标签数据。在第一个扩展中,学习算法的目标是预测所有且仅预测所有正确的标签。因此,学习的分类器根据其预测与给定文档相关的标签集的良好近似的能力进行评估。在第二个扩展中,目标是设计一个分类器,对标签进行排序,以便正确的标签将获得最高的排名。我们介绍了一种称为增强的机器学习技术来解决文本分类问题。增强的主要思想是将许多简单的、稍微不准确的分类规则组合成一个单一的、高度准确的分类规则。简单规则是按顺序训练的;从概念上讲,每个规则都是在前面的规则最难分类的例子上训练的。 |
由H. Schutze, d.a Hull, J.O. Pedersen[4]提出了一种技术“路由问题的分类器和文档表示的比较”。一种比较文档路由、通过查询扩展的相关性反馈和误差最小化的统计分类两种方法的方法。一个系统表明,高级分类算法在Tipster文档集合上的表现比相关性反馈好10-15%。由于基于误差最小化和数值优化的学习算法计算量大,在高维特征空间中容易过拟合,因此有必要应用一些降维方法。针对文档路由问题,将基于统计分类的学习技术与传统的关联反馈学习方法进行了比较。 |
由Raymond J. Mooney, Loriene Roy[5]描述了一种方法“基于内容的书籍推荐使用学习进行文本分类”。推荐系统根据用户之前的好恶给出个性化的建议,从而改善了对相关产品和信息的访问。大多数现有的推荐系统使用基于其他用户偏好的社交过滤方法。相比之下,基于内容的方法使用商品本身的信息来提出建议。我们描述了一个基于内容的图书推荐系统,该系统利用信息抽取和机器学习算法进行文本分类。 |
3提出了系统 |
系统采用管理员消息过滤、用户消息过滤和短文本分类三种方法。在“管理员消息过滤”中,管理员设置了单词类别。按用户过滤消息按用户过滤消息,由用户设置单词类别。在短文本分类器中,短文本单词是由管理员在数据库中设置的。 |
[3.1]管理员消息过滤 |
在这种方法中,所有的过滤分析都是由管理员完成的。每当任何用户发送或与其他用户聊天时,信息都存储在数据库中。管理员访问这个数据库,并对每个消息内容应用过滤技术。在这个系统中,管理员首先登录并设置单词类别,即他不希望在用户墙上发布哪些类型的消息,如粗俗、辱骂、暴力、仇恨和攻击性,然后新用户注册并登录。当任何用户与其他用户聊天并使用了受管理员限制的单词时,该单词就无法显示并给出消息,“您的消息无法发布,因为它被过滤了”,如图3.1所示。 |
[3.2]短文本分类器 |
短文本分类器根据一组类别对消息进行分类。该方法由管理员在数据库中设置短文本词。当任何用户发送任何由管理员设置的短文本单词时,相应单词的完整形式将显示或显示在接收墙中。利用机器学习机制对短文本进行分类。 |
[3.2.1]机器学习机制 |
机器学习(ML)被用作文本分类技术,用于根据文本内容在一组类别中自动分配每个短文本消息。在机器学习方法中,分类问题是一种监督学习的活动,因为学习步骤是由类别知识监督的。图3.2显示了admin如何在数据库中添加短文本单词gd和完整形式的gd,即good day,每当任何用户发送该短文本单词gd时,该单词的完整形式即good day就会显示在接收者的墙上,如图3.3所示。 |
在图3.2中,我们设置单词gd表示好日子,通过admin添加数据库集,然后注销。 |
在图3.3中,我们展示了单词gd的完整形式,它的意思是好日子。 |
[3.3]用户消息过滤 |
我们提出了一个系统,允许OSN用户直接控制张贴在他们的墙上的消息。用户消息过滤技术是通过一个灵活的基于规则的系统完成的,该系统允许用户自定义应用于他们的墙壁的过滤标准,以支持基于内容的过滤。在这种方法中,消息由用户过滤。用户设置单词类别。首先,用户登录并添加过滤词,哪种类型的词他不想张贴在自己的墙上,如暴力,攻击性或任何类型的消息。当任何用户与其他用户聊天并使用用户设置的单词时,该单词就无法显示并将消息发送给发送方,'您的消息无法发布,因为它已被过滤',如图3.4所示。 |
[3.3.1]灵活的基于规则的系统 |
灵活的基于规则的系统允许信息发起者、管理员和请求者控制和影响信息流和对信息的访问。发起者生成消息,然后可选地指定规则,指示他们想要到达的接收者类型。收件人定义规则,指定希望接收的消息类型以及来自发件人的类型。 |
在图3.4中,我们显示了您的消息的消息无法发布,因为它已被过滤。 |
四、仿真结果 |
本文提出了管理员消息过滤、短文本分类器消息过滤和用户消息过滤三种方法。通过对这三种方法的研究,我们得到了根据“可用性”,管理方法的消息过滤对所有相关任务都是用户友好的,用户可理解的GUI的消息过滤具有较高的可用性,短文本分类器方法是用户可理解的语言。但从安全目的来看,管理员信息过滤的安全性较高,用户信息过滤的安全性中等,短文本分类器的安全性较高。 |
使用以下公式计算管理员消息过滤、短文本分类器消息过滤和用户消息过滤三种方法的性能。 |
在admin方法的消息过滤中,我们提供了30个输入样本,用于测试我们取了20个输入。在用户法消息过滤中,我们提供了28个输入样本,用于测试我们取了23个输入。在短文本分类器方法中,我们提供了35个样本,用于测试的样本有27个。在性能分析中,我们计算了六个参数,即准确性、精确性、召回率、可用性、实现性和安全性。使用这三种方法得到的结果如下表所示: |
五、结论与未来工作 |
本系统用于过滤来自OSN墙的不需要的消息。机器学习的使用为系统跟踪信息和用户自动区分社交网络用户档案中的好与坏信息提供了更高的效果。本文采用管理员消息过滤和用户消息过滤两种方法对不需要的消息进行过滤。在通过管理方法过滤时,限制适用于所有用户,而在通过用户方法过滤消息时,限制适用于在自己的墙上应用限制的特定用户。短文本分类器用于对短文本词进行分类。 |
本系统未来的研究范围是图像滤波技术。在我们的系统中,我们只能过滤文本信息。因此,我们将在未来的系统中尝试图像滤波。我计划研究限制用户对强制过滤规则的推断的技术,目的是绕过过滤系统,例如随机通知应该被阻止的消息,或者检测对配置文件属性的修改,这些修改只是为了击败过滤系统。 |
参考文献 |
|