近几十年来,手机的普及程度越来越高,这又为声名狼藉的广告商提供了另一个垃圾广告领域。人们每天毫无愧疚地提供自己的手机号码,然后垃圾邮件就会泛滥成片。
JAVA Kit将提供给您,您可以使用教程学习和构建。你今天就可以免费开始了!
短信仍然是一种流行的通信手段,信息的传输必须按照通信标准的约定进行。因此,有一个先决条件是内容分类算法可以用于将消息分组为伪消息或垃圾消息。
有各种各样的技术用于短信垃圾邮件ID, likenaïve贝叶斯(NB),支持向量机(SVM),人工神经系统,选择树,k-最近邻(KNN)和随机森林和混合方法
项目需求
在这个项目中,我们将使用来自SMS垃圾邮件收集的数据目录或数据集制作垃圾邮件分类器。UCI机器学习知识库将用于下载所需的数据集。
我们将使用python作为基本语言
项目实施
该数据集将SMS消息的内容与一个名称合并在一起,以显示该消息是不受欢迎的还是真实的。垃圾邮件被命名为Spam,而真正的邮件被命名为ham。
该结构包括一套程序:
首先是数据集的选择,在这一点上,亮点将被选择并从数据集中分离出来。
在接下来的过程中,顺序技术将被解决;该系统将使用三种分类器:随机森林、深度学习和朴素海湾,所有的实验将在H2O阶段进行。
我们将利用2012年积累的UCI机器学习存储数据21。该数据集包括5574条名为ham的即时消息和垃圾消息,其中垃圾消息的数量为747条,而ham消息的数量为4827条。
数据集分类阶段包含垃圾邮件和非垃圾邮件的分类。特征提取阶段包括预处理和标准化。使用Stacked RBM对所选高光进行高亮显示和预处理。最后,将DNN分类器用于短信信息测试的配对排列。
现在,首先,我们收集数据集,并为我们的试验确定亮点或特征。在对高亮部分进行标记之后,我们从消息(伪消息和垃圾邮件)中提取高亮部分,以生成一个元素向量。这些元素向量用于准备和测试目的。
特征提取非常重要,因为它影响短信垃圾邮件位置分类器的表示。这样,分类中使用的特征必须包含价值,不包含任何价值的特征将不被考虑,以保持记忆和时间。
收集的SMS测试将被解析并标记为各种词汇示例。每个短信测试都有独特的词汇示例。这些词汇示例字符串利用转换技术转换为数值性质,例如,字符串转换为数值和表面转换为数值。在完成预处理任务后,从数值算例中提取特征。
将收集到的信息协调在一起;其中部分词例包含缺失的、虚假的和复制的信息。为了排除这些垃圾,预处理步骤必须利用单独的通道进行,如替换缺失的部分,删除重复的,等等。
2022世界杯亚洲区赛程表时间Skyfi实验室帮助学生学习实用技能通过构建真实的项目。
你可以和朋友一起报名,并在家门口领取工具包
你可以向专家学习,建立可行的项目,向世界展示技能,获得最好的工作。
今天就开始吧!
加入来自36个以上国家的25万多名学生,通过建设项目培养实践技能
24小时内发货。使用在线教程进行构建。
保持更新,并基于最新的技术构建项目