分析

使用数据分析检测假新闻

你认为网上流传的消息都是真实的吗?不客气。假新闻已经成为数字世界的一个严重问题。这一消息像野火一样蔓延开来,没有限制,迅速影响了数百万人的生活。那么我们该如何应对假新闻呢?这可不像求助于一个简单的事实核查员那么容易。这样的新闻是有意用一个故事一个故事的基础来写的。Python来帮助我们了。

阅读更多…

使用数据分析项目检测假新闻 希望在Analytics上构建项目?:

Analytics Kit将发送给您,您可以学习和构建使用教程。你今天就可以免费开始了!

1.使用R进行数据分析


项目描述

在深入了解假新闻检测项目之前,我们先来熟悉一下与这个项目相关的一些术语。

为了获得关于新闻的统计数据,我们需要计算该单词在文档中的出现次数。但是单词计数的一个问题是,像“the”这样的单词在文档中出现了很多次,但它的计数在编码向量中没有意义。

对此的一个解决方案是计算词频。用于此的方法是TF-IDF即“术语频率-反向文档频率”。

  • 词的频率:它指示单词在文档中出现的次数。数值越高意味着该单词出现的次数越多,以此类推。
  • 逆文档频率:IDF衡量这个词在同一作者的其他文章中的重要性。在一个文档中出现多次的单词也可能在其他文档中出现多次。

简而言之,TF-IDF是一个词频计数器,它试图突出显示有趣的单词。TF-IDF令牌化文档并编码新文档。TF-IDF Vectorizer将文档中的原始数据转换为TF-IDF矩阵。

本项目使用的模块

  • numpy: numpy是一个包,代表“Numeric Python”。它是科学计算和计算的图书馆。它被用于线性代数,随机数能力,傅里叶变换和处理多维数组。Numpy还被用作通用数据的多维容器。它是一个复杂的、高性能的多维数组对象处理器。
  • Pandas: Pandas是一个建立在Numpy之上的开源库。这意味着要运行pandas,您需要在机器上安装Numpy。它用于在Python中执行数据操作。Pandas提供了一种简单而有效的方法来对数据进行切片、合并、连接和重构。
  • Sklearn:它是一个开源的Python库,包含了广泛的机器学习、预处理、交叉验证和可视化算法。

分析的最新项目

想要培养分析学的实用技能?检查我们最新的项目,并开始免费学习


项目实施

本项目使用的数据集是news.csv。数据集的形状为7796*4。

该数据集有四列:第一列标识新闻,第二列和第三列是标题和文本,第四列是表示FAKE或REAL的标签。

按照以下步骤完成项目:

  • 进行必要的导入。
  • 将数据读入数据帧并获得数据的形状。
  • 现在从DataFrame获取标签。
  • 将数据集分割为训练和测试模型。
  • 初始化TfidfVectorizer,使用英文停止词和最大文档频率0.7。
  • 初始化PassiveAggressiveClassifier。
  • 最后打印混淆矩阵,得到真假阴性和阳性的数据。
  • 项目完成后,准确率达到92.82%。

软件要求:Pycharm Community Edition。

编程语言和模块: Python3, Numpy-module, pandas, sklearn。


如何构建分析项目 你知不知道

2022世界杯亚洲区赛程表时间Skyfi实验室帮助学生学习实用的技能通过构建真实的项目。

你可以和朋友一起报名,并在家门口领取工具包

你可以向专家学习,建立可行的项目,向世界展示技能,获得最好的工作。
今天开始!


使用数据分析开发假新闻检测所需工具包:
通过使用数据分析进行假新闻检测,你将学到的技术:
使用数据分析检测假新闻
2022世界杯亚洲区赛程表时间 最后更新:2022-04-16


订阅以获取更多项目想法

保持更新,并基于最新的技术构建项目