安然公司的神秘破产促成了这个项目的发展。该项目旨在调查这个发生在2001年12月的欺诈业务的巨大数据集。该数据集主要包括2000年至2002年期间公司高管收发的数百万封电子邮件。据报道,电子邮件的性质是可疑的,因此任何人都不可能决定性质。
机器学习工具包将发送给您,您可以学习和构建使用教程。你今天就可以免费开始了!
要根据数据的模式来决定其性质,就需要一个机器学习项目。财务信息包含了大量的数值,这对任何人来说都是一项累人的工作。机器学习应用程序将对数据本身进行分类,并给出所需的输出。
项目实施
第一步是探索包含21个变量和146个观察结果的巨大数据。“离群者”调查包括检查一些奇怪的数据模式,比如一些员工被记录下来挣了巨额工资。然后我们必须为接收和发送的电子邮件创建POI。然后选择观察所需的重要特征,这是股票期权,共享收据,贷款预付款,长期激励,工资等。
2022世界杯亚洲区赛程表时间Skyfi实验室帮助学生学习实用的技能通过构建真实的项目。
你可以和朋友一起报名,并在家门口领取工具包
你可以向专家学习,建立可行的项目,向世界展示技能,获得最好的工作。
今天开始!
研究数据的算法是高斯Naïve,支持向量机和决策树分类器。机器学习最关键的部分是优化和实现算法。使用GridSearchCV工具对算法进行调优,该工具在Scikit learn中提供。为了从数据中提取大部分信息,使用了一种验证策略,如嵌套分层洗牌交叉验证。
这种方法将帮助我们从那堆数据中提取出重要的信息。超参数优化是利用参数调优来优化机器学习性能的过程。交叉验证方法将有助于交叉检查数据的模式,并给出所需的结果。树分类器使用交叉验证方法,该方法在tester.py函数中定义。
结果与结论
因此,该应用程序将能够对大约1.67封电子邮件的巨大数据进行分类。数据将通过算法和方法进行处理,从而发现真正的问题。它会显示奇怪的数据,可以被认为是欺诈的元素,它可以在安然的调查中发挥重要的作用。
加入来自36个以上国家的25万多名学生,通过建设项目培养实践技能
24小时内发货。使用在线教程进行构建。
保持更新,并基于最新的技术构建项目