美国历史上最大的企业丑闻—安然事件,其规模惊人,若类比于中国农业银行倒闭。安然曾是2000年美国最大的能源公司,然而由于财务舞弊,一年内即宣告破产。我们选择安然事件的数据集作为机器学习项目,主要因为有其员工间的50万封高级管理人员电子邮件数据库,这在现实中是稀缺的大型真实邮件数据集。
观看纪录片《安然:房间里最聪明的人》会让人深感教训,它强调了诚实的重要性。接下来,我们将深入分析这些邮件,寻找可能揭露违法行为的线索。项目并不复杂,只需遵循以下步骤:
安装Python、pip和scikit-learn包,参考相关教程处理可能的问题。
使用git克隆项目资源库,进入tools目录运行startup.py,检查模块并下载安然邮件数据(可能需要耐心等待解压)。
在\ud120-projects\datasets_questions\explore_enron_data.py中,加载并处理安然电子邮件和财务数据,数据以字典形式存储,包含个人特征。
接下来是数据探索练习:
数据集中包含多少个个人(数据点)?
每个人有多少特征可用?
数据中涉及多少嫌疑人(POI)?
根据相关文章列出的嫌疑人名单,共有多少人?
如何计算James Prentice的股票总值?
在安然事件中,谁涉嫌卷走了最多的资金?
如何处理数据中的缺失值(NaN)?
统计哪些员工的工资数据是量化且邮箱地址可用的。
虽然文章末尾提到了赞赏和关注,但在这里我们只关注数据和分析,不再赘述。通过这些练习,你将更深入理解安然事件数据,并掌握机器学习项目的基本操作。