做数据分析需要关注的几件事

发布时间：2021-01-31 10:15:28 所属栏目：外闻来源：互联网

导读：目前也有不少值得一试的开源数据集，例如加利福尼亚大学欧文分校的垃圾邮件数据库数据集以及安然垃圾邮件数据集。但请注意，这些数据集仅供教育及测试使用，对于生产级机器学习模型的创建没有太大实际意义。自行托管电子邮件服务器的供应商可以创建起专门的

目前也有不少值得一试的开源数据集，例如加利福尼亚大学欧文分校的垃圾邮件数据库数据集以及安然垃圾邮件数据集。但请注意，这些数据集仅供教育及测试使用，对于生产级机器学习模型的创建没有太大实际意义。

自行托管电子邮件服务器的供应商可以创建起专门的数据集，并根据具体行业及用语对机器学习模型加以调整。例如，金融服务类企业的数据集在内容上将与建筑类企业存在巨大差异。

训练机器学习模型

尽管近年来，自然语言处理技术取得了令人振奋的进步，但人工智能算法本身仍然无法像人类那样顺畅理解语言内容。

因此，开发垃圾邮件检测类机器学习模型的一大关键步骤，在于准备数据以进行统计处理。在训练朴素贝叶斯分类器之前，必须通过特定步骤整理出垃圾邮件与正常邮件的语料库。

考虑一套包含以下语句的数据集：

Steve想为聚会买点烤芝士三明治
Sally正为晚饭烧烤鸡肉
我买了奶油芝士做蛋糕

在训练模型以及随后对新数据进行预测时，我们首先需要对文本数据进行“令牌化”，而后将其添加到机器学习算法当中。在本质上，令牌化是指将文本数据拆分成较小的部分。如果您将上述数据集按用词进行拆分，那么将获得以下词汇。请注意，每个词只出现一次。

Steve、想为、聚会、买、烤、芝士、三明治、Sally、正、晚饭、烧烤、鸡肉、我、买了、奶油、蛋糕

我们可以删除掉那些垃圾邮件和正常邮件中都会出现的词汇，因为这些词汇没法帮我们区分出邮件本身的性质。这些被称为“停用词”，常见的例子包括这、那、是、要、某等。在以上数据集中，删除停用词之后，我们的词汇量将快速缩减为5个。

我们还可以使用其他技术，例如“词干提取”与“词条化”等，借此将词汇转换为更基础的形式。继续来看我们的示例数据集，其中的“买了”和“买”有着相同的词根，“烤”和“烧烤”也有相同的词根。通过这样的处理，我们可以进一步简化机器模型。

在某些情况下，大家还可以考虑使用双词(包含两个词的令牌)、三词(包含三个词的令牌)或者更长的N字令牌。例如，使用双词形式对上述数据集进行标记，将得到“芝士蛋糕”表达;三词形式则会带来“烤芝士三明治”表达。

在数据处理完成之后，您将获得一份术语表，这些术语定义了机器学习模型中的各项特征。接下来，您需要确定哪些词汇或者词汇序列(如果使用N词表达)与垃圾邮件及正常邮件相关。

在训练数据集上训练机器学习模型时，需要根据不同术语在垃圾邮件及正常邮件中出现的次数为其分配权重。例如，如果“赢大奖”属于其中一项特征，而且只出现在垃圾邮件当中，那么任何具有此特征的邮件都很可能被归类为垃圾邮件。与之对应，如果“重要会议”只出现在正常电子邮件中，那么任何具有此特征的邮件都很可能被归类为正常邮件。

关于数据

垃圾邮件检测属于有监督机器学习问题。这意味着您需要为机器学习模型提供大量垃圾邮件与正常消息示例，帮助其从中找出相应模式以准确将二者区分开来。

大多数电子邮件服务商都拥有自己的标记邮件数据集。例如，每当您在Gmail账户内将一封电子邮件标记为垃圾邮件，谷歌方面就会使用这部分数据训练自己的机器学习算法。(请注意，谷歌使用的垃圾邮件检测算法要比本文示例复杂得多，而且他们还拥有一套用于防止「报告垃圾邮件」功能遭到滥用的完善机制。)

（编辑：江门站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

各路厂商花式进局，打	IonQ宣布新的钡量子位
新漫评看，美式民主的	年内跌幅近40%，木头姐