使用TypeScript的7个非常好的理由

发布时间：2021-01-31 10:17:17 所属栏目：外闻来源：互联网

导读：在检测垃圾邮件时，情况无疑更为复杂。我们的目标变量为给定电子邮件属于垃圾或者非垃圾。其特征则为电子邮件正文中包含的单词或单词组合。简而言之，我们希望根据文本内容判断出当前邮件属于垃圾邮件的可能性。这里需要强调的是，检测垃圾邮件时使用的各项

在检测垃圾邮件时，情况无疑更为复杂。我们的目标变量为给定电子邮件属于“垃圾”或者“非垃圾”。其特征则为电子邮件正文中包含的单词或单词组合。简而言之，我们希望根据文本内容判断出当前邮件属于垃圾邮件的可能性。

这里需要强调的是，检测垃圾邮件时使用的各项特征不一定彼此独立。例如，我们可以将词汇“烤”、“奶酪”和“三明治”结合起来，其在邮件语境下是否连续存在将表达出完全不同的含义。另一个更明确的例子就是“不”和“好玩”，独立与非独立分析将带来彻底相反的结论。但好消息是，虽然文本数据内的特征独立性往往非常复杂，但只要正确加以配置，朴素贝叶斯分类器同样能够有效处理大部分自然语言处理任务。

但垃圾邮件的检测本身相当复杂。首先，垃圾邮件与正常邮件之间的界限非常模糊，而且评判标准往往会随时间推移而有所变化。截至目前，各家邮件服务商普遍采用自动化垃圾邮件检测方法，而机器学习已经成为其中最有效、也最受青睐的核心选项。虽然我们或多或少还是会看到垃圾邮件，但在机器学习算法的强大支持之下，大多数垃圾邮件已经被从收件箱中直接清除。

那么，机器学习技术是怎么确定哪些是垃圾邮件、而哪些属于正常邮件的?在本文中，我们将具体聊聊其中的工作原理。

挑战所在

垃圾邮件有着多种不同风格。有些只是些市场调研的信息，只是想引诱收件人打开邮件或者传播虚假信息。但也有一些属于伪造型邮件，目标是引导收件者点击恶意链接或下载恶意软件。

但二者的共同点在于，它们都跟收件人的实际需求没有半毛钱关系。垃圾邮件检测算法需要找到可靠的垃圾邮件过滤方法，在屏蔽不必要内容的同时，避免清理掉那些用户希望接收并查看的真实邮件。此外，算法本身还得持续适应新的趋势性动态——例如由新冠疫情引发的群体恐慌、选举消息以及加密货币社区的迅速升温等等。

静态规则适合解决这类需求。例如，如果邮件包含大量抄送方、正文部分极短以及主题部分全部大写，那么其很可能属于垃圾邮件。同样，某些发送方的域名可能已经被列入垃圾邮件黑名单。但在大多数情况下，垃圾邮件检测主要还是依赖于对邮件内容的具体分析。

朴素贝叶斯机器学习

机器学习算法使用统计模型对数据进行分类。在检测垃圾邮件这一使用场景下，经过训练的机器学习模型必须能够根据邮件中的词汇顺序，判断其可能属于垃圾邮件抑或是正常邮件。

不同的机器学习算法都具备一定的垃圾邮件检测能力，但目前最受关注的仍然是“朴素贝叶斯”算法。顾名思义，朴素贝叶斯算法以“贝叶斯定理”为基础，即基于先验知识对事件的概率做出描述。

托波尔表示，随着自然语言处理技术的不断发展，敲击键盘录入文字的形式首先会从医学领域消失。随着键盘的消失，医生和患者能够做到真正的对话，相处时间也将得以延长。

从长远来看，人工智能的数据和算法会不断扩大其可验证的空间，最终变得可复制，当然还是脱离不开人类的监督。

除给医院带来好处以外，人工智能还有其他惊人的潜力。例如，偏远地区的居民可以获得跟城市居民一样的医疗服务;老年人可以获得跟年轻人一样的疗效;行动不便的人可以获得跟健康人一样的定期护理体验;远程医疗等。

此外，未来，人工智能的算法会给予患者更多的尊重。到时，患者的数据不会只掌握在医生和护士手中。作为数据的生产者，患者也可以通过传感器、电子病历等各种方式查看并了解自己的诊疗数据。

米切尔表示，科技的落脚点始终在“人”身上，人工智能技术更多是作为辅助工具，拓宽医生的诊疗照护能力，从而为患者提供更好的医疗服务。人工智能技术能够给医生带来许多帮助，并不会对医生这个职业造成威胁。

（编辑：江门站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

各路厂商花式进局，打	IonQ宣布新的钡量子位
新漫评看，美式民主的	年内跌幅近40%，木头姐