加入收藏 | 设为首页 | 会员中心 | 我要投稿 江门站长网 (https://www.0750zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

在2021年成为数据科学家的21个有用的小贴士

发布时间:2021-04-11 16:47:58 所属栏目:评论 来源:互联网
导读:发现和探索新的库和包 坚持使用你喜欢的工具很容易,但是使用创造新工具是有原因的它们是用来填补现有的空白的。通过花时间探索新的库和包,我发现了一些令人难以置信的工具,它们为我节省了大量时间。以下是其中的一些: Gradio是一个Python包,它允许你用三

发现和探索新的库和包

坚持使用你喜欢的工具很容易,但是使用创造新工具是有原因的——它们是用来填补现有的空白的。通过花时间探索新的库和包,我发现了一些令人难以置信的工具,它们为我节省了大量时间。以下是其中的一些:

Gradio是一个Python包,它允许你用三行代码就可以为你的机器学习模型构建和部署一个web应用。它的作用与Streamlit或Flask相同,但我发现它更容易部署模型。

Pandas Profiling是另一个自动进行探索性数据分析并将其整合到报告中的软件包。我发现当我使用较小的数据集时,这非常有用。最棒的是它只需要一行代码!

Kedro是一个开发工作流工具,允许你创建可移植的ML管道。它将软件工程最佳实践应用到你的代码中,使其可重现性、模块化和文档化良好。

3、高效并不意味着匆忙完成重要的步骤

有些步骤是不能匆忙的。特别是应该花时间深入理解试图解决的业务问题和正在使用的数据。

4、可以说,指标比模型本身更重要

这一点在某种程度上与前一点相联系,因为你必须对你要解决的问题有一个非常好的理解。除了理解这个问题,你还需要弄清楚你想优化的指标,因为归根结底,机器学习是统计和优化的花哨词汇。

举个例子,我可以有一个100%准确率的模型,但如果我试图开发一个异常检测模型,这是没有用的!

5、你的工作表现取决于你的沟通能力

人们会被他们不理解的东西吓倒,并倾向于避开它们。

你必须能够以非技术人员能够理解的方式交流技术术语和建模技术。如果你花时间构建了一个很棒的模型,你就应该花更多时间进行有效的沟通,这样人们才能认可你的努力!

6、学习基础知识,尤其是统计学

数据科学和机器学习本质上是统计学的现代版本。首先通过学习统计,当涉及到学习机器学习的概念和算法时,你会有一个更容易的时间。

7、了解你要解决的问题的各种参数

这可以用一个例子来解释。

在我的一个项目中,我必须开发一个模型来预测一个产品是否必须被RMA 。一开始我以为我的输入是所有的产品,这使得它几乎像一个异常检测问题。

只有在了解业务需求和模型如何使用之后,我才意识到模型的输入是发出RMA的所有产品(客户发送了关于产品问题的电子邮件)。这使数据更加平衡,节省了我很多时间。

8、不要低估SQL的力量

SQL是通用的数据语言——它可以说是任何类型的数据相关专业中最重要的技能,无论你是数据科学家、数据工程师、数据分析师、业务分析师,等等。

SQL不仅在构建管道、提取数据和整理数据方面很重要,而且现在可以使用SQL查询创建机器学习模型。

9、把数据科学当成一项团队运动

作为一名数据科学家,最大的好处之一就是你有很大的自主权。但是,如果你不愿意寻求他人的建议、帮助和反馈,这很容易成为一个弱点。

尽管数据科学具有一定的自主性,但它是一项团队运动。你必须接受来自多个涉众的建议和反馈,包括最终用户、领域专家、数据工程师等。

10、不要浪费时间试图记住所有的东西

要想记住所有的东西实在是太难了。而且这很浪费时间。你最好练习如何用谷歌来回答你的问题,这样你就能得到你需要的答案。

同时,开始使用表格保存真正有用的链接,并且经常回去看看。对我来说,我喜欢包括备忘单、速成课程和我喜欢谷歌的问题的链接。等等

11、快速部署,快速迭代,并不断获得反馈

重要的是要不断地与其他利益相关者沟通,让他们了解你的思考过程,你为模型所做的任何假设并获得反馈。否则的模型可能无法解决手头的问题。

就我个人而言,当与利益相关者(尤其是非编码人员)共享模型时

(编辑:江门站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读