在2021年成为数据科学家的21个有用的小贴士

发布时间：2021-04-11 16:47:58 所属栏目：评论来源：互联网

导读：发现和探索新的库和包坚持使用你喜欢的工具很容易，但是使用创造新工具是有原因的它们是用来填补现有的空白的。通过花时间探索新的库和包，我发现了一些令人难以置信的工具，它们为我节省了大量时间。以下是其中的一些: Gradio是一个Python包，它允许你用三

发现和探索新的库和包

坚持使用你喜欢的工具很容易，但是使用创造新工具是有原因的——它们是用来填补现有的空白的。通过花时间探索新的库和包，我发现了一些令人难以置信的工具，它们为我节省了大量时间。以下是其中的一些:

Gradio是一个Python包，它允许你用三行代码就可以为你的机器学习模型构建和部署一个web应用。它的作用与Streamlit或Flask相同，但我发现它更容易部署模型。

Pandas Profiling是另一个自动进行探索性数据分析并将其整合到报告中的软件包。我发现当我使用较小的数据集时，这非常有用。最棒的是它只需要一行代码!

Kedro是一个开发工作流工具，允许你创建可移植的ML管道。它将软件工程最佳实践应用到你的代码中，使其可重现性、模块化和文档化良好。

3、高效并不意味着匆忙完成重要的步骤

有些步骤是不能匆忙的。特别是应该花时间深入理解试图解决的业务问题和正在使用的数据。

4、可以说，指标比模型本身更重要

这一点在某种程度上与前一点相联系，因为你必须对你要解决的问题有一个非常好的理解。除了理解这个问题，你还需要弄清楚你想优化的指标，因为归根结底，机器学习是统计和优化的花哨词汇。

举个例子，我可以有一个100%准确率的模型，但如果我试图开发一个异常检测模型，这是没有用的!

5、你的工作表现取决于你的沟通能力

人们会被他们不理解的东西吓倒，并倾向于避开它们。

你必须能够以非技术人员能够理解的方式交流技术术语和建模技术。如果你花时间构建了一个很棒的模型，你就应该花更多时间进行有效的沟通，这样人们才能认可你的努力!

6、学习基础知识，尤其是统计学

数据科学和机器学习本质上是统计学的现代版本。首先通过学习统计，当涉及到学习机器学习的概念和算法时，你会有一个更容易的时间。

7、了解你要解决的问题的各种参数

这可以用一个例子来解释。

在我的一个项目中，我必须开发一个模型来预测一个产品是否必须被RMA 。一开始我以为我的输入是所有的产品，这使得它几乎像一个异常检测问题。

只有在了解业务需求和模型如何使用之后，我才意识到模型的输入是发出RMA的所有产品(客户发送了关于产品问题的电子邮件)。这使数据更加平衡，节省了我很多时间。

8、不要低估SQL的力量

SQL是通用的数据语言——它可以说是任何类型的数据相关专业中最重要的技能，无论你是数据科学家、数据工程师、数据分析师、业务分析师，等等。

SQL不仅在构建管道、提取数据和整理数据方面很重要，而且现在可以使用SQL查询创建机器学习模型。

9、把数据科学当成一项团队运动

作为一名数据科学家，最大的好处之一就是你有很大的自主权。但是，如果你不愿意寻求他人的建议、帮助和反馈，这很容易成为一个弱点。

尽管数据科学具有一定的自主性，但它是一项团队运动。你必须接受来自多个涉众的建议和反馈，包括最终用户、领域专家、数据工程师等。

10、不要浪费时间试图记住所有的东西

要想记住所有的东西实在是太难了。而且这很浪费时间。你最好练习如何用谷歌来回答你的问题，这样你就能得到你需要的答案。

同时，开始使用表格保存真正有用的链接，并且经常回去看看。对我来说，我喜欢包括备忘单、速成课程和我喜欢谷歌的问题的链接。等等

11、快速部署，快速迭代，并不断获得反馈

重要的是要不断地与其他利益相关者沟通，让他们了解你的思考过程，你为模型所做的任何假设并获得反馈。否则的模型可能无法解决手头的问题。

就我个人而言，当与利益相关者(尤其是非编码人员)共享模型时

（编辑：江门站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

发扬探月精神，勇攀科	读书类短视频能不能引
社区团购仍然一团浆糊	可靠简单却激动人心，