在2021年成为数据科学家的21个有用的小贴士
发现和探索新的库和包 坚持使用你喜欢的工具很容易,但是使用创造新工具是有原因的——它们是用来填补现有的空白的。通过花时间探索新的库和包,我发现了一些令人难以置信的工具,它们为我节省了大量时间。以下是其中的一些: Gradio是一个Python包,它允许你用三行代码就可以为你的机器学习模型构建和部署一个web应用。它的作用与Streamlit或Flask相同,但我发现它更容易部署模型。 Pandas Profiling是另一个自动进行探索性数据分析并将其整合到报告中的软件包。我发现当我使用较小的数据集时,这非常有用。最棒的是它只需要一行代码! Kedro是一个开发工作流工具,允许你创建可移植的ML管道。它将软件工程最佳实践应用到你的代码中,使其可重现性、模块化和文档化良好。 3、高效并不意味着匆忙完成重要的步骤 有些步骤是不能匆忙的。特别是应该花时间深入理解试图解决的业务问题和正在使用的数据。 4、可以说,指标比模型本身更重要 这一点在某种程度上与前一点相联系,因为你必须对你要解决的问题有一个非常好的理解。除了理解这个问题,你还需要弄清楚你想优化的指标,因为归根结底,机器学习是统计和优化的花哨词汇。 举个例子,我可以有一个100%准确率的模型,但如果我试图开发一个异常检测模型,这是没有用的! 5、你的工作表现取决于你的沟通能力 人们会被他们不理解的东西吓倒,并倾向于避开它们。 你必须能够以非技术人员能够理解的方式交流技术术语和建模技术。如果你花时间构建了一个很棒的模型,你就应该花更多时间进行有效的沟通,这样人们才能认可你的努力! 6、学习基础知识,尤其是统计学 数据科学和机器学习本质上是统计学的现代版本。首先通过学习统计,当涉及到学习机器学习的概念和算法时,你会有一个更容易的时间。 7、了解你要解决的问题的各种参数 这可以用一个例子来解释。 在我的一个项目中,我必须开发一个模型来预测一个产品是否必须被RMA 。一开始我以为我的输入是所有的产品,这使得它几乎像一个异常检测问题。 只有在了解业务需求和模型如何使用之后,我才意识到模型的输入是发出RMA的所有产品(客户发送了关于产品问题的电子邮件)。这使数据更加平衡,节省了我很多时间。 8、不要低估SQL的力量 SQL是通用的数据语言——它可以说是任何类型的数据相关专业中最重要的技能,无论你是数据科学家、数据工程师、数据分析师、业务分析师,等等。 SQL不仅在构建管道、提取数据和整理数据方面很重要,而且现在可以使用SQL查询创建机器学习模型。 9、把数据科学当成一项团队运动 作为一名数据科学家,最大的好处之一就是你有很大的自主权。但是,如果你不愿意寻求他人的建议、帮助和反馈,这很容易成为一个弱点。 尽管数据科学具有一定的自主性,但它是一项团队运动。你必须接受来自多个涉众的建议和反馈,包括最终用户、领域专家、数据工程师等。 10、不要浪费时间试图记住所有的东西 要想记住所有的东西实在是太难了。而且这很浪费时间。你最好练习如何用谷歌来回答你的问题,这样你就能得到你需要的答案。 同时,开始使用表格保存真正有用的链接,并且经常回去看看。对我来说,我喜欢包括备忘单、速成课程和我喜欢谷歌的问题的链接。等等 11、快速部署,快速迭代,并不断获得反馈 重要的是要不断地与其他利益相关者沟通,让他们了解你的思考过程,你为模型所做的任何假设并获得反馈。否则的模型可能无法解决手头的问题。
就我个人而言,当与利益相关者(尤其是非编码人员)共享模型时 (编辑:江门站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |