加入收藏 | 设为首页 | 会员中心 | 我要投稿 江门站长网 (https://www.0750zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

初学数据科学所希望知道的5件事

发布时间:2020-11-13 12:07:55 所属栏目:动态 来源:互联网
导读:从我开始学习数据科学的第一天到如今,我经常体会到负担综合症,但我知道那是完全正常的。为什么对数据科学家来说,负担综合症很常见也很正常? 数据科学是一个非常模糊的术语,它是一个跨学科的领域,包括统计学、程序设计、数学、商业理解、数据工程等。除

从我开始学习数据科学的第一天到如今,我经常体会到负担综合症,但我知道那是完全正常的。为什么对数据科学家来说,负担综合症很常见也很正常?

  • “数据科学”是一个非常模糊的术语,它是一个跨学科的领域,包括统计学、程序设计、数学、商业理解、数据工程等。除此之外,数据科学家还有很多同义词(数据分析员、数据工程师、研究科学家、应用科学家)。你永远无法成为数据科学所涵盖所有领域的专家,你也不应该觉得自己必须做到这一点。
  • 与编程和技术领域的其他学科一样,数据科学也在不断发展。20年前,Pandas还没有被创造出来。5年前,Tensorflow才发布。总会不断有需要你学习的新技术出现。
  • 你不可能在所有领域成为专家,这意味着总会有人在你花更少时间的事情上做得更好,这没有什么关系。

作为一名数据科学家,你时常会感觉到负担综合症,放轻松,专注于自己的事业。

大量数据科学包和工具让你得以组建适合自己的个性化数据科学工具箱。然而,这也使人易于在一条错误的路上一去不复返:过于追求软件包和工具的学习数量。精通一些工具比使用不熟练的工具做表面工作要好得多。在简历中列出所有技能和工具不应该是最终目标!

举个例子,这些数据可视化软件包都很优质:Matplotlib、Seaborn、Plotly、Bokeh等等,但你不需要花时间去掌握所有,这是在浪费宝贵而有限的时间。

如果你想用Pandas来处理数据,那就要好好地利用它。如果你更喜欢NumPy,那就用NumPy。的确,理想情况下你能同时擅长Pandas和NumPy,但我认为,专注其中一个并精通它比左顾右盼要好得多。

同样的道理也适用于:

  • Python与R
  • Tensorflow与 Pythorch
  • Postgresql与MySQL

我建议你建立自己的数据科学工具箱并专注于此,精通5个工具比不熟练使用20个工具要好。

了解各种机器学习算法仅占数据科学的一小部分

就个人而言,数据科学吸引我的是所有不同的机器学习模型,它们如何工作以及它们如何发挥效用。我花了至少六个月的时间来学习和尝试几种不同的机器学习模型,才意识到它是数据科学家所需了解内容的一小部分。

数据建模只是整个机器学习生命周期的一部分。你还需要了解数据收集,数据准备,模型评估,模型部署和模型调优。在实际项目中,大部分时间都消耗在了数据准备而不是数据建模(机器学习建模)上。

在线训练营存在一些问题。就内容的深度而言,它们往往非常浅显。不仅如此,而且它们还容易使人对所学材料产生错误的理解。

它们也不太适合保留学习信息。花费越多的时间学习某个课题,就越想留存相关信息。但这些训练营,尤其是那些宣传为“在5周内成为专家”的训练营,没有给你足够的时间来真正沉淀所学的知识。

他们通常没有足够的挑战性。许多训练营和课程只是要求你遵循并重复他们的代码,而不进行批判性或深入性的思考。

而个人数据科学项目使你不得不独自批判性地思考问题和解决方案,这是一种很好的学习方法。这样学到的知识远超过任何训练营所教授的。你将学会如何提出正确的问题,如何用Google查询正确的问题,如何构建自己想要的数据科学项目,如何变得有条理等。

(编辑:江门站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!