加入收藏 | 设为首页 | 会员中心 | 我要投稿 江门站长网 (https://www.0750zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

深度学习面临的风险有哪些

发布时间:2021-08-23 15:25:31 所属栏目:大数据 来源:互联网
导读:人工智能几乎与计算机本身一样古老,其历史可追溯到上世纪五十年代,但早期的人工智能解决方案与当前的技术套件之间存在着很大的不同。 在早期阶段,计算机科学家曾决心将世界上可用的所有事实和规则全部传授给计算机,希望在计算机中复制人类的推理能力(正
人工智能几乎与计算机本身一样古老,其历史可追溯到上世纪五十年代,但早期的人工智能解决方案与当前的技术套件之间存在着很大的不同。
 
在早期阶段,计算机科学家曾决心将世界上可用的所有事实和规则全部传授给计算机,希望在计算机中复制人类的推理能力(正是推理能力让人类的认知如此强大)。
 
 
但是,当这一领域遇到当今所谓的“常识性问题”时,这一计划却以失败告终,因为人类认识是以隐性知识的形式得以体现,但无法以明确的事实和逻辑陈述来表达这些隐性知识形式。
 
从根本上讲,深度学习算法并不可靠——如果输入的数据超出了训练数据的范围,那么它们就会犯错误,但它们却无法告诉我们何时会发生错误,因此错误通常会被忽视。在许多应用领域中,这并不是一个问题,但这会限制我们使用这些系统的领域。
 
1.灵活性
 
深度学习需依赖训练数据的质量。例如,如果数据中充斥着性别、种族、残疾性别或其它事实的刻板印象,则该技术的最终应用成果将充满偏见和不平等现象。进行历史数据算法方面的训练可能会进一步增强现有的排斥和歧视做法。
 
深度学习系统在很大程度上是复杂难懂的黑匣子,因为不可能完全理解它如何获得特定输出内容(例如,输入数据中的特定特征如何促成输出内容的生成)。
 
因此,人工智能就给我们带来了复杂的道德、法律和安全问题。例如,在法律环境中使用人工智能对人做出重大裁决已经引起了人们对如何确保司法、公正、问责制和透明度的关注。
 
在限制与其固有的局限性相关的问题的同时,还需开展大量的研究来改进深度学习并增强其功能。
 
2.建模问题
 
工业界曾经有一种观点:“在大数据条件下,简单的机器学习模型会比复杂模型更有效。”在实际的大数据应用中,很多最简单的模型得到大量使用的情形也在一定程度上印证着这种观点。
 
但是,随着深度学习的快速发展,人们不得不重新思考这种观点。因为在大数据情形下,往往只有比较复杂或表达能力强的模型,才能充分挖掘海量数据中的信息。随着深度模型变得更强大,从大数据中发掘出的信息往往更有价值。大数据需要深度模型。比如说,语音识别所涉及的是大数据机器学习问题。其声学建模所面临的是高达十亿到千亿级别的样本训练。
 
Google公司在一个语音识别实验中发现,训练后的DNN,训练样本上的预测误差,竟然与测试样本的预测误差基本相当。而在通常模型上,训练样本上的预测误差要明显小于测试样本。这是因为大数据里含有丰富的信息维度,从而让DNN这样高容量的复杂模型处于欠拟合状态。由此也就表明大数据需要深度学习。浅层模型模拟人工经验抽取样本特征,其功能主要是负责分类或预测。在这种情形下,特征的好坏就成为整个系统性能的关键。为此,为了发掘更好的特征,开发人员就得对需要解决的问题有深入的理解。要做到这一点,就需要反复摸索,这在时间上往往要花费数年。这就表明,人工设计样本特征在可扩展性上欠佳。
 
3.工程问题
 
对于从事深度学习技术研发的人来说,首先要解决的是利用并行计算平台来实现海量数据训练的问题。深度学习需要频繁迭代,传统的大数据平台无法适应这一点。随着互联网服务的深入,海量数据训练的重要性日益凸显。而现有的DNN训练技术通常所采用的随机梯度法,不能在多个计算机之间并行。采用CPU进行传统的DNN模型训练,训练时间非常漫长,一般训练声学模型就需要几个月的时间。这样缓慢的训练速度明显不能满足互联网服务应用的需要。目前,提升模型训练速度,成为许多大公司研发者的主攻方向。比如谷歌公司,搭建起了DistBelief这个深度学习并行计算平台。通过采用异步算法,实现随机梯度下降算法的并行化,从而加快模型训练速度。不过,工程方面尽管取得了一定的进展,但对解决各种服务需求来说,仍然有很长的一段路要走。

(编辑:江门站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读