值得关注的4个大数据趋势

发布时间：2020-11-15 14:02:39 所属栏目：传媒来源：互联网

导读：虽然有传言说Kafka背后的公司Confluent的估值为5B美元，但我们听说该解决方案难以大规模实施和管理。我们被告知，Zookeeper尤其难以管理，尽管该团队正在更换此组件，但可以改善用户体验。此外，我们听说维护可能会遇到挑战，因为主题数量会迅速增加，因此

虽然有传言说Kafka背后的公司Confluent的估值为5B美元，但我们听说该解决方案难以大规模实施和管理。我们被告知，Zookeeper尤其难以管理，尽管该团队正在更换此组件，但可以改善用户体验。此外，我们听说维护可能会遇到挑战，因为主题数量会迅速增加，因此团队必须一致地平衡和升级实例。

诸如Apache Pulsar之类的新流媒体方法具有两层体系结构，其中服务和存储可以分别扩展。这对于具有无限数据保留潜力的用例来说非常重要，例如记录事件可以永久存在的情况。此外，如果您必须存储所有消息，则不需要将所有内容都存储在高性能磁盘中。使用Pulsar，您可以将较旧的数据移至S3，而Kafka则无法。还有自动平衡功能，这是AWS Kinesis无法做到的。我们还听说用户对Pulsar比Kafka更轻的客户端模型表示了同情。除了Kafka和Flink，还有其他系统，例如NATS和Vectorized。

对于实时数据处理，Apache Flink是最著名的。当元素出现时，Flink会对其进行处理，而不是像Spark流这样的微型批次中对其进行处理。微批量方法的缺点是批量可能非常庞大，需要大量资源进行处理。对于不一致或突发的数据流，这可能尤其痛苦。 Flink的另一个优点是，您无需通过反复试验就可以找到适用于微型批次的适当配置。如果配置生成的处理时间超过其累积时间，则存在问题。然后批次开始排队，最终所有处理都将停止。 Materialise团队还提供了更新的流引擎，例如Confluent KSQL和Timely Dataflow。

ResearchAndMarkets预测，到2023年，全球事件流处理(ESP)市场将从2018年的6.9亿美元增长到$ 1.8B，在此期间的复合年增长率为22%。根据与买家的对话，我们认为市场的增长速度快于此。

大多数数据驱动型公司都利用商业智能工具(如Looker，Tableau和Superset)来跟踪关键的KPI。尽管这些操作系统可以在度量标准超过特定阈值时主动发送警报，但分析人员仍然需要深入研究细节以确定KPI为何更改。诊断仍然相当手动。

我们看到了一套新的解决方案，可以使每个企业了解推动其关键指标的因素。运营分析平台可帮助团队超越仪表板，了解其关键指标正在发生变化的原因。通过利用机器学习，解决方案可以确定导致KPI更改的特定因素。我们认为，在这个领域中存在机会，因为企业需要围绕哪些基本因素提供指导。

我们将生态系统分为三类：1)异常检测/根本原因分析;2)趋势检测;和3)数据洞察力。异常通常会急剧增加/减少，并在单一度量标准级别上运行。趋势检测可捕获异常，但更重要的是可捕获基础结构的漂移和变化。数据洞察力从大量数据中发现了意外情况。

有几家公司提供KPI可观察性。 Anodot，Lightup和Orbiter专注于异常检测和引起该变化的潜在因素。 Falkon和Sisu专注于异常检测和趋势检测。 Thoughtspot SpotAI和Outlier尝试从大量数据中产生最重要的见解，而无需人工监督/配置。在下面的展览中，我们将所有相关类别的供应商都包括在内。

根据Alation的说法，数据目录是"元数据的集合，结合了数据管理和搜索工具，可以帮助分析师和其他数据用户找到所需的数据，充当可用数据的清单，并提供评估信息。预期用途的适用性数据。"目录捕获有关数据的丰富信息，包括其应用程序上下文，行为和更改。我们对数据目录感兴趣，因为它们支持自助数据访问，从而使个人和团队受益。借助数据目录，分析师可以避免与IT部门合作来接收数据的缓慢过程，并且可以自行发现相关数据，从而提高了生产率。此外，数据目录可以通过收集有关数据使用，数据访问和PII的信息来帮助实现合规性。

当前，大多数公司没有识别"脏数据"的过程或技术。通常，必须有人发现错误。然后，数据平台或工程团队必须手动识别错误并进行修复。这是一项耗时且乏味的工作(占用了数据科学家80%的时间)，这也是数据科学家最抱怨的问题。

高质量的数据对于公司能否依赖它至关重要，而且不良数据的风险也很大。尽管苛刻的观察结果"垃圾填入，垃圾填埋"困扰了几代人的分析和决策，但它对机器学习(ML)提出了特殊警告，因为开发模型所花费的时间很长。如果ML工程师花费时间培训并提供使用不良数据构建的ML模型，则错误的ML模型将在生产中无效，并且可能对用户体验和收入产生负面的间接影响。 O'Reilly的一项调查发现，那些拥有成熟AI实践(通过生产模型的时间来衡量)的人将"缺乏数据或数据质量问题"作为阻碍进一步采用ML的主要瓶颈。

（编辑：江门站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

10万份猫窝秒空，麦当	私域用户过百万，波奇
网友将手机卡命名为无	PyTorch核心开发者灵魂