SQL on Hadoop在快手大数据平台的实践与优化

发布时间：2019-06-02 10:28:19 所属栏目：MySql教程来源：佚名

导读：快手大数据架构工程师钟靓近日在A2M人工智能与机器学习创新峰会分享了题为《SQL on Hadoop在快手大数据平台的实践与优化》的演讲，主要从SQL on Hadoop介绍、快手SQL on Hadoop平台概述、SQL on Hadoop在快手的使用经验和改进分析、快手SQL on Hadoop的未

快手大数据架构工程师钟靓近日在A2M人工智能与机器学习创新峰会分享了题为《SQL on Hadoop在快手大数据平台的实践与优化》的演讲，主要从SQL on Hadoop介绍、快手SQL on Hadoop平台概述、SQL on Hadoop在快手的使用经验和改进分析、快手SQL on Hadoop的未来计划四方面介绍了SQL on Hadoop架构。

01SQL on Hadoop介绍

SQL on Hadoop，顾名思义它是基于Hadoop生态的一个SQL引擎架构，我们其实常常听到Hive、SparkSQL、Presto、Impala架构，接下来，我会简单的描述一下常用的架构情况。

SQL on Hadoop-HIVE

HIVE，一个数据仓库系统。它将数据结构映射到存储的数据中，通过SQL对大规模的分布式存储数据进行读、写、管理。

SQL on Hadoop在快手大数据平台的实践与优化

根据定义的数据模式，以及输出Storage，它会对输入的SQL经过编译、优化，生成对应引擎的任务，然后调度执行生成的任务。

HIVE当前支持的引擎类型有：MR、SPARK、TEZ。

SQL on Hadoop在快手大数据平台的实践与优化

基于HIVE本身的架构，还有一些额外的服务提供方式，比如HiveServer2与MetaStoreServer都是Thrift架构。

此外，HiveServer2提供远程客户端提交SQL任务的功能，MetaStoreServer则提供远程客户端操作元数据的功能。

SQL on Hadoop在快手大数据平台的实践与优化

SQL on Hadoop介绍-SPARK

Spark，一个快速、易用，以DAG作为执行模式的大规模数据处理的统一分析引擎，主要模块分为SQL引擎、流式处理、机器学习、图处理。

SQL on Hadoop在快手大数据平台的实践与优化

SQL on Hadoop介绍-SPARKSQL

SPARKSQL基于SPARK的计算引擎，做到了统一数据访问，集成Hive，支持标准JDBC连接。SPARKSQL常用于数据交互分析的场景。

SQL on Hadoop在快手大数据平台的实践与优化

SPARKSQL的主要执行逻辑，首先是将SQL解析为语法树，然后语义分析生成逻辑执行计划，接着与元数据交互，进行逻辑执行计划的优化，最后，将逻辑执行翻译为物理执行计划，即RDD lineage，并执行任务。

SQL on Hadoop在快手大数据平台的实践与优化

SQL on Hadoop介绍-PRESTO

PRESTO，一个交互式分析查询的开源分布式SQL查询引擎。

因为基于内存计算，PRESTO的计算性能大于有大量IO操作的MR和SPARK引擎。它有易于弹性扩展，支持可插拔连接的特点。

业内的使用案例很多，包括FaceBook、AirBnb、美团等都有大规模的使用。

SQL on Hadoop在快手大数据平台的实践与优化

SQL on Hadoop介绍-其它业内方案

SQL on Hadoop在快手大数据平台的实践与优化

我们看到这么多的SQL on Hadoop架构，它侧面地说明了这种架构比较实用且成熟。利用SQL on Hadoop架构，我们可以实现支持海量数据处理的需求。

02快手SQL on Hadoop平台概述

快手SQL on Hadoop平台概览—平台规模

SQL on Hadoop在快手大数据平台的实践与优化

查询平台每日SQL总量在70万左右，DQL的总量在18万左右。AdHoc集群主要用于交互分析及机器查询，DQL平均耗时为300s;AdHoc在内部有Loacl任务及加速引擎应用，所以查询要求耗时较低。

ETL集群主要用于ETL处理以及报表的生成。DQL平均耗时为1000s，DQL P50耗时为100s，DQL P90耗时为4000s，除上述两大集群外，其它小的集群主要用于提供给单独的业务来使用。

快手SQL on Hadoop平台概览—服务层次

SQL on Hadoop在快手大数据平台的实践与优化

服务层是对上层进行应用的。在上层有四个模块，这其中包括同步服务、ETL平台、AdHoc平台以及用户程序。在调度上层，同样也有四方面的数据，例如服务端日志，对它进行处理后，它会直接接入到HDFS里，我们后续会再对它进行清洗处理;服务打点的数据以及数据库信息，则会通过同步服务入到对应的数据源里，且我们会将元数据信息存在后端元数据系统中。

（编辑：江门站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页

登录Facebook与Twitte	Linux下mysql忘记管理
MySQL 存储过程空结果	mysql中通过关联表upd