加入收藏 | 设为首页 | 会员中心 | 我要投稿 江门站长网 (https://www.0750zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 服务器 > 安全 > 正文

畅谈大数据平台架构

发布时间:2022-01-17 11:18:32 所属栏目:安全 来源:互联网
导读:近年来,互联网公司中大数据平台的建设和安全一直是热点。笔者计划发两篇文章参与一下讨论,一篇架构+一篇安全。本文不依托于任何一家大厂的平台架构,用通俗的语言介绍一下大数据平台的整体架构。 下面用两个问题开篇:什么是大数据平台?是将互联网产品和后
   近年来,互联网公司中大数据平台的建设和安全一直是热点。笔者计划发两篇文章参与一下讨论,一篇架构+一篇安全。本文不依托于任何一家大厂的平台架构,用通俗的语言介绍一下大数据平台的整体架构。
 
   下面用两个问题开篇:什么是大数据平台?是将互联网产品和后台的大数据系统整合起来,将应用系统产生的数据导入大数据平台,经过计算后导出给应用系统使用。
为什么大数据平台在互联网行业非常重要?大数据平台将互联网应用和大数据产品整合起来,将实时数据和离线数据打通,使数据可以实现更大规模的关联计算,挖掘出数据更大的价值,从而实现数据驱动业务。大数据平台使得大数据技术产品可以落地应用,实现了自身价值。
总体来说:大数据平台可以分为四个部分:数据采集、数据处理、数据输出和任务调度管理。
 
一、数据采集
 
   按照数据源可以分为如下4点:1. 数据库数据;目前比较常用的数据库导入工具有Sqoop和Canal。Sqoop 是一个数据库批量导入导出工具,可以将关系数据库的数据批量导入到 Hadoop,也可以将 Hadoop 的数据导出到关系数据库。Sqoop 适合关系数据库数据的批量导入,如果想实时导入关系数据库的数据,可以选择Canal。Canal是阿里巴巴开源的一个 MySQLbinlog 获取工具,binlog 是 MySQL 的事务日志,可用于MySQL数据库主从复制,Canal 将自己伪装成 MySQL 从库,从 MySQL 获取binlog。
 
2. 日志数据;日志是大数据平台重要数据来源之一,应用程序日志一方面记录各种程序执行状况,一方面记录用户的操作轨迹。Flume 是大数据日志收集常用的工具。Flume 最早由 Cloudera 开发,后来捐赠给 Apache 基金会作为开源项目运营。
 
3. 前端程序埋点;所谓前端埋点,是应用前端为了进行数据统计和分析采集数据。
 
用户的某些前端行为并不会产生后端请求,比如用户页面停留时间、用户浏览速度、用户点选又取消等等。这些信息对于分析用户行为等都很有价值。但是这些数据必须通过前端埋点获得,有些互联网公司会将前端埋点数据当作最主要的大数据来源,用户所有前端行为,都会埋点采集,再辅助结合其他的数据源,构建自己的大数据仓库,进而进行数据分析和挖掘。

(编辑:江门站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!