thatdaniel
2022/09/26阅读:22主题:默认主题
学习笔记 - 大数据导论
1 数据仓库
1.1 数据仓库(Data Warehouse)
简称DW。数据仓库顾名思义,是⼀个很⼤的数据存储集合,出于企业的 分析性报告和决策支持⽬的而创建,对多样的业务数据进⾏筛选与整合。它为企业提供⼀定的BI(商业 智能)能力,指导业务流程改进。
1.2 数据集市(Data Mart)
由于数据仓库规模大、周期长,⼀些规模比较小的企业⽤户难以承担。因此,作为快速解决企业当前存在的 实际问题的⼀种有效⽅法,独⽴型数据集市成为⼀种既成事实。
1.3 数据仓库解决的问题
从⼤的⽅向来说解决三类问题 存储, 快速提取, 跨部⻔应⽤ 。

1.4 元数据(MetaData)
主要记录数据仓库中模型的定义,各层级间的映射关系、监控数据仓库的数据状态及 ETL的任务运⾏状态,⼀般会通过元数据质量库(Metadata Repository)来统⼀地存储和管理元数据,其 主要⽬的是使数据仓库的设计、部署、操作和管理能达成协同和⼀致,保证数据质量。 元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿数据仓 库构建的整个过程,直接影响着数据仓库的构建、使⽤和维护。

1.5 数据仓库的特征
面向主题的:传统数据库面向应用组织数据,多个业务系统之间是相互分离的,数据仓库是面向主题的,将业务的数据进行整合;
集成:数仓中数据是从多个数据源获取(内部/外部,文件系统或互联网等)通过数据集成,变成数仓中的数据;
稳定的(不易失的):数仓反应了一段相当长时间的数据结合,较长时间的保留,较少更新,相对稳定;
时变的:反应历史变化,按照时间顺序追加;
1.6 数据仓库与数据库
数据仓库的出现并不是要取代数据库。数仓是数据库已经大量存在的情况下,进一步挖掘数据资源所产生的,是大数据产物,不是简单的大型数据库。数据库中的数据比较新,其中比较久远的数据可以入仓。数仓的使用对象一般是企业内部人员,数据库一般是对外用户,用户级别可达到数亿。

1.7 数据治理
数据是企业 核⼼资产,数据治理能成就企业(特别是银⾏)的未来。它涉及数据质量、数据管理、数据 政策、商业过程管理、⻛险管理等多个领域。
脏数据的种类:

数据治理原则:

2. Hadoop
Hadoop,就是解决⼤数据时代下海量数据的存储和分析计算问题。Hadoop不是指具体的⼀个框架或者组件,它是Apache软件基⾦会下⽤Java语⾔开发的⼀个开源分布式 计算平台,实现在⼤量计算机组成的集群中对海量数据进⾏分布式计算,适合⼤数据的分布式存储和计 算,从⽽有效弥补了传统数据库在海量数据下的不⾜。
2.1 Hadoop的优点
⾼可靠性:Hadoop按位存储和处理数据的能⼒值得⼈们信赖 ;
⾼扩展性:Hadoop是在可⽤的计算机集群间分配数据并完成计算任务,这些集群可以⽅便地扩展 到数以千计的节点中 ;
⾼效性:Hadoop能够在节点之间动态地移动数据,并保持各个节点的动态平衡,因此处理速度⾮ 常快 ;
⾼容错性:Hadoop能够⾃动保存数据的多个副本,并且能够⾃动将失败的任务重新分配 低成本:Hadoop是开源的,项⽬的软件成本因⽽得以⼤⼤降低;
2.2 生态圈

2.3 分布式存储(HDFS)
HDFS就是将⽂件切分成固定⼤⼩的数据块block(⽂件严格按照字节来切,所以若是最后切得省⼀点点,也 算单独⼀块,hadoop2.x默认的固定⼤⼩是128MB,不同版本,默认值不同.可以通过Client端上传⽂件设置)
HDFS 的优点: 分布式存储;⽀持分布式和并⾏计算;⽔平可伸缩性;
2.4 分布式计算(MapReduce)
MapReduce为海量的数据提供了计算。 MapReduce从它名字上来看就⼤致可以看出个缘由,两个动词Map和Reduce,“Map(展开)”就是将 ⼀个任务分解成为多个任务,“Reduce”就是将分解后多任务处理的结果汇总起来,得出最后的分析结 果。MapReduce采⽤"分⽽治之"的思想,简单地说,MapReduce就是"任务的分解与结果的汇总"。
作者介绍