Lanson

V1

2022/06/02阅读:31主题:兰青

大数据笔记(一):大数据启蒙与入门知识

大数据启蒙与入门知识

一、前言

博主语录:一文精讲一个知识点,多了你记不住,一句废话都没有

经典语录:那日看雪,你从未看我,我从未看雪

二、千里之行,始于足下

  • 启蒙很重要
  • 分治思想
  • 单机处理大数据问题
  • 集群分布式处理大数据的辩证

三、分治思想

需求:

  • 我有一万个元素(比如数字或单词)需要存储?
  • 如果查找某一个元素,最简单的遍历方式复杂的是多少?
  • 如果我期望复杂度是O(4)呢?

学习知识的时候要去搞明白它存在的意义,这样学习成本才会低

分而治之的思想很重要,出现在了很多地方:

  • Redis集群
  • ElasticSearch
  • Hbase
  • HADOOP生态无处不在!

四、单机处理大数据问题

需求:

  • 有一个非常大的文本文件,里面有很多很多的行,只有两行一样,它们出现在未知的位置,需要查找到它们
  • 单机,而且可用的内存很少,也就几十兆

解决思路:

  • 假设Io速度是500MB每秒
  • 1T文件读取一遍需要约30分钟
  • 循环遍历需要N次Io时间
  • 分治思想可以使时间为2次io

小贴士:内存寻址比Io寻址快10万倍

思考: 如果让时间变为分钟、秒级别

五、集群分布式处理大数据的辩证

  • 2000台真的比一台速度快吗?
  • 如果考虑分发上传文件的时间呢?
  • 如果考虑每天都有1T数据的产生呢?
  • 如果增量了一年,最后一天计算数据呢?

结论

  • 分而治之 并行计算
  • 计算向数据移动
  • 数据本地化读取
  • 以上这些点是学习大数据技术时需要关心的重点

六、Hadoop之父Doug Cutting

  • Hadoop的发音是 [hædu:p]
  • Cutting儿子对玩具小象的昵称
  • Nutch Lucene
  • Avro
  • Hadoop

七、Hadoop的时间简史

  • 《The Google File System 》 2003年
  • 《MapReduce: Simplified Data Processing on Large Clusters》 2004年
  • 《Bigtable: A Distributed Storage System for Structured Data》 2006年
  • Hadoop由 Apache Software Foundation 于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。
  • 2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。
  • Cloudera公司在2008年开始提供基于Hadoop的软件和服务。
  • 2016年10月hadoop-2.6.5
  • 2017年12月hadoop-3.0.0
  • hadoop.apache.org

八、Hadoop项目/生态

The project includes these modules:

  • Hadoop Common
  • Hadoop Distributed File System (HDFS™)
  • Hadoop YARN
  • Hadoop MapReduce

Other Hadoop-related projects at Apache include:

  • Ambari™
  • Avro™
  • Cassandra™
  • Chukwa™
  • HBase™
  • Hive™
  • Mahout™
  • Pig™
  • Spark™
  • Tez™
  • ZooKeeper™

九、大数据生态

www.cloudera.com

https://www.cloudera.com/Cloudera’s Distribution Including Apache Hadoop CDH is the most complete,tested, and popular distribution of Apache Hadoop and related projects.

----

分类:

后端

标签:

大数据

作者介绍

Lanson
V1

CSDN大数据领域博客专家