The Future

Stay hungry,stay foolish.


  • 首页

  • 归档125

  • 分类15

  • 标签63

  • 干货

  • 关于

  • 搜索

RDD原理

发表于 2018-04-25 | 更新于 2018-08-15 | 分类于 大数据 | 评论数: | 阅读次数:

RDD概念

RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。

阅读全文 »

SparkCore调优

发表于 2018-04-25 | 更新于 2018-08-15 | 分类于 大数据 | 评论数: | 阅读次数:

开发角度

  1. 原则一:避免创建重复的RDD
  2. 原则二:尽可能用同一个RDD
  3. 原则三:对多次使用的RDD进行持久化
    如何选择一种最合适的持久化策略
    • MEMORY_ONLY
    • MEMORY_ONLY_SER
    • MEMORY_AND_DISK_SER
    • 不考虑:DISK_ONLY和_2后缀
      阅读全文 »

Hive环境搭建

发表于 2018-04-03 | 更新于 2018-08-15 | 评论数: | 阅读次数:

Hive安装

内嵌Dervy版本

  1. 上传安装包 apache-hive-2.3.2-bin.tar.gz
  2. 解压安装包 tar -zxvf apache-hive-2.3.2-bin.tar.gz -C /home/hadoop/apps/
  3. 进入到 bin 目录,运行 hive 脚本:[hadoop@hadoop02 bin]$ ./hive
    注意: 这时候一般会报错:Terminal initialization failed; falling back to unsupported,是因为 hadoop(/root/apps/hadoop-2.6.5/share/hadoop/yarn/lib)集群的 jline-0.9.94.jar 包版本 过低,替换成 hive/lib 中的 jline-2.12.jar 包即可。记住:所有 hdfs 节点都得替换 hadoop-2.6.5/share/hadoop/yarn/lib/jline-0.9.4.jar 替换成 jline-2.12.jar 如果报错就按照此方式解决,没有报错就不用管,在使用新的 hadoop-2.7.5 版本中已经不 存在这个问题。所以不用关注。
    阅读全文 »

Hive数据存储

发表于 2018-04-03 | 更新于 2018-08-15 | 分类于 大数据 | 评论数: | 阅读次数:
  1. 、Hive 的存储结构包括数据库、表、视图、分区和表数据等。数据库,表,分区等等都对 应 HDFS 上的一个目录。表数据对应 HDFS 对应目录下的文件。
  2. Hive 中所有的数据都存储在 HDFS 中,没有专门的数据存储格式,因为 Hive 是读模式 (Schema On Read) ,可支持 TextFile,SequenceFile,RCFile 或者自定义格式等
    阅读全文 »

Hive架构

发表于 2018-04-03 | 更新于 2018-08-15 | 分类于 大数据 | 评论数: | 阅读次数:


阅读全文 »

Hive基本概念

发表于 2018-04-03 | 更新于 2018-08-15 | 分类于 大数据 | 评论数: | 阅读次数:

Hive的基本概念

  1. 开发者: Facebook实现并开源
  2. 作用: 基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供HQL(Hive SQL)查询功能,底层数据是存储在HDFS上。
  3. 本质: 将SQL语句转换为MapReduce任务运行,使不熟悉Mapreduce的用户很方便地利用HQL处理和计算HDFS上的结构化的数据,使用于离线的批量数据计算。
    阅读全文 »

hbase底层原理

发表于 2018-04-03 | 更新于 2018-08-15 | 分类于 大数据 | 评论数: | 阅读次数:

1、系统架构

image

client职责

  1. HBase有两张特殊表
    .METE.:记录了用户所有表拆分出来的Region映射信息,.META.可以有多个Region
    -ROOT-:记录了.METE.表的Region信息,-ROOT-只有一个Region,无论如何不会分裂
  2. Client访问用户数据过程:
    1、首先访问zookeeper,找到-root-表的region所在的位置
    2、然后访问-ROOT-表,接着访问.META.表
    3、最后才能找到用户数据的位置去访问
    中间需要多次网络操作,不过Client端会做cache缓存
    阅读全文 »

wordcount求共同好友代码实现

发表于 2018-03-25 | 更新于 2018-08-15 | 分类于 大数据 | 评论数: | 阅读次数:
1
2
3
4
5
6
7
8
9
10
package com.Practice.SameFriend;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
阅读全文 »

wordcount学生成绩普通版案例

发表于 2018-03-25 | 更新于 2018-08-15 | 分类于 大数据 | 评论数: | 阅读次数:
1
2
3
4
5
6
7
8
9
10
11
12
13
package com.Practice.StudentScores;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
阅读全文 »

wordcount求学生平均成绩案例

发表于 2018-03-25 | 更新于 2018-08-15 | 分类于 大数据 | 评论数: | 阅读次数:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
package com.Practice.AverageScores;

import com.Practice.SameFriend.SameFriend;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
阅读全文 »
1…789…13
Daniel X

Daniel X

專注于大数据技術,分享干货
125 日志
15 分类
63 标签
GitHub E-mail Weibo QQ
粤ICP备18110871号 © 2017 – 2021 dudefu
0%