The Future

Hadoop2.7.5HA集群搭建

发表于 2019-04-06 | 更新于 2019-04-08 | 分类于大数据 | 评论数： | 阅读次数：

hadoop HA原理概述

为什么会有 hadoop HA 机制呢？

HA：High Available，高可用
在Hadoop 2.0之前,在HDFS 集群中NameNode 存在单点故障 (SPOF：A Single Point of Failure)。对于只有一个 NameNode 的集群，如果 NameNode 机器出现故障(比如宕机或是软件、硬件升级)，那么整个集群将无法使用，直到 NameNode 重新启动。
那如何解决呢？HDFS 的 HA 功能通过配置 Active/Standby 两个 NameNodes 实现在集群中对 NameNode 的热备来解决上述问题。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将 NameNode 很快的切换到另外一台机器。
在一个典型的 HDFS(HA) 集群中，使用两台单独的机器配置为 NameNodes 。在任何时间点，确保 NameNodes 中只有一个处于 Active 状态，其他的处在 Standby 状态。其中ActiveNameNode 负责集群中的所有客户端操作，StandbyNameNode 仅仅充当备机，保证一旦 ActiveNameNode 出现问题能够快速切换。
阅读全文 »

在大数据环境中执行情感分析

发表于 2018-05-30 | 更新于 2018-08-15 | 分类于大数据 | 评论数： | 阅读次数：

情感分析

情感分析是利用文本分析来挖掘各种观点的数据来源的过程。通常情况下，情感分析是在从互联网和各种社交媒体平台收集的数据上执行的。政治家和政府经常利用情感分析来了解人们如何看待他们和他们的政策。
随着社交媒体的出现，人们可以从各种不同来源（比如移动设备和 Web 浏览器）捕获数据，并用不同的数据格式存储这些数据。由于社交媒体内容对于传统存储系统（比如 RDBMS、关系数据库管理系统）是非结构化的，所以我们需要一些可以处理和分析各种不同数据的工具。不过，大数据技术旨在处理不同来源、不同格式的结构化和非结构化数据。在本文中，我将介绍如何利用大数据工具来捕获数据，以便存储和处理用于情感分析的数据。

阅读全文 »

金融行业大数据用户画像实践

发表于 2018-05-30 | 更新于 2018-08-15 | 分类于大数据 | 评论数： | 阅读次数：

金融消费者逐渐年轻化，80、90后成为客户主力，他们的消费意识和金融意识正在增强。金融服务正在从以产品为中心，转向以消费者为中心。所有金融行业面对的最大挑战是消费者的消费行为和消费需求的转变，金融企业迫切需要为产品寻找目标客户和为客户定制产品。
进入移动互联网时代之后，金融业务地域限制被打破。金融企业没有固定业务区域，金融服务面对所有用户是平的。
金融消费者逐渐年轻化，80、90后成为客户主力，他们的消费意识和金融意识正在增强。金融服务正在从以产品为中心，转向以消费者为中心。所有金融行业面对的最大挑战是消费者的消费行为和消费需求的转变，金融企业迫切需要为产品寻找目标客户和为客户定制产品。

阅读全文 »

RDD转DataFrame的一道面试题

发表于 2018-05-04 | 更新于 2018-08-15 | 分类于大数据 | 评论数： | 阅读次数：

题目

现在在我们HDFS文件系统上面存了一个文件，该文件格式是 .txt文件格式，要求把这个文件格式转换成为parquet文件格式 :
解题思路:
1）先读取文件生成一个RDD
2）把RDD转换成为一个DataFrame，RDD[Person].toDF
3) 写数据，指定文件格式就可以了！！

阅读全文 »

RDD转DataFrame的两种方法

发表于 2018-05-04 | 更新于 2018-08-15 | 分类于大数据 | 评论数： | 阅读次数：

介绍一下Spark将RDD转换成DataFrame的两种方式。

通过是使用case class的方式，不过在scala 2.10中最大支持22个字段的case class,这点需要注意
是通过spark内部的StructType方式，将普通的RDD转换成DataFrame 装换成DataFrame后，就可以使用SparkSQL来进行数据筛选过滤等操作
阅读全文 »

Java单例模式

发表于 2018-05-01 | 更新于 2018-08-15 | 分类于 Java | 评论数： | 阅读次数：

饿汉式

//饿汉式单例类，在类初始化时，已经自行实例化
public class Singleton1 {
    //私有的默认构造方法
    private Singleton1(){}
    //已经自行实例化
    private static final Singleton1 single = new Singleton1() ;
    //静态工厂方法
    private static Singleton1 getInstance(){
        return single ;
    }
}

阅读全文 »

经验之谈

发表于 2018-04-30 | 更新于 2018-08-15 | 分类于干货 | 评论数： | 阅读次数：

1、重构是程序员的主力技能。
2、工作日志能提升脑容量。
3、先用profiler调查，才有脸谈优化。
4、注释贵精不贵多。杜绝大姨妈般的“例注”。漫山遍野的碎碎念注释，实际就是背景噪音。
5、普通程序员+google=超级程序员。

阅读全文 »

JVM常见面试题

发表于 2018-04-28 | 更新于 2018-08-15 | 分类于 Java | 评论数： | 阅读次数：

简单说说JVM的架构

运行时区

堆
栈
方法区
程序计数器
本地方法
阅读全文 »

深入理解java虚拟机精华总结

发表于 2018-04-27 | 更新于 2018-08-15 | 分类于 Java | 评论数： | 阅读次数：

运行时数据区域

Java虚拟机管理的内存包括几个运行时数据内存：方法区、虚拟机栈、本地方法栈、堆、程序计数器，其中方法区和堆是由线程共享的数据区，其他几个是线程隔离的数据区

程序计数器

程序计数器是一块较小的内存，他可以看做是当前线程所执行的行号指示器。

字节码解释器工作的时候就是通过改变这个计数器的值来选取下一条需要执行的字节码的指令，分支、循环、跳转、异常处理、线程恢复等基础功能都需要依赖这个计数器来完成。如果线程正在执行的是一个Java方法，这个计数器记录的是正在执行的虚拟机字节码指令的地址；如果正在执行的是Native方法，这个计数器则为空。

阅读全文 »

Spark架构及原理

发表于 2018-04-25 | 更新于 2018-08-15 | 分类于大数据 | 评论数： | 阅读次数：

Spark架构及原理

Daniel X

專注于大数据技術，分享干货

GitHub E-mail Weibo QQ