CentOS搭建Spark集群

2018-08-12

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。是加州大学伯克利分校的AMP实验室所开发的类似Hadoop MapReduce的通用并行框架。拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，Spark 是一个通用引擎，可用它来完成各种各样的运算，包括 SQL 查询、文本处理、机器学习等。本文主要记录使用CentOS搭建Spark集群。

more >>

展开全文 >>

CentOS搭建Hadoop集群

2018-08-11

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。通俗的理解就是我们计算的数据量超过了单机处理的能力，于是使用多台机器并行处理计算数据，但并行处理数据会存在各种问题，例如怎么给每个节点分派任务，怎么使各个节点算力达到均衡，在部分节点任务失败时如何恢复。这些便Hadoop帮我们解决的问题，简而言之，Hadoop是一个计算框架，并行处理计算模型。本文主要记录使用虚拟机搭建Hadoop集群过程。Hadoop有几种部署模式，分别是本地模式，伪分布式模式，完全分布式。其中本地模式和伪分布式模式都是在本地运行，其算力使用的是本机资源，并不是真正的并行计算，完全作体验之用，且过程也相对简单，不做介绍。本文记录的是完全分布式搭建过程。

more >>

展开全文 >>

CentOS搭建zookeeper集群

2018-08-05

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，也是Hadoop和Hbase的重要组件。ZooKeeper的选主过程是以Fast Paxos算法为基础的。前面我有文章写过Paxos算法，Paxos 算法存在活锁的问题，即当有多个proposer交错提交时，有可能互相排斥导致没有一个proposer能提交成功，而Fast Paxos对Paxos进行了优化。通过选举产生一个leader (领导者)，只有leader才能提交proposer，具体算法可见Fast Paxos 。因此，要想弄懂ZooKeeper首先得对Fast Paxos有所了解。因为此算法的特性，所以要求Zookeeper集群的节点数最好为奇数个，而且算法保证如果集群中Leader宕机，只要剩余节点在总节点数的半数以上，就会重新选主，继续对外提供服务。也正是由于这个原因，使得Zookeeper是一个高效的分布式协调服务，可以提供配置信息管理、命名、分布式同步、集群管理、数据库切换等服务，被广泛应用于分布式应用场景中。本人在工作中也使用了很久，故此记录一下。

more >>

展开全文 >>

VMware中安装CentOS 7

2018-08-04

Linux是一个诞生于网络、成长于网络且成熟于网络的奇特的免费的操作系统，用户可以通过网络或其他途径免费获得并可以任意修改其源代码，是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux支持多用户，各个用户对于自己的文件设备有自己特殊的权利，保证了各用户之间互不影响。 Linux继承了Unix以网络为核心的设计思想，是一个性能稳定的多用户网络操作系统。正是由于它开放源代码，因此来自全世界的大批知名的、不知名的电脑黑客、编程人员参与了Linux的修改、编写工作，程序员可以根据自己的兴趣和灵感对其进行改变，这让Linux吸收了无数程序员的精华，不断壮大。因此出现了很多Linux的发行版本，主要的几个发行版本有Fedora ，Debian ，Ubuntu ，Red Hat ，Centos 。其中人气最高的就是Ubuntu 和Red Hat系列了，Ubuntu是一个以桌面应用为主的Linux操作系统，中文译作乌班图。而Red Hat Linux是公共环境中表现上佳的服务器。它拥有自己的公司，能向用户提供一套完整的服务，这使得它特别适合在公共网络中使用。而Centos则是RHEL（Red Hat Enterprise Linux）源代码再编译的产物，而且在RHEL的基础上修正了不少已知的 Bug ，相对于其他 Linux 发行版，其稳定性值得信赖。

more >>

展开全文 >>

长连接的负载均衡

2018-07-28

最近公司培训，讲到了有关于长连接的负载均衡解决方案，确有体会，故此记录一下。在之前做负载均衡一般针对的是短连接，短连接的场景在实际应用中非常普遍。浏览器中大部分的请求都是短连接，例如用户登录，注册。商城的订单，付款等功能都属于短连接。短连接的特点就是无状态，连接时间短，长则三四秒，短则几毫秒。短连接的负载均衡很容易解决，开源中间件也比较多,例如nginx，F5等。而长连接的负载均衡解决方案则比较少了，主要原因是长连接相对于短连接来说应用面比较窄。一般是定制化需求会使用长连接。而生活中长连接作为普遍的应用就是直播系统了，近几年直播这种娱乐方式也越来越受到年轻人的喜爱，虎牙，斗鱼等直播平台如雨后春笋般涌现。我所在的公司主要从事安防行业，其中最为普遍的业务是摄像头的录像，在城市中每个街头，小区，公交地铁上的摄像头都会接入到公安体系中，其中录像不但能实时播放而且还会保存到服务器中，方便公安人员破案时可以随时查看录像。由于摄像机是24小时录像的，所以在这种场景下摄像机是使用长连接，而且一旦摄像机和某个服务器节点建立连接，就会长期和这个服务器保持着连接。一个城市的摄像头成千上万，后台不但需要考虑并发，还要考虑负载均衡。传统的负载均衡算法如轮询，哈希，随机等算法并不适用于长连接的一些业务场景。这里长连接可比作一个持续进行的任务，那么长连接的负载均衡就是每个任务的资源调度，最终使每个节点上的资源，均匀的分布在这些任务上。

more >>

展开全文 >>

大数据生态圈

2018-07-15

现今的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。创办人马云来台演讲中就提到，未来的时代将不是IT时代，而是DT的时代，DT就是Data Technology数据科技，显示大数据对于阿里巴巴集团来说举足轻重。有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类，而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似，大数据并不在“大”，而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言，如何利用这些大规模数据是赢得竞争的关键。大数据包括结构化、半结构化和非结构化数据，非结构化数据越来越成为数据的主要部分。其主要来源是人们多样化的社交方式，由于生活水平的提高，人们也越来越在乎精神层面的享受。例如抖音短视频，QQ微信的视频通话。语音通话，网易云音乐，各色各样的直播平台，这些终端产生的用户数据大都是非结构化数据。在这些数据中蕴含着巨大的财富，现在的中国有10多亿人口，超一半的网民。这样巨大的市场，可以说是得用户者得天下。很多APP都会有推荐功能，这其实就是大数据的一个应用场景，由于用户的历史数据就代表着用户的喜好习惯行为。所以如果获得用户的数据，并通过大数据的分析就可以把APP打造出一款很懂用户的APP，牢牢的抓住用户的心，从而抓住整个市场。

大数据本身是个很宽泛的概念，就数据而言，大数据是指数据量已经大到单机处理不了的尺度。大数据一般是指处理PB级别以上的数据。PB是个什么概念的单位呢？1 TB= 1,024 GB ；1 PB = 1,024 TB ；1 EB = 1,024 PB 由这个单位换算可以看出PB级的数据是很大的，对个人而言，数据量基本就在GB级别。处理这些海量数据当然也不能使用传统的手段。在大数据领域，有一系列组件专门用来处理大数据，例如Spark，Hadoop等。下面就来认识一下大数据组件的生态圈吧

more >>

展开全文 >>

paxos算法

2018-07-14

Paxos算法是莱斯利·兰伯特（Leslie Lamport，就是 LaTeX 中的”La”，此人现在在微软研究院）于1990年提出的一种基于消息传递且具有高度容错特性的一致性算法。 Paxos算法应用非常广泛，目前在Google的Chubby、MegaStore、Spanner等系统中得到了应用，Hadoop中的ZooKeeper中实现数据的一致性也是基于Paxos算法。根据 CAP 理论，一个分布式集群中网络分区必然会出现，这样就会出现脑裂的情况，所谓脑裂，就是由于网络分区的出现，一个集群被分割为多个互不通信的小集群，小集群中由于没有Leader，会自主选择master节点，造成原本的集群会同时存在多个master节点。而 paxos 算法有效的杜绝了脑裂现象，并在 C 和 A 之间保留了较好的均衡性。因此paxos算法的重要性不言而喻了，但Paxos 算法号称史上最晦涩难懂的算法，而原版论文也是让人难以理解。经过一段时间学习，对 Paxos 有了一些理解，在这里总结一下。paxos算法的学习最好的资料就是作者发表的三篇论文，分别是Fast Paxos，Paxos made simple和The Part-Time Parliament。另外还有一个被称为有史以来学习paxos最好的地方的英文网站，百度网盘地址如下：

Fast Paxos：链接: https://pan.baidu.com/s/1Eaxpvh5AqUNyxySPAOrwYQ 密码: ij5v

Paxos made simple：链接: https://pan.baidu.com/s/1rBjQ4rXnBWO1hXdOllGguw 密码: k7fj

The Part-Time Parliament：链接: https://pan.baidu.com/s/18SZs710g_VAPoM1wbijHnQ 密码: ww4w

英文学习网址：Paxos (computer science)

more >>

展开全文 >>

博客个性化配置

2018-07-08

博客搭建好后，总会有一些个性化的想法。比如做网站的访问量统计，文章评论系统，文章分享功能，或是在博客主页放一个音乐播放器，让别人进来浏览博客的同时，还伴随着动听的音乐。大部分博客主题都兼容这些功能，只不过需要自己去配置。下面是我做个性化博客配置时踩的坑，供大家参考参考。

1 . 访问量统计

访问量统计功能可以用百度的站长统计、leancloud，还有不蒜子，这里我用的不蒜子，主要原因是它很简单易用，不需要注册账号什么的。不蒜子官网：http://busuanzi.ibruce.info/

(1) . 引入不蒜子

1	<script async src="//dn-lbstatics.qbox.me/busuanzi/2.3/busuanzi.pure.mini.js"></script>

这段代码可以写在footer.ejs里或者header.ejs里或者layout.ejs里，因为是 js 文件，所有推荐放在 html 文档的末尾处加载。这里我放在/themes/yilia/layout/_partial/footer.ejs中。

(2) . 添加站点访问量

1
2
3

<span id="busuanzi_container_site_uv"> 
  本站访客数<span id="busuanzi_value_site_uv"></span>人次
</span>

more >>

展开全文 >>