安装 Zsh,并使用 Oh My Zsh

Zsh 是什么

shell 俗称壳,c 语言编写的命令解析器程序,是用户使用 linux 的桥梁。Linux/Unix 提供了很多种 Shell。常用的 Shell 有这么几种,sh、bash、csh 等。可以通过以下命令,查看系统有几种 shell:

1
$ cat /etc/shells

目前常用的 Linux 系统和 macOS X 系统的默认 Shell 都是 bash。但是真正强大的 Shell 是深藏不露的 zsh,史称『终极 Shell』,由于与 bash 相似,功能又有所加强,zsh 在 Linux 社区获得了关注。但因配置过于复杂,所以初期无人问津。直到国外有个程序员开发出了一个能够快速上手的 zsh 项目,叫做「Oh My Zsh」,Github 网址是:https://github.com/ohmyzsh/ohmyzsh

阅读更多

弹性分布式数据集 (Resilient Distributed Datasets, RDD)

RDD 简介

RDD,全称 Resilient Distributed Datasets(弹性分布式数据集),是 Spark 最为核心的概念,是 Spark 对数据的抽象。

RDD 是分布式的元素集合,每个 RDD 只支持读操作,且每个 RDD 都被分为多个分区存储到集群的不同节点上。除此之外,RDD 还允许用户显示的指定数据存储到内存和磁盘中。

对 RDD 的操作,从类型上也比较简单,包括:创建 RDD、转化已有的 RDD 以及在已有 RDD 的基础上进行求值。

阅读更多

MapReduce 的学习

HDFS 和 MapReduce 是 Hadoop 的两个重要核心,其中 MapReduce 是 Hadoop 的分布式计算模型。MapReduce 主要分为两步 Map 步和 Reduce 步,引用网上流传很广的一个故事来解释,现在你要统计一个图书馆里面有多少本书,为了完成这个任务,你可以指派小明去统计书架 1,指派小红去统计书架 2,这个指派的过程就是 Map 步,最后,每个人统计完属于自己负责的书架后,再对每个人的结果进行累加统计,这个过程就是 Reduce 步。

本代码运行环境为 ubuntu 18.04,使用 Hadoop 2.9.2 版本
首先按照之前的方法(在 CentOS 7 中安装 Hadoop 与 HBase)搭建并启动 Hadoop

阅读更多

Conda 常用命令的整理

Anaconda 是一个针对数据分析领域 Python 发行版本,它提供了包管理(packages)工具和虚拟环境(environment)管理, conda 命令可用于安装、卸载、更新包、创建不同版本的 Python 独立环境,可用于替换 pipvirtualenv 这两个工具。

文中记录了使用 conda 的常用命令。

可直接从 Anaconda 官方网站 https://www.anaconda.com/download/ 进行下载,选择 Python 3.7 的版本。

也可以从清华镜像 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 下载。

Miniconda

Miniconda 是一个 Anaconda 的轻量级替代,默认只包含了 pythonconda,但是可以通过 pipconda 来安装所需要的包。

Miniconda 安装包可以到 https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/ 下载。

或从官方文档处 https://docs.conda.io/en/latest/miniconda.html 下载。

也可以使用包管理工具安装,如 apt-get, yum, brew cask

安装好 Conda 后,如使用 zsh,输入:

1
2
3
export PATH="/usr/local/miniconda3/bin:$PATH" # 注意修改成自己的安装路径
conda init zsh # 或其他 shell
conda config --set auto_activate_base false # 关闭自动激活环境
阅读更多