• Apache Ranger:统一授权管理框架

    1、功能 支持组件 用户/组管理 授权 审计 2、机制 组件plugin 前一篇文章介绍了hive的授权模型和spark支持hive的现状,可以看到目前授权管理各自为政:HDFS,hive,yarn,storm等都有自己的授权模型,需要到具体产品下进行修改,比较分散,不利于统一管理,需要有一个集中控制的工具(更准确的应该叫做框架) 目前已有的统一授权管理的开源框架为Ranger和...


  • Spark(七):Hive的授权

    使用场景 三种授权模型 1、Storage based Authorization 2、SQL standard based Authorization 3、默认授权模型 Storage based Authorization配置 用户在使用Hive的时候,需要做到数据隔离,针对DB、表对不同的用户有不同的权限,即授权(Authorization)。注意跟身份验证(Authentication)区别,前者是判断用户对资源是否...


  • Spark(六):一个Hive UDF编码问题的解决记录

    todo….. spark的thrift server可以提供类似hive的体验,用户可以通过hive的JDBC连接到thrift server上。 1、UDF的不同类型及区别 2、需求:ip2region 3、UDF的执行 每次执行都是一次反射,包括init和evaluate 4、如何提升性能


  • Spark(五):在Zeppelin中分析IPv4地址的瓜分图

    背景介绍 安装 对接hive 对接spark 例一:求Pi值 例二:IP地址瓜分图 其他功能 背景介绍 Spark可以像Hadoop一样用来跑大作业,也可以像数据库一样做实时分析。对于后者,Spark的发行版中提供了spark shell、spark sql,数据科学家可以在这里面做一些分析。不过命令行的可编辑、可视化方面毕竟不友好,因此一些厂商开发了web IDE,而开源界也提供了这样的工具:Zeppelin(齐普林?)。 ...


  • Spark(四):python编程示例

    环境准备 编码 集群上执行 下面以一个简单的例子,介绍下如何用python编程,并提交到yarn上执行。 环境准备 SparkContext是spark编程的基石,后面的SqlConext等等都是基于SparkContext。它作为python的lib,在pyspark库中提供,同时它还依赖py4j,所以我们要做的第一件事就是修改系统的python路径,把它俩加进去: cd /usr/local/lib/python2.7/dist-packages/ echo "/home/...


  • Spark(三):数据导入

    insert load data Spark提供了thrift server,可以提供HIVE2的JDBC连接。 启动方式: ./sbin/start-thriftserver.sh --master spark://spark1:7077 启动后,可以使用JDBC连接。 insert 我想提供一个传统用户比较友好的SQL操作,使用insert命令插入数据。 beenline方式 下面用beenline简单测试下: ./bin/beenline beeline>...


  • HBase分布式部署(三)

    安装HDFS 安装HBASE 数据导入HBASE 当前环境HBASE全分布式部署,使用外置ZK。由于全分布式部署,要求底层存储必须使用HDFS,不能像standalone那样使用本地文件。注意由于部署的时候没有做记录,可能有所疏漏。 安装HDFS HDFS/YARN等都打在hadoop一个包中,不是单独的一个包。我这里只是部署了一个简单的HDFS集群,没有考虑name node的HA问题。我用的是HADOOP 2.6.3。另外我仍然还没有配置yarn。 部署基本参考了 这篇文章...


  • Spark(二):Standalone和YARN方式部署集群

    1 环境 2 部署 2.1 单独启动 2.2 集中启动 2.3 验证 2.4 资源调度 3 HA 3.1 配置ZK 3.2 配置master 3.3 检验HA 4 Spark on YARN Spark有三种集群部署方式: standalone mesos yarn 其中standalone方式部署最为简单,下面做一下简单的记录。...


  • 搭建私有docker registry

    1 准备registry镜像 1.1 下载registry包,解压并build 1.2 启动registry容器 2 使用私有registry服务 2.1 检查私有registry服务是否正常 2.2 上传镜像到私有registry 2.3 从私有registry里拖镜像 2017-04-07:推荐使用VMWare的Harbor,方便易用,基本可以获得跟Docker Hub接...


  • HBase系列之数据模型(二)

    表 行 列 Column Famliy Column Qulifier Cell NameSpace 逻辑视图 物理视图 数据操作 VERSIONS ACID 说说HBase里的数据模型。我们可以使用RDBMS的术语来描述HBase,但并不准确;更好的做法是把HBase当做一个多维Map。下面会以hbase shell的操作为例来介绍HBase的数据模型,当然你也可以用java。 我用的HBase的版本是1....