Zlatan Eevee

Spark（九）：Thrift Server的用户认证

用户验证数据库配置解析配置启动 Hiverserver2支持如下四种： KERBEROSE LDAP CUSTOM NONE 默认为NONE，即只要用户对即可，不检查密码。类似Hiveserver2，Spark thrift server(sts)也支持这几种。前面我们已经具备了权限管理(Authorization)的能力，但还需要对用户的identity做认证，先采用比较简单的CUSTOM认证方式，可以参考MapR的这篇文章，主要是实现Passw...

May 18, 2016

in Tech

Spark（八）：多租户隔离

3、数据隔离 3.1 用户登录 3.2 sts用户认证 3.1 用户同步 3.2 授权 4 审计 5 资源隔离 1、2谈的是SQL和UDF隔离，对于开源来说，zeppelin或者Hue可能是个选择，但其并不支持多租户。国内像美团在之上做了增量开发，支持了多租户，这样就做到了SQL和UDF的隔离。我司有自行开发的data studio产品，其功能跟开源的Hue对标，支持多租户。 3、数据隔离前文谈到，...

May 17, 2016

in Tech

Apache Ranger：统一授权管理框架

1、功能支持组件用户/组管理授权审计 2、机制组件plugin 前一篇文章介绍了hive的授权模型和spark支持hive的现状，可以看到目前授权管理各自为政：HDFS，hive，yarn，storm等都有自己的授权模型，需要到具体产品下进行修改，比较分散，不利于统一管理，需要有一个集中控制的工具（更准确的应该叫做框架）目前已有的统一授权管理的开源框架为Ranger和...

May 12, 2016

in Tech

Spark（七）：Hive的授权

使用场景三种授权模型 1、Storage based Authorization 2、SQL standard based Authorization 3、默认授权模型 Storage based Authorization配置用户在使用Hive的时候，需要做到数据隔离，针对DB、表对不同的用户有不同的权限，即授权(Authorization)。注意跟身份验证(Authentication)区别，前者是判断用户对资源是否...

May 10, 2016

in Tech

Spark（六）：一个Hive UDF编码问题的解决记录

todo….. spark的thrift server可以提供类似hive的体验，用户可以通过hive的JDBC连接到thrift server上。 1、UDF的不同类型及区别 2、需求：ip2region 3、UDF的执行每次执行都是一次反射，包括init和evaluate 4、如何提升性能

May 9, 2016

in Tech

Spark（五）：在Zeppelin中分析IPv4地址的瓜分图

背景介绍安装对接hive 对接spark 例一：求Pi值例二：IP地址瓜分图其他功能背景介绍 Spark可以像Hadoop一样用来跑大作业，也可以像数据库一样做实时分析。对于后者，Spark的发行版中提供了spark shell、spark sql，数据科学家可以在这里面做一些分析。不过命令行的可编辑、可视化方面毕竟不友好，因此一些厂商开发了web IDE，而开源界也提供了这样的工具：Zeppelin（齐普林？）。 ...

May 6, 2016

in Tech

Spark（四）：python编程示例

环境准备编码集群上执行下面以一个简单的例子，介绍下如何用python编程，并提交到yarn上执行。环境准备 SparkContext是spark编程的基石，后面的SqlConext等等都是基于SparkContext。它作为python的lib，在pyspark库中提供，同时它还依赖py4j，所以我们要做的第一件事就是修改系统的python路径，把它俩加进去： cd /usr/local/lib/python2.7/dist-packages/ echo "/home/...

April 7, 2016

in Tech

Spark（三）：数据导入

insert load data Spark提供了thrift server，可以提供HIVE2的JDBC连接。启动方式： ./sbin/start-thriftserver.sh --master spark://spark1:7077 启动后，可以使用JDBC连接。 insert 我想提供一个传统用户比较友好的SQL操作，使用insert命令插入数据。 beenline方式下面用beenline简单测试下： ./bin/beenline beeline> ...

April 7, 2016

in Tech

HBase分布式部署（三）

安装HDFS 安装HBASE 数据导入HBASE 当前环境HBASE全分布式部署，使用外置ZK。由于全分布式部署，要求底层存储必须使用HDFS，不能像standalone那样使用本地文件。注意由于部署的时候没有做记录，可能有所疏漏。安装HDFS HDFS/YARN等都打在hadoop一个包中，不是单独的一个包。我这里只是部署了一个简单的HDFS集群，没有考虑name node的HA问题。我用的是HADOOP 2.6.3。另外我仍然还没有配置yarn。部署基本参考了这篇文章...

April 6, 2016

in Tech

Spark（二）：Standalone和YARN方式部署集群

1 环境 2 部署 2.1 单独启动 2.2 集中启动 2.3 验证 2.4 资源调度 3 HA 3.1 配置ZK 3.2 配置master 3.3 检验HA 4 Spark on YARN Spark有三种集群部署方式： standalone mesos yarn 其中standalone方式部署最为简单，下面做一下简单的记录。...

April 5, 2016

in Tech