Zlatan Eevee

Kerberos从入门到放弃（三）：kerberos+LDAP各司其职，以及一体化的freeIPA

前面2篇Kerberos文章 HDFS使用kerberos、YARN、Spark、Hive使用kerberos介绍了在spark/hadoop集群开启Kerberos后可以获得的好处：服务认证，如YARN的namenode、datanode，spark thrift server使用yarn的资源用户认证，如使用不同的Principal登录到spark thrift server 由于集群一般来说变化的比较小，服务认证比较合适；但在多租户的集群上，Kerberos这种需要独占操作系...

June 21, 2016

in Tech

使用Apache Knox配置保护Spark/Hadoop

启动自带LDAP 创建Master key 配置Gateway 配置Spark UI代理配置HiveServer2代理我们知道Spark、HDFS等等都提供了Story Web UI，用户可以从Web上查看当前JOB的执行情况，也可以kill掉JOB。那么这个Web UI不应该所有人都可以访问，而应该只开放给管理员使用。默认Spark没有认证，能连接到这个集群上就可以访问Web UI，但通过Knox，可以在打开Web UI的时候先做认证，限制只有某些用户可以访问。类似的...

June 17, 2016

in Tech

Databricks cloud初探

workspace UDF/library cluster 作业 JDBC Databricks cloud（行文方便下面简称DC）是Databricks公司提供的公有云服务，用户在上面创建自己的spark集群，进行数据处理，其建设思路类似阿里云的ODPS。下面主要关注其权限控制。 workspace workspace有如下几个概念：user、folder、notebook、library。 user：管理员可以邀请其他用户到自己的workspace里。通过wo...

June 15, 2016

in Tech

Kerberos从入门到放弃（二）：YARN、Spark、Hive使用kerberos

YARN认证 spark作业认证 hive认证 Spark SQL Thriftserver认证多租户和编程场景总结本文记录YARN、Spark、Hive各服务配置使用kerberos的过程。我的环境：三台服务器，分别命名为zelda1、zelda2、zelda3 ubuntu 14.04 hadoop 2.7.2 spark 2.0/1.6.1 YARN认证目的是将YARN接入到kerberos集群里，使得： RM和NM之...

June 11, 2016

in Tech

Kerberos从入门到放弃（一）：HDFS使用kerberos

原理配置配置DNS服务配置NTP 创建MIT KDC 为HDFS等组件生成keytab 配置HDFS 本文尝试记录HDFS各服务配置使用kerberos的过程，配置的东西比较多，一定会有疏漏。我的环境：三台服务器，分别命名为zelda1、zelda2、zelda3 ubuntu 14.04 hadoop 2.7.2 spark 2.0/1.6.1 原理默认Hadoo...

June 7, 2016

in Tech

Spark SQL源码走读（一）：HiveThriftServer2

HiveThriftServer2 SparkSQLSessionManager start-thriftserver.sh启动thrift server，入口是org.apache.spark.sql.hive.thriftserver.HiveThriftServer2。Spark sql的一些背景说明可以参见这里。 HiveThriftServer2 def main(args: Array[String]) { logInfo("Starting SparkCon...

June 1, 2016

in Tech

Spark（十）：Hive on Spark配置

版本对应关系配置方式过程分析及集群角色划分日志路径遇到的一些错误 Spark与Hive有两种搭配方式，一是我们目前采用的spark thrift server读取hive metastore（Spark SQL），由spark项目组主导；二是hive on spark，即hive将其执行引擎从tez改为spark，由hive项目组主导。当然更早还有shark，不过已经没人用了。Databricks有篇文章谈到了二者的未来，可以参考。从一些测试结果来看，spark ...

May 19, 2016

in Tech

Spark（九）：Thrift Server的用户认证

用户验证数据库配置解析配置启动 Hiverserver2支持如下四种： KERBEROSE LDAP CUSTOM NONE 默认为NONE，即只要用户对即可，不检查密码。类似Hiveserver2，Spark thrift server(sts)也支持这几种。前面我们已经具备了权限管理(Authorization)的能力，但还需要对用户的identity做认证，先采用比较简单的CUSTOM认证方式，可以参考MapR的这篇文章，主要是实现Passw...

May 18, 2016

in Tech

Spark（八）：多租户隔离

3、数据隔离 3.1 用户登录 3.2 sts用户认证 3.1 用户同步 3.2 授权 4 审计 5 资源隔离 1、2谈的是SQL和UDF隔离，对于开源来说，zeppelin或者Hue可能是个选择，但其并不支持多租户。国内像美团在之上做了增量开发，支持了多租户，这样就做到了SQL和UDF的隔离。我司有自行开发的data studio产品，其功能跟开源的Hue对标，支持多租户。 3、数据隔离前文谈到，...

May 17, 2016

in Tech

Apache Ranger：统一授权管理框架

1、功能支持组件用户/组管理授权审计 2、机制组件plugin 前一篇文章介绍了hive的授权模型和spark支持hive的现状，可以看到目前授权管理各自为政：HDFS，hive，yarn，storm等都有自己的授权模型，需要到具体产品下进行修改，比较分散，不利于统一管理，需要有一个集中控制的工具（更准确的应该叫做框架）目前已有的统一授权管理的开源框架为Ranger和...

May 12, 2016

in Tech