• 使用Apache Knox配置保护Spark/Hadoop

    启动自带LDAP 创建Master key 配置Gateway 配置Spark UI代理 配置HiveServer2代理 我们知道Spark、HDFS等等都提供了Story Web UI,用户可以从Web上查看当前JOB的执行情况,也可以kill掉JOB。那么这个Web UI不应该所有人都可以访问,而应该只开放给管理员使用。默认Spark没有认证,能连接到这个集群上就可以访问Web UI,但通过Knox,可以在打开Web UI的时候先做认证,限制只有某些用户可以访问。 类似的...


  • Databricks cloud初探

    workspace UDF/library cluster 作业 JDBC Databricks cloud(行文方便下面简称DC)是Databricks公司提供的公有云服务,用户在上面创建自己的spark集群,进行数据处理,其建设思路类似阿里云的ODPS。下面主要关注其权限控制。 workspace workspace有如下几个概念:user、folder、notebook、library。 user:管理员可以邀请其他用户到自己的workspace里。通过wo...


  • Kerberos从入门到放弃(二):YARN、Spark、Hive使用kerberos

    YARN认证 spark作业认证 hive认证 Spark SQL Thriftserver认证 多租户和编程场景 总结 本文记录YARN、Spark、Hive各服务配置使用kerberos的过程。 我的环境: 三台服务器,分别命名为zelda1、zelda2、zelda3 ubuntu 14.04 hadoop 2.7.2 spark 2.0/1.6.1 YARN认证 目的是将YARN接入到kerberos集群里,使得: RM和NM之...


  • Kerberos从入门到放弃(一):HDFS使用kerberos

    原理 配置 配置DNS服务 配置NTP 创建MIT KDC 为HDFS等组件生成keytab 配置HDFS 本文尝试记录HDFS各服务配置使用kerberos的过程,配置的东西比较多,一定会有疏漏。 我的环境: 三台服务器,分别命名为zelda1、zelda2、zelda3 ubuntu 14.04 hadoop 2.7.2 spark 2.0/1.6.1 原理 默认Hadoo...


  • Spark SQL源码走读(一):HiveThriftServer2

    HiveThriftServer2 SparkSQLSessionManager start-thriftserver.sh启动thrift server,入口是org.apache.spark.sql.hive.thriftserver.HiveThriftServer2。Spark sql的一些背景说明可以参见这里。 HiveThriftServer2 def main(args: Array[String]) { logInfo("Starting SparkCon...


  • Spark(十):Hive on Spark配置

    版本对应关系 配置方式 过程分析及集群角色划分 日志路径 遇到的一些错误 Spark与Hive有两种搭配方式,一是我们目前采用的spark thrift server读取hive metastore(Spark SQL),由spark项目组主导;二是hive on spark,即hive将其执行引擎从tez改为spark,由hive项目组主导。当然更早还有shark,不过已经没人用了。Databricks有篇文章谈到了二者的未来,可以参考。 从一些测试结果来看,spark ...


  • Spark(九):Thrift Server的用户认证

    用户验证 数据库配置解析 配置 启动 Hiverserver2支持如下四种: KERBEROSE LDAP CUSTOM NONE 默认为NONE,即只要用户对即可,不检查密码。 类似Hiveserver2,Spark thrift server(sts)也支持这几种。前面我们已经具备了权限管理(Authorization)的能力,但还需要对用户的identity做认证,先采用比较简单的CUSTOM认证方式,可以参考MapR的这篇文章,主要是实现Passw...


  • Spark(八):多租户隔离

    3、数据隔离 3.1 用户登录 3.2 sts用户认证 3.1 用户同步 3.2 授权 4 审计 5 资源隔离 1、2谈的是SQL和UDF隔离,对于开源来说,zeppelin或者Hue可能是个选择,但其并不支持多租户。国内像美团在之上做了增量开发,支持了多租户,这样就做到了SQL和UDF的隔离。我司有自行开发的data studio产品,其功能跟开源的Hue对标,支持多租户。 3、数据隔离 前文谈到,...


  • Apache Ranger:统一授权管理框架

    1、功能 支持组件 用户/组管理 授权 审计 2、机制 组件plugin 前一篇文章介绍了hive的授权模型和spark支持hive的现状,可以看到目前授权管理各自为政:HDFS,hive,yarn,storm等都有自己的授权模型,需要到具体产品下进行修改,比较分散,不利于统一管理,需要有一个集中控制的工具(更准确的应该叫做框架) 目前已有的统一授权管理的开源框架为Ranger和...


  • Spark(七):Hive的授权

    使用场景 三种授权模型 1、Storage based Authorization 2、SQL standard based Authorization 3、默认授权模型 Storage based Authorization配置 用户在使用Hive的时候,需要做到数据隔离,针对DB、表对不同的用户有不同的权限,即授权(Authorization)。注意跟身份验证(Authentication)区别,前者是判断用户对资源是否...