如何杜绝 spark history server ui 的未授权访问? 1

简介: 如何杜绝 spark history server ui 的未授权访问?

如何杜绝 spark history server ui 的未授权访问?

1 问题背景

默认状况下,Spark history Sever ui 是没有任何访问控制机制的,任何用户只要知道 shs 对应的 url,就可以访问链接查看 spark 作业的运行状况。

在证券基金银行等金融行业中,客户大都对信息安全有着较靠的要求,上述未授权访问的情况肯定是要杜绝的。那么如何配置以杜绝上述对 shs ui 的未授权访问呢?

2 开启 kerberos 的大数据集群环境中,如何杜绝对 shs ui 的未授权访问?

在信息安全要求较高的环境中,我们推荐开启大数据集群的 kerberos 安全认证,从而对整个集群中的 hdfs/yarn/hive/hbase/kafka/zookeeper/spark 等服务提供认证保护。

  • 此时这些服务如 hdfs/yarn/hive/hbase/kafka/zookeeper/spark 等的客户端,在使用 rpc 协议访问服务端时,只有在经过 kerberos 认证后才能访问成功;
  • 在访问这些服务的 web ui 时,比如 namenode/resourceManager/hive hs2/spark History Server 等的 web ui,此时客户使用的客户端工具是 web 浏览器,此时为对使用浏览器基于 http/https 访问 web UI 的用户进行身份验证,可以在服务端配置是否启用 spnego(spnego 底层基于 kerberos);
  • 当没有启用 spnego 对访问 HTTP Web 控制台的用户进行身份验证时,任何用户都可以在不经过 kerberos 认证的情况下访问 webui;
  • 当启用 spnego 对访问 HTTP Web 控制台的用户进行身份验证时,用户只有在成功通过了 kerberos 认证拿到了 ticket 后,才能成功访问对应服务的 web ui(需要在浏览器中做相应配置);
  • 可以手动在服务端后台配置文件中,通过一系列的参数配置是否启用对 hdfs/yarn/hive/spark 等服务的 web ui 的 spnego 身份验证;
  • 在 CDH 中,可以通过 cm web ui 白屏化操作,以开启或关闭对 hdfs/yarn/hive/spark 等服务的 web ui 的 spnego 身份验证,“启用 HTTP Web 控制台的 Kerberos 身份验证”,如下所示:

640.png640.png640.png640.png

结合配置以下参数,即可控制对 SHS UI 的授权访问:

spark.history.ui.acls.enable=true
spark.history.ui.admin.acls=spark
spark.history.ui.admin.acls.groups

此时,通过浏览器访问 shs web ui 时,在没有经过 kerberos 安全认证时,就会报类似如下的错误:

640.png640.png

3 SHS UI 访问控制背后的实现机制

  • 查阅官方文档可知,Spark UI 的认证,包括 shs ui 的认证,使用的都是 servlet 过滤器;
  • 而 spark 本身并没有提供任何内置的认证 过滤器, 大家需要根据自己的认证机制自己实现一个认证过滤器,并配置参数 spark.ui.filters 使用该过滤器;
  • 参数 spark.ui.filters 可以配置多个过滤器,以逗号隔开即开;

640.png640.png


  • 注意参数 spark.authenticate:该参数控制 Spark 内部各个进程进行 rpc 通信时是否需要经过认证,而不是控制用户访问 spark webui时是否需要经过认证;
  • 在配置了认证过滤器的基础上,就可以通过配置参数 spark.acls.enable/spark.history.ui.acls.enable 分别对 spark/shs 的 webui 开启或关闭访问控制;

640.png640.png


  • 访问控制列表具体包括三种,即 view acl(只具有view权限),modify acl(只具有 Modify权限) 和 admin acl(具有view和modify权限);
  • 配置访问控制列表时,可以配置用户也可以配置用户组;(支持配置逗号分隔的多个值,也支持配置*通配符);
  • spark/shs webui的访问控制相关参数如下:
spark.acls.enable
spark.admin.acls
spark.admin.acls.groups
spark.modify.acls
spark.modify.acls.groups 
spark.ui.view.acls
spark.ui.view.acls.groups
spark.user.groups.mapping
spark.history.ui.acls.enable
spark.history.ui.admin.acls
spark.history.ui.admin.acls.groups
  • Hadoop 提供了一个 servlet 认证过滤器,即 org.apache.hadoop.security.authentication.server.AuthenticationFilter,和一个可以配套使用的 spnego 认证机制的实现类,即 org.apache.hadoop.security.authentication.server.KerberosAuthenticationHandler;

640.png640.png

  • 在开启 kerberos 的大数据集群环境中,为实现对 shs ui 的访问控制,背后即可配置使用上述 hadoop 提供的认证过滤器和spnego 认证实现类;
  • 在 CDH/CDP 环境中,可以通过查看 shs 进程背后的配置文件,确认其正是使用了上述访问控制机制,和上述 hadoop 提供的认证过滤器和spnego 认证实现类:

640.png


详细的配置参数如下:

//通过以下配置项开启了 shs ui 的 spnego 认证
spark.ui.filters=org.apache.spark.deploy.yarn.YarnProxyRedirectFilter,org.apache.hadoop.security.authentication.server.AuthenticationFilter
spark.org.apache.hadoop.security.authentication.server.AuthenticationFilter.param.type=kerberos
spark.org.apache.hadoop.security.authentication.server.AuthenticationFilter.param.kerberos.principal=HTTP/uf30-3@CDH.COM
spark.org.apache.hadoop.security.authentication.server.AuthenticationFilter.param.kerberos.keytab=spark_on_yarn.keytab
spark.org.apache.hadoop.security.authentication.server.AuthenticationFilter.param.kerberos.name.rules=DEFAULT\u000A
//通过以下配置项,开启了 shs ui 的访问控制列表 acl,且配置了具体的 admin acl 为用户 spark 和用户组 spark
spark.history.ui.acls.enable=true
spark.history.ui.admin.acls=spark
spark.history.ui.admin.acls.groups=spark
//注意,以下配置项是 shs 在 rpc 通讯时的 kerberos 相关配置,这些配置影响的是 rpc 通信,跟是否开启 httpspnego 认证无关
spark.history.kerberos.enabled=true
spark.history.kerberos.principal=spark/uf30-3@CDH.COM
spark.history.kerberos.keytab=spark_on_yarn.keytab
//以下参数控制 Spark 内部各个进程进行 rpc 通信时是否需要经过认证,跟是否开启 http spnego 认证无关
spark.authenticate=true/false
相关实践学习
云安全基础课 - 访问控制概述
课程大纲 课程目标和内容介绍视频时长 访问控制概述视频时长 身份标识和认证技术视频时长 授权机制视频时长 访问控制的常见攻击视频时长
相关文章
|
8月前
|
安全 API 数据安全/隐私保护
关于 SAP 电商云 Spartacus UI 访问 b2b site 的权限问题
关于 SAP 电商云 Spartacus UI 访问 b2b site 的权限问题
89 0
|
1天前
|
存储 分布式计算 API
adb spark的lakehouse api访问内表数据,还支持算子下推吗
【2月更文挑战第21天】adb spark的lakehouse api访问内表数据,还支持算子下推吗
108 2
|
1天前
|
分布式计算 分布式数据库 API
Spark与HBase的集成与数据访问
Spark与HBase的集成与数据访问
|
7月前
|
分布式计算 Hadoop 大数据
如何杜绝 spark history server ui 的未授权访问? 2
如何杜绝 spark history server ui 的未授权访问?
|
7月前
|
Web App开发 安全 中间件
使用 SAP Fiori Tools 自带的代理服务器解决本地运行的 SAP UI5 应用访问远端服务遇到的跨域问题试读版
使用 SAP Fiori Tools 自带的代理服务器解决本地运行的 SAP UI5 应用访问远端服务遇到的跨域问题试读版
51 0
|
7月前
|
Web App开发 JavaScript 前端开发
通过 SAP UI5 ODataModel API 在 JavaScript 代码里访问 OData 元数据试读版
通过 SAP UI5 ODataModel API 在 JavaScript 代码里访问 OData 元数据试读版
53 1
|
7月前
|
开发者
SAP UI5 初学者教程之二十五 - 使用代理服务器解决 SAP UI5 应用访问远端 OData 服务的跨域问题试读版
SAP UI5 初学者教程之二十五 - 使用代理服务器解决 SAP UI5 应用访问远端 OData 服务的跨域问题试读版
36 1
|
8月前
|
Web App开发 前端开发 JavaScript
使用自开发的代理服务器解决 SAP UI5 FileUploader 上传文件时遇到的跨域访问错误试读版
使用自开发的代理服务器解决 SAP UI5 FileUploader 上传文件时遇到的跨域访问错误试读版
33 0
|
8月前
|
Web App开发 前端开发 JavaScript
SAP UI5 FileUploader 控件实现本地文件上传,接收服务器端的响应时遇到跨域访问错误的试读版
SAP UI5 FileUploader 控件实现本地文件上传,接收服务器端的响应时遇到跨域访问错误的试读版
41 1
SAP UI5 FileUploader 控件实现本地文件上传,接收服务器端的响应时遇到跨域访问错误的试读版
|
1天前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
165 0
http://www.vxiaotou.com