1.Apache Ranger整合Hadoop、源码Hive、编译Spark实现权限管理
2.Linux常用应用清单(使Linux变得更加易用 | Linux下替代Win常用软件的源码应用)
Apache Ranger整合Hadoop、Hive、编译Spark实现权限管理
在先前的源码文章《说说PB级生产上重要的Spark 3.x性能优化方向》中,提到了业务人员在处理数据时可能因误操作而造成数据损坏的编译dos2.0源码问题。在许多场景中,源码数仓需要直接开放给业务分析人员使用,编译他们经常执行SQL进行场景分析和验证。源码为此,编译可以提供一个WebUI供他们使用,源码如Hue。编译然而,源码由于数仓数据庞大,编译不可能全部开放给业务人员,源码因此对外供数时必须提供权限控制。
权限控制方面,CDH上提供的Sentry是一个不错的选择,它基于RBAC进行授权,可以针对库、表等设置不同用户权限。CM的加入使得Sentry的配置变得简单,但Sentry在用户管理方面较为繁琐,且项目已进入Apache Attic,因此选择Sentry并非明智之举。
实际上,c 编写源码教程许多公司的生产环境都是外网隔离的,特别是涉及敏感数据的小猴公司。开发、运维人员进入生产环境需要经过严格的校验,接入公司的生产专用网络,并通过堡垒机,任何人都无法导出数据,且每个操作都有审计跟踪。尽管如此,业务人员仍需开放访问,尽管他们通过专门的跳板机访问,但依然存在风险。
Apache Ranger只要有大数据集群的地方就都需要。本文解决了Ranger不支持Spark SQL的问题,实现了库、表、行、列级别的细粒度权限控制。由于官方文档和百度文档有限,本文将分享相关信息,希望能帮助到大家。
Apache Ranger是一个用于Hadoop平台上的权限框架,旨在服务于整个大数据生态圈。随着Hadoop在数据湖领域方案的成熟,对数据权限控制的企鹅分分彩源码要求也日益提高。Ranger现在提供了更多对大数据生态组件的支持。
Hadoop中的数据访问多样化,如存储在HDFS的数据可以被Hive、Spark或Presto访问。这么多组件访问数据,若不进行集中权限控制,数据安全性将面临严重问题。因此,大数据平台通常需要一个集中管理权限的组件或框架,Ranger正是这样的组件。
当前Ranger版本为2.1,官方提供的版本为2.1。编译测试基于Ranger 2.1版本。官方未提供安装包,需要手动下载Ranger源码包进行编译。编译环境要求提前安装,具体可参考官方网站。
编译成功后,将tar.gz包拷贝到本地。部署Ranger Admin的安装方式与Ranger类似:安装Ranger admin、创建ranger用户并设置密码、上传解压安装包、拷贝MySQL JDBC库、在MySQL中创建ranger库和用户、初始化配置、npm源码安装路径初始化Ranger admin。若显示成功,则表示初始化成功。在MySQL中可以看到ranger数据库中已创建大量表。
配置Ranger设置数据库密码、配置环境变量、启动Ranger admin访问web UI。登录后,主界面显示如下。点击右上角的“Swith to latest UI”可以切换到最新的UI展示。若安装过程中出现问题,请检查日志。
安装Ranger usersync配置admin认证模式。Ranger中admin的认证方式有三种:Unix、Active Directory、Kerberos。此处使用Unix方式进行认证,意味着后续Ranger admin登录会按照Linux中的认证同步。上传解压Ranger usersync组件、修改初始化配置、初始化配置、配置Linux系统用户组同步配置环境变量、启动usersync服务、修改Ranger admin的认证方式、重新启动Ranger admin。源码剖析的书在ranger-admin中可以看到所有Linux中的所有用户。
安装Ranger HDFS插件。注意,HDFS插件需要安装在NameNode对应的节点中,YARN插件需要安装在ResourceManager对应的节点上。解压HDFS插件、初始化配置、启用hdfs插件。Ranger HDFS插件会将当前的配置文件保存备份。可以查看ranger对这些配置文件的更改。
在PM中添加HDFS服务、配置HDFS服务权限策略、默认策略、策略配置、测试用户访问权限、在ranger中添加组合用户、基于角色授权、测试。我们发现,只要Ranger中的权限已更新,hdfs客户端就可以实现更新。
按照之前的配置,审计日志信息保存在指定目录。找到一条审计日志,查看其中的内容。审计日志中包含操作时间、路径、资源类型、对应Ranger中的策略等信息。一旦出现安全类问题,通过审计日志可以检查到进行了哪些操作。
部署Ranger HDFS HA。在HDFS的HA集群上,NameNode可能会发生failover,因此非常有必要在每个HDFS的NameNode上部署一个HDFS插件,以确保在HA切换时能够正常控制权限。部署hdfs plugin到每个NameNode节点、初始化NameNode、测试NameNode节点权限。测试lisi用户在/tmp目录的写入权限,发现当前lisi没有写入权限。在Ranger中启用sales角色的用户具备/tmp目录可写权限。重新执行写入操作,NameNode接入Ranger权限控制成功。
部署Ranger框架整合Hive、上传解压Hive插件、初始化配置、启动Hive插件。Ranger会对Hive的配置文件进行处理,生成hiveserver2-site.xml、ranger-hive-audit.xml、ranger-hive-security.xml等文件。重新启动Hive、beeline登录到hive、在PM中添加Hive服务、添加Hive Service、查看权限策略、查看默认hive导入的权限、使用hive查看数据、给hadoop组用户授权、检查spark用户操作权限、授权hadoop组、对某个库、表、列设置细粒度权限、测试数据打码处理、测试Ranger Admin crash对Hive的影响、部署Ranger Spark SQL、编译Apache submarine spark-security模块、配置、配置Spark SQL、测试Thrift Server、测试Spark SQL SHELL、到此Ranger整合Spark SQL完成、查看spark sql审计日志、报错信息处理、找不到AllocationFileLoaderService$Listener、异常信息、解决办法、参考文献。
Linux常用应用清单(使Linux变得更加易用 | Linux下替代Win常用软件的应用)
Linux Mint大薄荷是Linux系统首选,提供DEB系的备选如deepin、Ubuntukylin、openKylin、Batocera/RetroBat(游戏系统)、nixos(配置管理包系统)。
对于输入法,manjaro-asian-input-support-fcitx5(manjaro配置好的输入法包),ibus-rime,fcitx5-rime,大薄荷已经配置好fcitx-sunpinyin等中文输入法。遇到依赖错误,只需删除fcitx的所有软件包后重新安装。
桌面环境推荐使用Cinnamon(简单、稳定高效),GNOME。
文件管理器选择ranger(终端文件管理)。
使用Gammy(aur)自己编译自适应屏幕亮度/温度工具。
SysMonTask是具有Windows任务管理器外观的系统监控器。
SwitchHosts是hosts解析管理工具,支持直接对host文件进行编辑,添加自己的host解析规则,支持在多个host方案之间快速切换,如解决GitHub速度慢的问题。
推荐的字体包括方正书宋、霞鹜文楷。
使Linux更加易用的工具包括安卓兼容层(xdroid)/Win兼容层(Wine)/Mac OS兼容层(darling,Darwin),Linux原生应用如deb,以及Appimage。
浏览器、文档编辑、处理、视频网站、邮件等应用都可在本地安装,使Linux安装和使用软件更加容易。
在deb、flatpak、snap中,deb是最简单的Linux软件包管理。
AppImage Pool是一个应用商店,帮助你寻找和管理AppImage应用。
Appimage-installer工具能在十几秒内快速部署AppImage文件到开始菜单,并设置好图标和名称。
AppImageLauncher自动将AppImage程序快捷方式添加到桌面环境的程序启动器/菜单中,包括程序图标和说明。
在Linux系统中,可以使用安卓兼容层(xdroid)、Win兼容层(Wine)、Mac OS兼容层(darling,Darwin)实现跨平台应用。
使用Appimage打包应用,而不是源码编译收集文件,更推荐使用二进制包deb、rpm,通过解压命令将所有二进制包及其依赖系统依赖解压到指定目录,然后打包成appimage使用。
Ubuntu源分为官方软件源和个人软件包集(PPA),PPA允许用户建立自己的软件仓库,提供最新版本的软件,甚至进行软件测试。
Appimage-installer、AUR包管理、gitee.com/deepin-openso...
深度科技社区Maicss分享:bbs.deepin.org/zh/post/...
AppImage官网:Appimage.org/
这个仓库收集了对任何用户/开发者都超赞的Linux应用软件。