大数据开发

CDH 6.3.2 升级 Spark 3

由于 CDH6.3.2版本以上已不开源,目前常用组件只能自编译升级,比如 Spark 。 看网上的资料,有人说 Spark3 的 SQL 运行性能比 Spark2 可提升 20%,本人未验证,但是 Spark3 的 AE 功能的确很香,能自适应解决 Spark SQL 的数据倾斜。
CDH 6.3.2 升级 Spark 3

CDH 6.3.2 升级 Hive 2.3.9

CDH 6.3.2 初始的 Hive版本为2.1.1,在不对开源版souce源码包进行重新编译的前提下试着去升级Hive3(3.1.2、3.1.3),结果均失败,最终选择先升级Hive2(2.3.9),这种升级方式的好处是不需要对source源码tar包进行重新编译。 由于CDH6.3.2版本中默认的Spark组件版本为2.4.0,参考Compatibility with Apache Hive - Spark 2.4.0 Documentation官网,Spark2.4.0版本支持的Hive Metastore版本最高至2.3.3,也就是说理论上如果想获得CDH6.3.2中的默认Spark支持,升级的Hive版本最高为2.3.3。
CDH 6.3.2 升级 Hive 2.3.9
CDH6.3.2升级Zookeeper3.4.14
DataX报错解决办法 - 单个channel的bps值报错
Hadoop Yarn - 高可用服务主备状态查询
CDH 6.3.2 Hue 报错Could not connect to xx:10000
CDH 6.3.2 Hue 报错 1366
CDH - 请求 Service Monitor 超时