苏宁大数据平台基本介绍

大数据平台运维的痛点及解决方案

痛点1. 部署及运维复杂痛点2. 无资源使用视图

痛点3. 任务相互影响,资源隔离性差

痛点4. 排查问题耗时长,应用优化门槛高

解决1. 平台化、自动化

大数据管理平台:主机管理,集群管理自动化

元数据管理:数据字典,权限申请审批实施自动化

数据流管理平台:集成Flume,智能扩缩容,插件式

数据开发平台:支持10种不同的任务类型,支持任务流/任务管理,解决复杂依赖问题,可扩展

解决2.资源可视化、人民币化

存储/计算资源计量计费

资源池使用可视化

任务展板

解决3.差异化服务、物理隔离

解决4. 智能诊断、优化建议

平台优化及增强

稳定

Hive metaserver 连接数过高的问题

修改bonecp的配置:maxConnectionsPerPartition=1

Spark Streaming & Druid System CPU过高的问题

设置vm.zone_reclaim_mode=0

透明大页导致System CPU过高的问题

echo never >/sys/kernel/mm/transparent_hugepage/defrag

安全

账户/权限体系:每个系统一个账户,不允许跨账户写

Hive metaserver 密码加密

基于User/IP的访问控制策略:RPC层面控制,白名单

skipTrash禁用:防止误删数据

扩展性

结合HDFS的压力、瓶颈问题的逐步优化:

程序优化,扫全表: Hive慎用unix_timestamp方法

小文件合并

YARN日志降低副本至1

YARN日志单独放在另一个集群

Federation + Alluxio 实现统一命名空间

DOING & TO DO

Flink推广OLAP平台建设

流计算消息回溯

多活&灾备

资源统一管理