苏宁大数据平台运维实践

科技创变

2018-06-29 14:49

苏宁大数据平台基本介绍

大数据平台运维的痛点及解决方案

痛点1. 部署及运维复杂痛点2. 无资源使用视图

痛点3. 任务相互影响，资源隔离性差

痛点4. 排查问题耗时长，应用优化门槛高

解决1. 平台化、自动化

大数据管理平台：主机管理，集群管理自动化

元数据管理：数据字典，权限申请审批实施自动化

数据流管理平台：集成Flume，智能扩缩容，插件式

数据开发平台：支持10种不同的任务类型，支持任务流/任务管理，解决复杂依赖问题，可扩展

解决2.资源可视化、人民币化

存储/计算资源计量计费

资源池使用可视化

任务展板

解决3.差异化服务、物理隔离

解决4. 智能诊断、优化建议

平台优化及增强

稳定

Hive metaserver 连接数过高的问题

修改bonecp的配置：maxConnectionsPerPartition=1

Spark Streaming & Druid System CPU过高的问题

设置vm.zone_reclaim_mode=0

透明大页导致System CPU过高的问题

echo never >/sys/kernel/mm/transparent_hugepage/defrag

安全

账户/权限体系：每个系统一个账户，不允许跨账户写

Hive metaserver 密码加密

基于User/IP的访问控制策略：RPC层面控制，白名单

skipTrash禁用：防止误删数据

扩展性

结合HDFS的压力、瓶颈问题的逐步优化：

程序优化，扫全表: Hive慎用unix_timestamp方法

小文件合并

YARN日志降低副本至1

YARN日志单独放在另一个集群

Federation + Alluxio 实现统一命名空间

DOING & TO DO

Flink推广OLAP平台建设

流计算消息回溯

多活&灾备

资源统一管理

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴