深入理解 ceph mgr

September 10, 2017

ceph mgr 做为 ceph 12.2 主推的功能之一,是负责 ceph 集群管理的组件。本文深入介绍 ceph mgr 的工作原理,目的是提供一个思维框架,在该组件出现问题或是有新的需求时,读者有能力修改源码对其进行改进。

背景

监控是管理的第一步,所以 ceph-mgr 目前的主要功能是把集群的一些指标暴露给外界使用。监控是什么东西呢?举个例子,例如用户访问网站 5xx 了,那么监控就是这么一个系统:采集网站 5xx 的个数,存起来,然后在 5xx 多的时候通过报警短信报给开发,然后为开发解决该问题提供其他信息(例如日志,指标图表)。所以监控系统是一个数据系统,包含采集,存储,分析(包含报警),可视化,这几个部分。

关于监控,在此之前,ceph 以及社区有不少尝试。

calamari

calamari。calamari 是 ceph 背后的公司 Inktank 为 ceph 企业版开发的监控管理程序,在 Red Hat 收购该公司后开源,目前基本处于停滞状态。其基本原理是利用 salt 远程执行 python 脚本,该脚本通过 ceph 每个守护进程暴露在本地的 admin socket 采集到数据或者执行命令。其主要包含几部分:

评价:

cephmetrics

cephmetrics。基本原理是基于 collectd 插件,从 admin socket 中采数据发往 graphite,用 grafana 做图。

评价:

ceph_exporter

ceph_exporter。基本原理是利用 librados,从 ceph monitor 中取数据,通过 http 协议把指标以 prometheus 规定的格式暴露出来。

评价:

ceph-mgr

在以上背景下,ceph 官方开发了 ceph-mgr,主要目标实现 ceph 集群的管理,为外界提供统一的入口。要深入了解 ceph-mgr,就得了解 ceph-mgr 是如何跑起来的。

官方文档 可知,ceph-mgr 是通过可执行文件 ceph-mgr 跑起来的,在源码src/CMakeLists.txt 搜索 ceph-mgr 可以搜到 add_executable(ceph-mgr ${mgr_srcs}...,从中可以看出 ceph-mgr 主要由 src/mgr 里的文件编译出来(猜也猜的出来),main 函数在 src/ceph_mgr.cc。以上就是相关文件,有需要深入的人可以去读,这里介绍整理之后的 ceph-mgr 工作原理。

ceph-mgr 工作的模式是事件驱动型的,意思就是等待事件,事件来了则处理事件返回结果,又继续等待。其主要运行的线程包括: