/

漫谈我对Linux监控软件的理解

谈谈我常用的监控软件

服务器的监控,在服务器运行过程中,会采集机器目前的状态信息,显示机器的运行状态,方便我们用来看机器目前运行是否正常。
如果出现问题了,可能是哪方面的问题。如果说用来耍帅,其实也是….凑合的。
我现在日常管理的环境基本上都是Linux,发行版以Centos居多,少量的ubuntu服务器。
在主机监控方面,我常用的有htop,glances,df,du,netstat等命令,结合起来看问题,但是算监控的话,应该只有前两个。
相对来说,我觉得监控软件用来查问题,是它日常使用中更偏重的一个方面。排查问题嘛。
服务器的监控软件,比如说zabbix或者prometheus这种东西来说,更注重的是对于服务器状态的收集,趋势的判断,服务的报警,再就是触发器的自动恢复。
更多的是用来查看趋势性的东西,比如说昨天晚上凌晨突然机器负载暴增,但是大家都睡觉了,想回溯现场,肯定是看监控软件了,采集的信息越多,就更容易排查问题。
日志监控的话,毫无疑问的就是ELK套件了,这个已经是事实上的行业标准了,没什么好说的,只是这版本帝刷版本刷的实在是有些略快。
因为说是漫谈,嗯…再者这东西也就是博客,关于一些具体的东西,我建议还是去官方文档看,这里也只是一些使用上的体会和简单的指北。

主机监控软件

简单来说,我在日常直接查看机器状态,会常用htop或者glances,这两个命令都不是系统自带的,都是需要使用包管理器来安装的。

htop

这个是htop,其实也就是top这个Linux工具的升级版,看一些基础状态会比较合适。

glances

这个是glances,显示的各种信息就比较全面了,比如说总的CPU占用和内存占用以外,还有IP、磁盘信息等。
这两个工具在mac下和linux下都是可用的,日常开发的过程中也可以很方便的使用。

服务器监控软件的对比

zabbix和prometheus对我来说都是比较常用的工具,对我来说,这两个监控软件是两种不同设计理念下出现的不同软件。
没有什么对比性,就像说什么比什么好一样,其实这个没啥好比的。prometheus连一个方便查看的界面都没有,只是专注于数据采集和报警。
所以说这种没啥好比的,如果下次大家遇见面试官问这种问题,也可以直接这么怼回去。

zabbix是一个历史比较长的监控软件了,所以优势也很明显,模板非常的全,NGINX、php-fpm、linux之类的,都可以直接使用默认的模板。
mysql的话,percona也出过非常好用的zabbix模板,redis也是用第三方的模板就可以来采集和报警了,更像是一个大一统的监控软件,自动发现功能,
还有触发器功能其实做的都很不错,如果是最传统的服务安装这种linux应用部署方面的监控,zabbix其实真的是不二之选,而且报警规则设置的都很详细。
越用其实就发现越省事儿….嗯,我没收好处费,使用起来感觉还是很香的。grafana也可以对接zabbix,出一个很好的界面之类的。虽然我现在也觉得不丑就是了。
zabbix最近出了一些新功能,我指的是4.2版本,比如说可以从prometheus的exporter里面取数据哇,或者还有那些趋势性指标什么的,也觉得这个软件活力还是很足的。
对于新功能也是紧跟时代,生命力还是很足的,配置触发器也很简单….关于怎么配置触发器,我觉得你还是看看官方文档,汉化的已经很全了。

….不知不觉写了这么多zabbix的好处,嗯,还真是有感而发哈,现在我就来说说zabbix相对来说的劣势好了,这也是我眼中的劣势,可能其他人会有不同意见。
zabbix因为使用的是mysql数据库,使用的不是时序数据库,监控数据这种东西,其实很适合放时序数据库里,放mysql里其实不是很合适。

而且zabbix对于目前(2019)年的容器时代和kubernetes时代,相对来说不是很合适,做宿主机的基础监控是没有问题的,但是做pods的这种业务监控,不是很合适了。
我个人建议也是zabbix留着做以前业务的监控,再就是新的k8s平台的基础监控,继续使用的价值还是很大的。

prometheus这个新生事物(现在好像已经不算太新生了)大家应该有所了解?属于CNCF组织推出的第二个云原生的组件,设计理念是只做日志采集和报警,
其余部分交给其他的东西来做,比如说图形化就是用grafana来做,监控的angent也是用第三方来做,数据保存也是用的时序数据库,很适合做容器化和大规模集群。
当然缺点也是很明显,相对来说上手难度高,报警指标需要自己设定,每个服务需要自己来找exporter,
没有触发器来做传统运维的自动恢复(前几天有人和我说也可以做,我还没了解)。

触发器的用处

前面提到了触发器,触发器这东西我觉得,对于传统运维来说,还是有一定用处的,可以做自动恢复,
就是那种开发写代码出现问题,但是这个问题又重复出现,而且开发也不能把这个问题彻底修复的情况,可以运维在这边给做一个兜底。
用触发器来做这些东西还是很合适的,对于prometheus就不能做这些了,因为已经把业务的状态维护交给了kubernetes,所以这块已经没有了.

我的体验

监控软件这些,属于查看Linux状态必备的一套工具。
对于运维这个岗位来说,更是吃饭的家伙,对于监控软件熟练掌握属于必备的技能。
利用软件提升自动化水平,利用自动化解放人力,把精力节省出来,做更值得投入精力的事情。
用自动化来解决重复劳动和体力劳动,这是软件对人的解放。