博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
运维自动化之使用PHP+MYSQL+SHELL打造私有监控系统(一)
阅读量:6718 次
发布时间:2019-06-25

本文共 2741 字,大约阅读时间需要 9 分钟。

前言

记得刚来这家公司的时候,我部门就我一个运维工程师,然后就是经理,刚开始公司平台什么监控都没有,在我与经理的努力下,先搭建nagios+cacti监控平台,后来随着公司业务的增加,平台的功能与服务也不断的扩展,nagios+cacti监控不太适合平台的需要,为了解决此问题我就使用shell来搭建了脚本监控系统,根据平台的应用服务需求与领导要求,使用shell的脚本监控系统监控整个平台的运行情况,但随着公司业务的扩大,平台数量的增加,服务器的数量也随之增加,从以前的30台变为现在的120台左右,之前的shell脚本监控系统虽然能够顺利的监控平台的运行情况,但在日常服务器巡检的时候没有什么便利,我这里管理很严格,每天9、13、17都需要对平台进行一下巡检,服务器少的时候还好说,但120台巡检就是个噩梦,为了美好的生活,我决定使用自己设计一个新的监控系统,主要是能在服务器端,使用shell脚本监控继续的监控平台运气情况,使用mysql数据库记录监控数据,使用php设计一个web平台,能在web里展示这些服务器的监控数据,经过2个月的努力,我独自一人的完成了这项任务,经过3个月的试运行与生产环境的测试,成功的完成了我之前的需求,使我的时间变的更充裕,不必把时间浪费到日常巡检里,当然也有副作用,就是每天什么事都没有,实在太闲了(主要是我在搭建shell监控的时候,如果发现有服务宕掉,就根据错误代码自动的解决这个问题并重启服务,所以每天实在很闲)。

由于本监控系统我本人独立自主开发,所以具有决定本监控系统是否开源的权利,为了发展开源精神,我决定把本分布式监控系统open source,借此向开源致敬。其中php程序与shell脚本已经放到最后一页,也就是第七页,希望本文对各位如何的搭建分布式私有监控系统能有更多的启发,也希望各位同仁能多提意见,谢谢!

闲话不说,下面是我的“运维自动化之PHP+MYSQL+SHELL监控系统”的界面展示。

为了方便大家的理解,我画了一个php+mysql+shell的流程图

 

 本监控系统的流程为(部署的顺序是从右到左):

1
、需要在各省的机房里的所有服务器安装shell监控脚本,然后把监控服务与资源的数据写入到mysql数据库里;
2
、mysql收到各省服务器发送的监控数据,把他们按照先前定义的数据表分别的存储起来;
3
、php程序按照之前编辑好的显示方式,从mysql数据库里提前相应的数据,在web端显示,同时在部署php程序的images目录里,运行数据视图化脚本,生成各省监控的数据资源图;
4
、用户可以通过web来浏览监控服务与资源的数据、资源的监控数据图。

 由于本文文章与代码描述过多,所以分成7篇文章,下面是文章网页地图。

运维自动化之使用PHP+MYSQL+SHELL打造私有监控系统(一)

运维自动化之使用PHP+MYSQL+SHELL打造私有监控系统(二)

运维自动化之使用PHP+MYSQL+SHELL打造私有监控系统(三)

运维自动化之使用PHP+MYSQL+SHELL打造私有监控系统(四)

运维自动化之使用PHP+MYSQL+SHELL打造私有监控系统(五)

运维自动化之使用PHP+MYSQL+SHELL打造私有监控系统(六)

运维自动化之使用PHP+MYSQL+SHELL打造私有监控系统(七)

1
、先查看资产管理

资产管理下面有 2个功能,一个是 新增的设备,一个是浏览设备
新增设备

可以增加以上的内容
浏览设备

可以展示之前添加的内容,是从数据库的 device表里获得数据
2
、监控详情
此页面里展示了所以的监控省份

比如我监控的省份就有甘肃、天津、广西、贵州、海南、河北、湖南、青海、新疆、河南、西藏、包头、湖北、江西、宁夏、陕西工 16个省份,每个省份5台服务器,共计80个服务器,目前还在继续添加服务器,预计半个月后,监控的服务器会增加到105个。
下面我们以天津为例
A
、应用服务监控详情

 

以上监控,显示的是应用服务的监控主要显示的内容是通过 shell脚本监控的,通过shell写入到mysql,然后php通过设置好的表单来进行展示来自mysql的数据。
B
、硬盘使用率监控详情

C
、cpu使用率监控详情

D
、硬件信息错误监控详情

E
、I/O使用率监控详情

F
、15分钟内的负载

G
、内存使用率监控详情

H
、日志错误信息监控详情

I
、用户登录数监控详情

3
、当日报警
以天津为例

可以看到天津今天只有内存报警
4
、监控视图

可以看到监控视图有 3种,分别有日、月、年的,下面我们分别的查看一下
A
、当日报警,以新疆数据库为例
(1)新疆数据库的硬盘使用率

(2)新疆数据库的cpu使用率

(3)新疆数据库的io使用率

(4)新疆数据库的load使用率
(5)新疆数据库的内存使用率

(6)新疆数据库的用户登录数

以上为什么在hour为13,是因为我设置的hour为当前时间的,比如当前为2012年10月23日13:49分,那么当前的hour为13.而右上角的2行文字内容是:

2012
年10月23日,database数据库的用户登录不正常的使用红色线表示
 

2012
年10月23日,database数据库的用户登录正常的使用绿色线表示
 
B
、当月报警,以湖南引擎为例
(1)湖南引擎的硬盘使用率

(2)湖南引擎的cpu使用率

 
(3)湖南引擎的io使用率

(4)湖南引擎的load使用率

(5)湖南引擎的内存使用率

(6)湖南引擎的用户登录数

注意,month(31)是本月有多少天,通过shell脚本进行计算的。
C
、当年报警,以贵州引擎为例
(1)贵州引擎的cpu使用率
(2)贵州引擎的cpu使用率

(3)贵州引擎的io使用率

(4)贵州引擎的load使用率

(5)贵州引擎的内存使用率

(6)贵州引擎的用户登录数

5、邮件接收的shell报警截图

挑选几个真实的服务器报警给大家展示一下shell脚本监控服务器的报警系统。

A
、服务宕掉的报警

 

B
、hardware硬件错误信息报警

Cload负载报警

D、内存报警

Eswap报警

由于本文文字与脚本内容过多,超过每篇8万字的限制,所以不得不分成多篇博文,尽请见谅。

下一篇文章地址:

运维自动化之使用PHP+MYSQL+SHELL打造私有监控系统(二)

BTW:如果大家认为我写的不错,希望能给我的博客投个票,谢谢!

 本文转自 reinxu 51CTO博客,原文链接:http://blog.51cto.com/dl528888/1034992,如需转载请自行联系原作者

你可能感兴趣的文章
macOS 下的 Eclipse.ini 文件在哪?
查看>>
UVA - 10785 The Mad Numerologist
查看>>
44.3. Image Charts
查看>>
[ACM_数据结构] HDU 1166 敌兵布阵 线段树 或 树状数组
查看>>
SaveFileDialog与Castle(ActiveRecord)有冲突??
查看>>
C#~异步编程再续~await与async引起的w3wp.exe崩溃
查看>>
指针,c语言的灵魂
查看>>
[Erlang 0005] net_kernel:monitor_nodes 订阅node连接\断开消息
查看>>
第 30 章 Linux
查看>>
5.5. git-daemon 服务器
查看>>
浅谈Windows环境下DOS及MS-DOS以及常见一些命令的介绍
查看>>
工具系列~WebMatrix搭建WEB站点
查看>>
JAVA 之 多态 抽象 接口
查看>>
[LintCode] Integer to Roman 整数转化成罗马数字
查看>>
日期控件
查看>>
mysql 如何修改、添加、删除表主键
查看>>
【Maven】3.使用IntelliJ IDEA 使用本地搭建的maven私服,而不是使用默认的maven设置...
查看>>
Navi.Soft31.WinForm框架(含下载地址)
查看>>
Charles配置抓包HTTP,HTTPS
查看>>
[Everyday Mathematics]20150109
查看>>