“运筹帷幄之中,决胜千里之外。”在IT运维中,监控占据着很重要的地位,按比例来说,以30%来计一点也不为过。对IT运维工程师来说,构建一个真正可用的监控告警系统是一项艰巨的任务。在监控系统的开源软件中,可供选择的工具众多,然而真正适合自己需求,能够真正解决自己业务问题的监控系统软件却凤毛麟角。
目前创新互联已为近1000家的企业提供了网站建设、域名、网页空间、网站托管、服务器租用、企业网站设计、云安网站维护等服务,公司将坚持客户导向、应用为本的策略,正道将秉承"和谐、参与、激情"的文化,与客户和合作伙伴齐心协力一起成长,共同发展。
本次记者特别采访了【WOT2016互联网运维与开发者峰会】特邀讲师、OneOaaS技术合伙人吴兆松,他将和大家分享Zabbix监控自动化如何发展和优秀运维工程师需要具备的特质。在他的运维职业生涯中,监控系统用过Cacti、Nagios,以及公司自行开发的监控告警系统,直到接触了Zabbix,才发现这个灵活而强大的自动化监控工具正是他所寻找的。
讲师介绍
OneOaaS技术合伙人 吴兆松
吴兆松,曾任职饿了么,后离职创业。目前就职于OneOaaS,作为公司技术合伙人,主要从事运维工具开发,Zabbix监控服务和二次开发。OneOaaS是一家集运维工具开发,监控服务,运维架构咨询于一体的运维服务公司,同时也是中国地区的Zabbix官方合作伙伴。
1.在饿了么的工作经历,对您现在的创业有什么影响吗?您有哪些创业经验分享给想创业的朋友们?
饿了么是一家很重视技术的公司,员工非常年轻,是一群有想法、有追求的年轻人。因此,我与这么多有激情,富有创造力的同事在一起工作是非常开心的事情。饿了么的专注,效率和执行力是大家有目共睹的,这些对我的影响很大。
在创业前期,我还是一个“小学生”,还要向更多前辈学习。对于***次创业的朋友们提下小建议,也是自我的感受:创业前的你一定要想好所具备的资源,选择方向的发展前景,如果这两点已经确认了,那么你就要十分专注,为了家人、伙伴和***的人生去勇敢的拼搏一次。
2.您工作中所使用的Zabbix监控自动化处于什么阶段呢?您对于它的未来发展有哪些期待?
Zabbix是一个基于Web界面,提供分布式系统监视以及网络监视功能的企业级开源解决方案。它能监视各种网络参数,保证服务器系统的安全运营,并提供柔软的通知机制以让系统管理员快速定位/解决存在的各种问题,是企业自动化运维监控的利器。Zabbix灵活的设计为用户提供了易用的二次开发接口,让用户既可以使用Zabbix本身提供的功能,又可以自定义更多的监控项功能,从硬件监控,到操作系统,再到服务进程,以及网络设备。
目前,我们为客户提供Zabbix监控的咨询架构与设计实现中,规模有大有小,既有多达几千台规模的服务器,也有几百台规模的服务器。环境有物理机,网络设备,虚拟化,存储,也有云环境,如AWS,阿里云等。甚至有些客户监控点的物理位置分布在全球各地,因网络环境造成的监控波动比较严重。我们所涉及到的监控需求是比较复杂的。
就监控系统的自动化运维发展阶段来说,我们可以从几个方面来理解。
(1)设备添加的自动化,是指监控系统能够通过一定规则来实现监控的自动添加,如主动上报,被动扫描。
(2)监控指标添加的自动化,对发现后的设备,添加需要的监控指标,或根据业务指标,或根据设备类型指标。
(3)失效监控指标自动清理,过期自动清理无效的监控指标。
(4)监控客户端配置的自动化,实现配置管理的自动化。
(5)对故障处理的自动化,在出现故障后,需要能够实现故障自愈,自动去修复。
在实现自动化的过程中,监控系统与资产管理系统(CMDB)需要有效的结合。资产管理的重要性相信大家都深有体会,作为所有资产信息的唯一入口,例如上线、下线、发布、维护,均需要准确的资产信息。监控系统与资产管理系统有机结合,可以实现不误报,不漏报,不会添加错监控项,同时还能够发现资产与监控不一致的记录。
对于应用的监控,由于环境的多样,其复杂程度较高,需要监控系统能够自动发现监控的指标,自动配置监控指标项,自动配置告警的阈值,以及需要告警汇聚、合并等,如对周期出现的故障,***能自我修复。
对于未来的发展,希望Zabbix能够在监控的可视化方面有更好的展示效果,如自动拓扑的生成,实现类似zatree,graph tree的树形图形展示功能,在报表分析方面有更方便的功能,能够提供环比功能等。
3.日常工作中,您有哪些软件及开源工具推荐给大家?它们有哪些优点和需要注意的地方?
我把日常工作中,使用比较顺手的三类开源工具推荐给大家,希望对大家有所帮助。
(1)配置管理类开源工具,我推荐ansible和saltstack。
ansible是基于ssh协议,无agent模式,方便快捷,适合于机器初始化,代码发布,集中管理配置等场景。而saltstack是属于socket通信协议,执行效率高,功能模块也非常全面,社区响应快,文档丰富。在大多数场景下,这两者可以结合起来使用。
(2)API离线文档神器
我推荐Mac下的dash和Windows下的zeal,它们集合了100多种API离线文档,方便离线搜索。
(3)监控系统,我推荐Zabbix 、Open-falcon。
Open-falcon属于后起之秀,它吸收了opentsdb,Zabbix等监控工具的一些长处,维护非常方便。它的缺点是当前支持监控协议的种类还偏少。但一般中大型互联网公司,因为监控对象比较固定,所以完全可以满足他们的使用需求。
4.您心目中优秀的运维工程师是怎样的?
我觉得一位优秀的运维工程师,应该具备以下特点。相信拥有这些特质的他们,不管到哪里工作,都会很受欢迎。
(1)具有一定的视野。对业务、对技术才会有很好的把控能力,让技术为业务服务。
(2)具有良好的学习能力。对于新技术能够很快掌握,并能为业务服务。
(3)良好的沟通能力。运维工作中,工程师常常需要跨部门沟通,与业务的上下游,与部门同事、领导沟通,这都需要主动积极去推动工作的进行。
(4)良好的团队协作能力。
(5)应该掌握一门编程语言,如Python,Perl等。具有编码能力的运维工程师才能将工作做得更得心应手,因为开源工具虽多,但需求总会有新的,总会有开源工具无法满足的场景。因此,掌握编码是每个运维工程师必备的技能。
(6)文档能力也不可缺少。
5.您将在4月份北京举行的WOT互联网运维和开发者峰会上分享哪些内容?
在本次的峰会上,我主要会分享Zabbix监控运维自动化的相关知识点。例如,如何做运维基础设施监控,如何做业务监控,如何实现监控的自动化,如何告警和告警中涉及难点的解决方案,以及分享我们对Zabbix进行二次开发的工具等。总体来说,干货很多,值得大家期待!
分享名称:WOT2016吴兆松:Zabbix监控自动化的未来如何发展
URL地址:http://www.shufengxianlan.com/qtweb/news31/531081.html
网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联