了解最新公司动态及行业资讯
不想当将军的士兵不是好士兵——拿破仑
如何成为运营总监?成为运营总监需要具备哪些技能?我想很多运维工程师都会有这样的想法和疑问。
如何成为运营总监。一般来说,运维总监大概有两个出身。一是从最底层的维护做起,通过出色的维护工作,让公司领导特别认可这个人,同时也更加重视Linux运维工作。进步的立场。二是有企业管理背景或IT技术背景,有一定经验,直接进入IT管理层面的人。
作为一名Linux运维总监,你需要哪些技能,管理哪些细节,具备哪些能力?
运维技能设备库
:,,/xen,kvm,lxc,,,,,RHEV
配置工具: , Chef, , func, , ,
监控工具:Cacti、()、、基于时间的监控后端、Mtop、MRTG(网络流量监控图形工具)、Monit
性能监控工具:dstat(多类型资源统计)、atop(htop/top)、nmon(类Unix系统性能监控)、(内核slab缓存信息)、sar(性能监控和困境检测)、(中间视图) ) ), ( ), iftop (top-like tool), iperf ( tool), smem) ( video tool), ( tool)
免费的 APM 工具:(我见过的最全面的分析工具),
过程监控:,
日志系统:,
绘图工具:,
流控系统:在线数据包分析工具Pcap
安全检查:,
PaaS:,,,Deis(,,,core/)
:,,性能
持续集成:Go, ,
C盘压测:fio,,(win)
()
Redis,, codis/SSDB/
MySQL监控:mytop,,-,,,myawr,SQL级监控,拓扑可视化工具
MySQL 基准测试:, sql-bench, , 'sTPCC-,
: SOHU-, Altas, cobar,
MySQL逻辑备份工具:,,,,mk--dump/mk--
MySQL 化学备份工具:LVM
压力测试:&
运维管理工作概述
域名
从购买一个域名开始,购买多个域名,50个甚至100个。分为主域名和推广域名(用于推广链接)。从上面买一个域名,因为这里的域名是稳定的,不会有被攻击的事情。同时需要购买域名保护,让网民在ping这个域名时,无法解析出真实的服务器地址。
同时,域名解析的操作也不应该在互联网上进行。解析的操作应该放在外网或者外网,或者zndns上(这个dns可以为一个域名解析多个IP地址。按照就近的原则,把最快速的IP地址解析给用户。)也可以搭建自己的dns服务器,想着自己的dns服务器就好了。这样,更改dns指向时会更快。
2.CDN
请务必购买 CDN 服务。如果部分用户无法访问,请使用cdn服务。可以从上面订购cdn服务,这样域名解析到cdn,然后cdn解析到肉盾墙或者任意一个,然后肉盾墙指向核心服务器。cdn起到缓存和转发的作用,在大流量攻击时可以防御至少200G的攻击。Cdns 被全局缓存。
3.图像服务器
您可以在国外租用多台服务器作为图片缓存服务器,以提高访问率。虽然 nginx 本身就是一个图片缓存服务器。
图片服务器要和其他服务器分开,肉盾墙可以作为图片缓存。
4.服务器机房
选择机房非常重要。它必须具有良好的服务质量、高防御、高可靠性和及时响应。它还必须能够随时检查服务器状态。最重要的是要有良好的服务态度。.
机房需要购买台湾九和(用户核心服务器),新加坡圣安娜机房(肉盾墙)(虽然速度慢,而且安全性和高防御都很棒,遇到大流量攻击时,电脑这里的房间还是可以访问的,所以不要把猪肉放在一个篮子里,有各档次就好了,国外机房快,高防效果差,而日本机房慢,高防效果不错)
5.首页
主页,也就是招商引资的网站,或者变成广告的网站,可以租用云主机,所以被黑了就被黑了。上面可以有一个链接,指向游戏的首页,这个链接最后可以打个,很简单。
也可以不带终端口号。这时候一定要使用cdn服务器,或者使用免录机房,将肉盾墙放置在免录机房。由于所有在国外建的网站都需要注册,所以赌博行业是严禁的,为了防止域名或IP地址被和谐(gwf),所以使用免备案机房。
或者在台湾或日本或日本等机房放置肉盾墙。这样,用户可以直接使用域名访问我们的网站,而不需要使用终端标语。
6.监控系统
一个网站需要有一个监控系统,可以实时监控服务器,看是否有电力攻击,查看日志是否暴涨,将日志放到日志服务器(服务)上。使用 cacti 服务,您可以将日志放在 cacti 上。网速一定要查,网速飞涨一定要证明一定是攻击成功。
每天晚上看日志,使用日志分析软件,看访问源是单个访问源还是多个不同访问源。监控服务器必须具有报告功能。一旦情况出现异常,立即报告,然后早起应对袭击。
7.反灌篮
权力攻击通常视情况而定,通常的权力攻击是直接攻击域名。nginx及其自身的防御功能可以防止少量的power攻击。因为大量的电力攻击直接占用网络带宽,服务器很难正常响应,只能利用机房的高防御。
所以要买很多高防的,建议至少200G。如果攻击的来源是单个IP或多个IP,就让机房封锁这些IP。遇到cc或ddos攻击时,只能通过机房解决。服务器被黑后,需要立即将域名指向另一台服务器(或直接将域名指向百度)。
大量的权力攻击也需要用到CDN,让CDN直接指向核心服务器就够了,这样可以更快,用户还能玩。事实上,高流量的力量攻击是无法完全避免的。
8.冗余
网站必须有冗余。例如,1000 人可以同时访问。网站的负载必须达到 2,000 个并发用户。
9.服务器
服务器的配置需要三张网卡,一张用于用户连接和外部访问(更好的网卡)。一种用于外网服务器之间的访问。一个是用来ssh管理的,所以我们也可以在攻击比较多的时候操作服务器。
每个网卡也需要多个IP地址,以免某个IP被阻塞。国外网络和美国网络经常有IP不好用。硬盘至少要镜像(raid1),cpu必须是双向的,双电源,其实应该不会出现单点故障的。至于肉盾墙的配置可以再低点,连台式机的配置都可以,而且网络一定要好,尤其是有核心服务器的网络一定要好。
10.数据库
数据库需要主从复制,必须有异地备份,nginx服务器需要集群,也就是。前台(提供用户访问页面)和后台(员工管理界面)应该使用两台不同的机器,互不影响。其余的服务可以使用虚拟机完成。
这样可以省钱。邮箱直接购买的gmail商务邮箱就可以了。这是非常容易使用。最好没有人拥有。或者在公司内部搭建自己的聊天软件(最好借钱买聊天软件)。
11.测试环境
需要三套测试环境。开发者需要自己的笔记本上的环境,局域网上的一套测试环境,互联网上的一套测试环境,以及生产环境。局域网的测试环境一定要稳定。可以买一个机柜和其他网络设备一起买,不要用普通的笔记本。局域网必须有svn或git代码管理工具。全面测试后,上传到生产环境。
12.肉盾墙和核心服务器
肉盾墙和核心服务器之间必须能ping通命令,这样才能看到哪个IP地址不能用,才能看到网络连通性。
13.运维人员
至少两个,如果有一个运维主管和一个运维人员就足够了。这样,所有的运维工作都必须有操作文件,两个人协同工作,不需要轮班,24小时随叫随到。一个网络管理员就足够了。
普通的运维部门就是这样。如果是大型网络架构,会有自己的数据中心机房,后期安排人员。
14.Linux系统优化与安全
一定要有优化和安全配置,比如nginx是基于cpu优化的,每个程序都是基于cpu和显存的限制。
所有密码应每 3 个月更改一次,尤其是域名的帐户和电子邮件密码。域名是最重要也是最容易受到攻击的环节。
15.局域网
局域网一定要稳定,可以买两条至少10M带宽的网线,也可以买联通wifi,让员工手机上网。
16.机房
如果是小型网络架构,必须有自己的核心机房,而不是租用机房。每个职位由几个人组成,包括运维工程师、数据库管理工程师、网络工程师、安全工程师、存储和备份系统。具有运维经验的工程师负责协调各部门之间的工作。目前,一个运维就可以完成所有的工作。
17.运维工具
运维的工具要统一,比如使用连接数据库的工具,使用crt工具连接服务器,使用密码管理工具,使用上传服务器代码的工具等。运维人员协调性更好。
此外,运维必须有大量的时间去学习。每天都要上网找新技术、好资料,而且最好懂英文,因为好的技术文档都是用英文写的。这对运维工作很有帮助,但运维的技术实力会大大提高,并计划满足更大的需求。
18.灾难恢复计划
最后,要有一个计划,就是一旦服务器出现大问题,就无法解决。这个时候不要解决服务器,使用计划,启用备份计划,尽快使网站可用。
平时多做计划演练,也多做备份还原操作,因为有些备份不可用,这是普遍现象。关键时刻不要让备份不可用,整个网站就完蛋了。
19.服务器安全
必须有一套完整的安全配置,包括用户安全、应用安全、系统安全、文件安全等。这样可以防止服务器被黑客入侵。
20.高并发测试
一定要做高并发测试,模拟2000个同时在线用户,看服务器负载,服务器高并发配置。网络方面是机房问题,要选择最合适的IP地址、最合适的机房、出口带宽。
高并发是服务器架构的问题,而不仅仅是单个服务器。应该花的地方一定要花,能省钱的地方一定要懂得省钱。
21.运维信息
所有运维信息由两个人共享,包括密码和服务器配置步骤。团队由运维总监带队服务器运维,形成了一个相互学习、技术实力强、目标一致的和谐团队。让团队中的每个人都得到他们想要的。
运维总监的人很重要,否则,留不住人,就不会一起努力。运维工作技术不是最重要的。由于学习和使用这个职位已经来不及了,所以工作心态/个性和经验是最重要的。
22.服务器日志
对于服务器搭建日志,必须记录所有服务器的所有操作,并写入时间操作的内容。在生产服务器上运行之前,必须进行风险评估和解决方案。
23.运维工作
应用上线后,运维工作才刚刚开始。具体工作可能包括:升级版本上线工作、服务监控、应用状态统计、日常服务状态检查、突发故障处理、日常服务变更调整、集群管理、服务性能评估与优化、数据库管理优化、应用框架扩展,随着应用 PV 的增减,安全、运维的发展。
核心运维管理工具箱
重点介绍了运维流程管理、运维发布变更、运维监控告警三个具体工具,可以作为工作日记使用。
第一类:运维流程管理工具
1.发布变更流程管理工具
作为系统套接字与其他角色进行连接工作。并提供审批链接,控制发布变更的风险。流程管理工具不负责具体业务操作的执行,而只是作为一个收据系统来跟踪流程并确保闭环。
2.警报和事件管理工具
手动创建和管理突出服务损坏的警报。人工确认后,升级为紧急订单。通过创建订单来管理告警和突发事件,保证流程的闭环,每次故障都可以总结经验,提供KPI,无需衡量业务的可用性。
第二类:运维发布变更工具
1.版本管理工具(数据库)
所有版本都应该从版本管理开始。开发的版本包首先放入版本管理工具,然后从版本管理工具分发到现网。避免将一台服务器同步到另一台服务器的做法。
2.配置管理工具(数据库)
版本加配置等于现网每台机器的状态。最细粒度的配置管理到IP级别,相当于机器的资产管理,分为模块、区域等不同的业务概念。一点粒度将管理流程和流程的相关配置。
3.配置和版本分发工具
指定的版本,结合配置的配置,下发到现有网络上的机器上。不同的版本和配置方式需要完全不同的交付形式。ssh/ 代表的交付方式是以脚本为中心的。/chef 所代表的交付方式是以配置为中心的。
4.直播网络状态同步工具
为避免现网状态漂移,与管理工具中的记录不一致。需要有一个工具来定期报告现网的实际状态。
5.服务调度工具
发布更改通常需要一个串行过程,首先做 A 模块,然后是 B 模块。当机器多时,需要并发执行并发操作,并保证非并发操作的串行执行。同时,很多发布变更流程都需要超出运营管理范围的服务,比如云中的DNS服务器记录。这就需要一个用于统一调度配置和版本分发的服务调度工具,一个进程接收工具,以及将其他系统的API套接字组装成一个进程。
6.资源管理和隔离工具
以xen/kvm为代表的工具可以让运维更灵活地削减资源。比如虚拟机的快速启动和停止,idc中ip的甩尾等。以lxc/为代表的工具可以让运维进一步削减资源到进程级别。资源隔离代理的细粒度资源控制可以带来更好的资源利用率和更容易扩展的资源配置。
7.发布变更的统一接口
它封装了所有上层工具,并提供了一个简单的接口来完成标准化的发布和更改操作。
第三类:运维监控报警工具
1.收集工具
通常是日志文件的集合,也可以是 DB 或其他系统定期寻址的套接字。一个流行的开源解决方案是 .
2.采集工具
采集工具上报采集工具。或者,开发者可以直接修改代码,将指标上报给采集工具。该过程的开源解决方案仍然存在。
3.统计库存工具
报告可能每次调用都会上报一次,统计工具负责统计一分钟内的次数。报告也可能每5秒报告一次数值,统计工具负责计算一分钟内的最大值。存在便于报告的统计工具。流行的开源方案是也有大公司基于Storm做二次开发。
4.时间序列数据库
所有时间指标都将进入数据库。监控告警所需的数据库需要支持特别大的数据量,但没有严格的ACID要求。
5.运维风暴数据库
记录所有警报。包括从其他系统获取警报,记录现有网络的所有变化。该数据用于支持警报的因果位置。
6.指标异常检查工具
基于物理模型,判断指标是否偏离过去的稳定模式,推断网络状态的变化。
7.拨号测试工具
定期PING或HTTP GET,模拟真实用户,判断服务是否中断,并形成告警。同时,也形成指标并上报采集系统。拨号测试分为本地拨号测试和远程拨号测试。本地拨盘测试可用于检测只读C盘等本地告警。远程拨号测试可以模拟用户的地理分布,网络链路状态也包含在拨号测试的覆盖范围内。
8.报警收敛工具
综合各种来源的告警,进行频率收敛,分析问题的症结所在。统一汇总成报告,督促人工维修。
9.警报手动修补工具
接收手动处理的警报。帮助运维人员完成将固定故障机下架退回仓库的操作。或者,如果服务本身不高可用,可以在现网进行故障机更换、IP拖尾等修复操作,在一定程度上提高服务可用性。
10.报警通知工具
重要的警报需要升级到电话。需要有高可用的电话、邮件、陌陌等通知套接字。
11.监控报警统一界面
屏蔽各种上层工具,为代理安装、指标采集设置、指标曲线展示、告警查询提供统一的界面。一个地方可以了解当前网络的所有问题。
优秀运维总监的能力
1、系统架构设计和规划能力。作为技术工程师,你更关注具体的技术、问题分析、故障排除等细节,而作为运维总监,你需要站在全局的高度,把控各个环节的需求。规划设计系统架构,实现高效稳定的IT系统。
2、量化和管理问题的能力。熟悉ITIL及相关运维工具,通过运维管理工具,跟踪风暴进程,实现整个IT系统的统一协调;通过运维管理工具,帮助运维人员监控和定位问题的症结所在;通过知识库的积累可以有效解决人事变动后的管理问题。可以说,IT系统不仅需要人的运维,要想发挥IT系统的最大作用,还需要借助工具来量化和规范化管理。我们可以使用一些手动工具来收集和输出更全面的监测预警信息,变被动运维为主动运维;可以使用人工运维工具,将多点集中管理减少到一个点,可以更好的简化运维工作量,提高运维效率。标准流程清晰明了,这样当出现问题时,不会出现A部门要求B部门反馈,B部门要求C部门处理的情况。C 可能会说是 D 部门的问题,导致一个很简单的问题无法得到。及时有效的处理不仅影响业务本身,也影响部门之间的投诉。可以使用人工运维工具,将多点集中管理减少到一个点,可以更好的简化运维工作量,提高运维效率。标准流程清晰明了,这样当出现问题时,不会出现A部门要求B部门反馈,B部门要求C部门处理的情况。C 可能会说是 D 部门的问题,导致一个很简单的问题无法得到。及时有效的处理不仅影响业务本身,也影响部门之间的投诉。可以使用人工运维工具,将多点集中管理减少到一个点,可以更好的简化运维工作量,提高运维效率。标准流程清晰明了,这样当出现问题时,不会出现A部门要求B部门反馈,B部门要求C部门处理的情况。C 可能会说是 D 部门的问题,导致一个很简单的问题无法得到。及时有效的处理不仅影响业务本身,也影响部门之间的投诉。不会出现A部门要求B部门反馈,B部门要求C部门处理的情况。C 可能会说是 D 部门的问题,导致一个很简单的问题无法得到。及时有效的处理不仅影响业务本身,也影响部门之间的投诉。不会出现A部门要求B部门反馈,B部门要求C部门处理的情况。C 可能会说是 D 部门的问题,导致一个很简单的问题无法得到。及时有效的处理不仅影响业务本身,也影响部门之间的投诉。
3、团队的管理和协调。大多数时候,运维人员都在做简单重复的工作,很难得到终端用户的肯定。曾经有一个词“穷困潦倒”来形容运维工程师。工作站上没有人。刚坐下,电话就不停地打来。有什么问题需要解决,就会有人来找你。这样的场景大家应该都有体会吧。标准化流程的制定尤为重要。不仅方便了问题的排序,还可以让对应的问题找到对应的人。这对于运维来说非常重要,也有利于团队协作。作为运维总监,还要关心团队中的每一位成员,协调好每一位工程师的工作时间和CASE,合理安排工作任务。另外,肯定每一位工程师的努力,对他们的优秀工作给予积极的肯定和表扬,有助于凝聚人心,培养团队的荣誉感。
4、资产管理和审计能力。准确了解公司现有IT资产和设备,对设备进行整治,明确每台设备的磨损和维护信息。当公司需要购买新机器时,会有明确的数据支持您的购买请求。当设备出现故障或变化时,通过以往的数据,可以实时掌握第一手准确数据。并且随着公司业务的发展和分支机构和员工的增加,资产管理和审计将变得更加重要,IT运维支持的意义将更加巨大。
5、能够形成运维梯队,合理匹配运维资源。人员管理问题在运维中更为重要。很多情况下服务器运维,由于运维工作分配不合理,难以准确评估绩效。如果将运维人员划分为一、二、三线支持,不同运维人员各司其职,使有限的运维力量得到合理利用,整体工作效率将显着提高;评估他们的工作表现。据此,制定相应的奖惩措施,或者针对不同的岗位提供不同的服务技能培训,也可以提高员工的积极性。例如,将所有 IT 问题汇总到技术服务台。对于绝大多数(80%以上)的问题,服务台可以直接解决;如果服务台无法解决问题,则根据问题处理的优先级分配不同级别的运维。动力保证不同问题的处理,运维人员不会错过需要及时处理的重大问题。如果服务台无法解决问题,则根据问题处理的优先级分配不同级别的运维。动力保证不同问题的处理,运维人员不会错过需要及时处理的重大问题。如果服务台无法解决问题,则根据问题处理的优先级分配不同级别的运维。动力保证不同问题的处理,运维人员不会错过需要及时处理的重大问题。
6、技术创新和积累能力。运维总监本人需要有很强的技术能力,需要熟悉各种设备、不同的操作系统、各个环节中的应用、数据库、存储、备份容灾、调优、安全等。有具体问题和重大问题,要听取团队的意见,让计划因您的补充和建议而更加确定。很多时候,在具体细节的处理上会有技术创新,同时也是对你的一次学习和积累。针对每个主要问题和处理过的典型问题,编写技术文档,并随着时间的推移生成知识库。
7、见面和分享的能力。会议有时是一种很好的交流方式,但显然有时你可能会厌倦它们。这可能是由于其程式化、单句或题外话,无法解决实际问题。尽管会议的作用是:
规范化:为您的项目、任务、工作理解、反馈、描述、执行等带来一致性。降低内部沟通成本,提高团队效率。
可视化:追求项目的可视化是项目管理的最高境界。层层分解,需要各级管理者对项目和任务的进度、风险和问题进行一目了然的管理。
项目管理:通过团队各个维度的管理,项目管控、人员工作安排、团队学习提升、工作方向调整等。
理念贯彻与方向:贯彻公司文化和团队文化,统一你的理念和模式。传达内部领导的指示部署,明确下一步工作的重点和方向。
解决具体问题:针对难点,提供指导或集思广益,集思广益。
最后谈谈如何成为一名优秀的运维总监。谁是优秀的运维总监?他们具备以上七种能力才能优秀吗?许多人的脑海中似乎有不同的定义。我认为优秀经理需要具备的素质之一就是带领团队不断进步。并拥有永无止境的精神。
看看,这么多能力,你缺什么?