5.3 定期分析讨论IT设备运行状态和运行质量,对比各项数据,排除潜在故障隐患,提出改进意见; 5.7 收集和反映公司IT设备使用人员的意见和建议,完善IT设备功能改进IT设备性能,为全公司用户提供满意的服务。 6. 内部职责的划分 运维管理保障人员包括:管理人员技术操作人员。 6.1 管理人员由运维科相关负责人和高级桌面工程师担任。 计算机运维管理规定 版本1.0 6.2 技术操作人员由运维科全体桌面技术人员组成。 7. 人员职责 7.1 管理人员职责 a 完成公司运维的日常行政管理工作,负责检查督促考核技术操作人员的工作情况。 b 建立桌面管理方面相关技术及管理规范和制度,并组织公司各部门积极落实。 c 负责公司IT类硬件设备的硬件维修维护。 d 负责对终端用户计算机使用提供技术支持。 e 负责各类标准桌面系统的安装使用维护用户技术支持与问题的解决。 f 根据不同的岗位职责制定标准桌面清单。 g 负责制定终端设备使用管理规范和维护制度。 h 协助网络工程师确保计算机网络系统正常运行。 7.2 技术操作人员职责 a 公司IT类硬件设备的硬件维修维护。 b 对终端用户计算机使用提供技术支持。 c 各类标准桌面系统的安装使用维护用户技术支持与问题的解决。 d 对终端用户进行标准桌面系统进行培训。 e 对各部门信息员进行日常运维的管理培训。 f 外单位维修的协调及跟踪服务。 8. 计算机运维管理办法 计算机运维管理办法主要包括计算机运维晨检机制,计算机运维行为准则和安全保密制度。 8.1 计算机运维晨检机制 计算机运维每日晨检内容包括: 计算机运维管理规定 d 确认OA流程平台上的报修单的维修状态,已经完成的认真填写,做好记录;未完成的列入当日工作计划,及时帮助用户解决问题。 8.2 计算机运维行为准则 a 非工作需要,不得任意远程连接或者使用用户电脑; b 遵循“先沟通得到用户许可,再动手解决问题”的基本服务策略; c 开始维修操作之前须提示用户自己或帮助用户保存当前工作内容; d 维修过程中在进行有可能对用户数据造成破坏的操作前,需将其可能造成的后果告知用户,相关数据妥善保存后,再进行下一步操作; e 未经用户许可,不得对任何文件进行采集存储传递使用,在帮助用户使用移动介质转移文件之后,须当面彻底删除移动介质内的文件拷贝; f 无论因任何原因跟用户产生意见分歧,不得跟用户争吵,可在事后将事情经过以口头或书面的形式向领导汇报,然后沟通处理问题。 9. 服务
本节主要描述在运维过程中无论是主动检查或是用户报修问题的记录,解决和跟踪过程中的行为准则。 9.1 面向用户服务用语规范 第一句:“您好,信息技术部运维科, 请问你有什么需要帮助吗 ” 计算机运维管理规定 版本1.0 症状吗 ” 第四句:“请问该问题最早是什么时候发生的,当时你做了什么操作 ” …… 无论距离远近,气候好坏,工作量大小,只要接到用户的报修单,我们就能确保30分钟内做出响应。对于比较远的地点,我们保证当日内到达现场。 我们的服务理念:及时响应,优质服务! 我们还对自己的服务提出了以下具体的承诺: a 30分钟内对客户申报的服务请求做出回应。 b 节假日及周六日有人值班,保证用户随报随修; c 维修人员及时抵达现场维修,以最快速度到达客户指定地点; d 实行“先检测故障,再报所需流程,最后排除故障”的服务政策; e 修不好或查不出故障,及时寻求帮助,不解决问题决不罢休; f 服务不满意,用户可随时投诉,而且我们会给出反馈单通知用户; g 对于需要硬件维修更换的IT产品,维修费用透明化,提供专业发票备档,可随时查询; 10. 本规定的最终解释权属于信息技术部 IT运维资质申请指南 一计算机信息系统集成企业资质运行维护能力评定条件 1综合条件 企业变革发展历程清晰,产权关系明确,从事计算机信息系统运行维护业务的时间不少于三年; 企业注册资本和实收资本均不少于1000万元; 企业财务状况良好,财务数据真实可信,须经在中华人民共和国境内登记的会计师事务所审计; 2经营业绩 近三年的运维收入总额不低于1亿元或不低于3000万元且运维收入总额占营业收入总额的比例不低于30%; 近三年运维项目涉及的用户数量不少于两个,合同额每年100万元及以上的项目不少于两个,这些项目有较高的技术含量且应用了拥有自主知识产权的运维平台产品或工具; 主要业务领域中典型项目具有较高技术水平。 3 管理水平 已建成完善的企业管理信息系统并能有效运行; 企业的主要负责人从事信息技术领域企业管理经历不少于4年,运维业务主要技术负责人应具有电子信息类高级技术职称且从事运维工作经历不少于4年,财务负责人应具有财务系列中级及以上职称。 4技术和人才实力 有经过登记的具有自主知识产权的运维平台产品或工具,且在已实施的运维项目中加以应用; 从事运维相关工作的人员不少于50人,其中大学专科及以上学历人员所占比例不低于70%;
拥有与所从事的计算机信息系统运行维护规模及领域相匹配的高级计算机信息系统运行维护专业人才; 已建立合理的人力资源管理培训与考核制度,并能有效实施。 二IT运维资质申请全流程 备注说明:目前整个流程中只开展了进行符合性评估,并且现已经发了18家符合性评估证书,也是第一批下发证书,流程中后续申请还没出台相关政策,暂时不能做。 符合性评估申请 1流程 2受理部门 3申请资料清单 《信息技术服务 运行维护 第1部分:通用要求》符合性评估申请表; 组织级运维服务目录; 运维服务能力管理计划包含与运维服务能力管理相关的组织架构和管理职责说明; 运维服务能力质量管理机制和相关计划运维服务能力管理计划或相关计划的具体实施方案; 运维服务能力管理改进机制包括改进策略改进流程服务能力改进计划等; 组织与运维服务能力有关的培训计划; 运维服务能力管理及运维相关岗位职责说明; 服务台管理制度; ; ; ; ; ; ; ; ; 知识库管理和使用制度; 针对运维服务的技术研发说明文件。 运维能力评定申请 1流程 向深圳市科技工贸和信息化委员会提出计算机信息系统集成企业资质运维能力评定申请——材料初审——通过初审后出具推荐函——向资质办提出运维能力申请——审批——发证书。 2受理部门 科工贸初审,资质办审批。 3申请材料清单 计算机信息系统集成企业运营维护能力认定申报表; 科工贸的推荐函; 其他附件材料。 实习目的: 实习报告 通过毕业前的实习巩固自己在大学期间所学的相关知识,锻炼自己实际的工作经验,熟悉Linux运维相关知识。锻炼自己在工作中的人际关系。让自己在毕业之后能尽快实现从学校到社会的转变。 实习任务: 1巩固大学期间所学的知识。 2学习互联网企业的运营模式。 3延伸Linux的应用,学习实现系统运维。 4了解服务器的相关知识,为系统运维打下坚实基础。 实习内容: 2熟悉公司所用服务器的各个型号,了解服务器的架构知识,学习RAID和远程管理卡的相关知识,并能够在服务器中部署。学习磁盘阵列的设置及其部署知识。 3在Linux下熟悉应用项目的部署,包括apachetomcatnginx等服务器的部署,并且把应用项目成功部署在tomcat服务器。 4熟悉应用项目的负载均衡配置日志切割数据备份等一些服务器优化软件和工具,为应用项目做好各个方面的优化。 5熟悉oracle数据库,了解应用项目所需的oracle数据库,可以在项目中正确部署oracle数据库。
6深入学习Linux系统知识,了解工作的基本原理与工作之中常见的问题,做好系统的运维工作。 实习结论: 经过在广州市文渊信息科技有限公司三个月的实习, 使我真正认识了什么是Linux运维。学到了大学期间没法学到的知识,并且巩固了大学期间所学的知识。除此之外,我还了解了IT企业的运营模式。 实习体会: 能够从事Linux运维工作,我感到非常开心,我也非常珍惜这个来之不易的机会,在这段实习期间我学到了很多东西,也见识了很多从来没有见过的企业级的网络设备和服务器。从企业级服务器,交换机,路由到磁盘阵列和负载均衡设备。实习的时间虽然不长但是我的收获是无限的。相信实习的经历必将对我未来的工作产生深远的影响。我从以下几个方面来分析和总结这段时间的工作。 入职公司。 我进这公司,是我的一个同学介绍的,他介绍我到那公司去面试,结果通过了。第二周就可以到公司上班了,是从事Linux运维工作。 第一天去公司上班心情非常激动。我是到公司的工程部,职位是系统工程师,这个职位我很喜欢。我心底里想,我一定要以出色的工作来报答这个职位,要做一位出色的系统工程师。 当我在实习劳务合同上签下自己名字的那一刻我对自己说,我的职场生活从这里开始了。我的实习生会在这些配置下正式开始了。 工作性质。 来到一家公司就等于自己已经踏入了社会,我们再也不能像在学生时代那样随意和散漫了。我们要按时的完成自己的工作,我们要在工作中不断的去学习区超越。 来到公司的第一天,我就要对我们这个工程部有个全面的认识,我们负责公司家校通项目服务器的运维工作。听到我们的工作我被震撼了,原来我们这个部门这么重要,我们是整个公司运作的基础,我们工作的好坏直接关系到公司服务是否正常。 工作的态度
人性总是有一些弱点,公司太一帆风顺时会觉得工作乏味没有挑战性;工作太有挑战性时,觉得自己没有那么强的能力去把他做好,因为满眼的都是困难措折痛苦和压力。人们最喜欢那种事情在自己的掌控当中,又有一些可以创新的工作和小的挑战,我就是那种人。但是在现实生活中,很难碰到适合自己味口的工作。前段时间工作积极性特别的高涨,但是在写这篇报告时,心情却沉入了低谷,所以言词可能比较消极。在做一件事前,我就在想“要么不做,要做就做到最好”,所以我会尽一切努力去把它们做好。在遇到困难时,想想为什么会出现这种问题,有什么解决方法,哪些是我可以做到的,哪些是需要别人帮助才能完成的。“罗马不是一天可以建成的”,要每天多学一点,长久后才可以成长起来。人总是在与自己搏奕,有时赢了有时输了,人的心理在不断的辗转。 在工作时需要注意以下几点: 1上班就得专心做公司的事,下班时一定要完成自己手中的工作,不要把工作留在第二天。同时更重要的是我们要多学些东西,多想自己的事情,要明白什么是自己真正想要的,努力提升自己在工作中所欠缺的各种知识和技能。 2在对公司各种设备的应用熟悉的请框下,我们还要学习相关的原理知识,因为我们在未来的工作中海会遇到各种未见过的问题,这不仅需要我们的经验,更需要我们队设备原理的理解。 4要懂得任何时候一个故障的排除都是对自己的一次考验和积累。 5广交人源,耐心主动,这样才能从他们身上学到更多的经验。 6思考什么路才是最适合自己的,面对生活,自己要怎样去选择,怎样去坚持和放弃。 7遇到问题,多思考为什么出现这种问题,要通过什么方式才能解决。 8多总结前人的经验和自己的经验,避免在后面的路出现问题。 与人的交际 对于一个实习生来说,工作对我们的要求相对较低,很多工作室不能让我们独立去完成的,所以没个工作我都会有个正式员工的带领,没词工作的师傅都不是一个人,我们必须学会与每个同事想处,这样我们能够正常的完成工作,同时我们在与其交流中我们还能学到他们的经验。如果相处的好的话他们会给自己一些小的建议和意见,这对自己是很重要的,这对未来能否在这个工作中转正也是起到很大作用的,因为这是他对工作的总结,这样可以减少自己在工作中的弯路。 目前我遇到的困难有:
软件内容太多,很容易忘记,有的很容易记混淆。公司大部分软件都是使用了开源的软件,这些软件在学校是很少接触的,更是学校所部讲的内容,自己必须在他们的文档和官网信息中学习各种软件的使用 公司根据公司的需求会在开源的软件中作相应的定制,这些和公版的软件是有很大的区别的,所以我们得在学习公版的基础上学习公司的定制版,同时我们还得思考为什么实施这些定制。 公司采用的服务器的型号中多,在不同型号中又有略微的差距,在外形上他们长的很像,我们要学会统计这种东西,找到自己的方法逐渐趋认识他们。 linux的应用简单,但是真正到了现实的应用,在服务器上跑上了很高 的负载那服务器的优化时很困难的,任何改动都会导致系统的不正常,这需要我们队这种知识不断的去积累。 人际交往:如何与各色人群打交道。虽然上次于经理给我讲了一个轮构,但是很多东西还是要自己去实践,去摸索的。各种各性性格的人,男人: 经理工程师采购,女的,性格开朗的,沉稳的还要很深的研究。 生活的态度 才刚刚工作不久就感觉心理变得苍老。勤劳的人是让人钦敬的,但所接触的朋友说“多年的工作让我清楚这个社会的运转不是控制在辛勤劳动的人手上,而是那一班根深帝固的政治家资本家手中...工作中的认真负责不是为了讨好表现,而是为了要冶练自己的品性,是在为自己,不是为老板”。 生活就像是一场游戏,每个人在进入游戏当中时,扮演的角色不同,玩游戏 的目的不同,心态不同,也就注定了在这场游戏中的命运。态度是一个很重要的 事情,生活是一种态度,工作也是一种态度,这是工作两年体会最深的,也是收获最大的。以一种积极的态度去面对生活,以一种负责的态度去做好工作,心态调整好了,其他的都是细节。 回想起工作过程中那些不堪回首的渐近崩溃放弃的关头,坚定的态度是那么一点一滴在铸就起来,一个被人认可的人首先一定是一个认真负责的人,一个认真负责的人无论到哪里都可以站得正。相对于经验和技术而言,这些都是可以积累的,可以日久能熟的,但是否能有正确的态度却是因人而异的,有的人永远让人感觉畏锁。我从来没有把现在的工作当作实习,我就是认定我是在工作,而不是来学习东西的。我是为工作而学习,学习是为了把工作做得更好。 期望 希望可以从事运维方面的工作,工作越来越好。
《谈网站或其他服务器运维》,这里只谈运维工程师所要做的细节工作,让人们知道运维工程师到底都在做些什么,至于上级所要做的,只是提一下,不做参考。 以下是个人观点,我说的只是我自己的想法,也是我发展的目标。你可以有异议,我们是来交流的。你对的我肯定会向你学习。因为我也在摸索。运维工程师至少要能做以下的工作: 1,网络工程师的工作 你至少要能配置CISCO 6509以下的设备,熟悉各种网络协议,否则网络出问题的时候你会傻掉。 2,系统工程师的工作 你至少要理解各种系统服务,在出问题的情况下要迅速解决问题,而不是等系统工程师来解决。 3,安全工程师的工作 我不要求你一定要会各种网络编程,但是在服务器收攻击的情况下,没有防火墙的情况下,做一些简单的处理工作。 4,存储工程师的工作 至少要熟悉各个厂商的设备,各种备份和还原的办法 5,测试工程师的工作 6,研发人员的工作 运维工具都需要自已开发,熟悉开发语言,需要有过实际开发经验,否则工作会非常痛苦,我深有体会。 7,英语 不想说了,我的最大痛苦就在这里 9,库房管理员 10,运动员 不要回家就睡觉,有空还是运动下吧;在服务器down机的时候,机房恰巧就你一个人,机柜没有空间,你需要更换一台HP 585 4U的服务器,满配约80公斤的服务器,你怎么做 这个我不想说什么,这是你的职业精神。 12,组织者 给你2个啥都不会的民工,再给你2000台服务器,要求你2天把服务器装完,你咋办 13,1-7条中,你必须有一条非常精通,是这个行业的专家。否则过了32岁,没有公司要你。 大家看了肯定觉得这个人是神仙,但是这必须是你慢慢能做到的,至少是我6年来运维经验的一点总结。 我去面试过的一些公司都说,你什么都会,什么都不精。我说对,正是需要我们这些什么都会的人领导什么都精的人。 我这句话没有贬低大牛的任何意思,只是当时一个临场的发挥。虽然说完就知道这个面试白来了,但是我还是想为广大的运维工程师出口气。 不怕千招会,就怕一招精。这仍旧是我给大家的建议。
这就是大家羡慕的SA ,你也不要抱怨自己做了SA,生活就是这样。所以不要再争论哪些xxx员应该归属于SA,系统管理员或是运维工程师,如果想做这行,就安生的当一个“快速响应者”,这是你的职业,也是你需要做到的。作为一个SA,你肯定经历过通宵好几天加班做事,你肯定经历过饭买来已经忘记了吃,你肯定经历过几天加班没睡觉,着个沙发坐下就失去知觉睡倒没有经历过不能说你不好,只能说你管理的机器太少。 我公司是每月发21天工资,某两月我一月发了44天工资一月发了47天工资,创全公司建司7年来加班记录项目做完自然也就落了个部门通告表扬,然后的结果就是健康情况急剧下滑,然后就是某天晚上在机房内加班一通宵,穿着短裤进机房,然后一个通宵被机柜下面的冷风吹了个关节炎这就是做SA的代价。 有的东西是企业机密,我不能透露也不能给你相关文档。 一,架构设计 现在你要做的,就是设计你的服务器架构和网络架构。这要先看你的网站是做什么的,每日有多少的人数访问, 例如,我打算站点初期每日有20000左右的访问量,和1000人左右的并发量。我可以用我的人数并发量1000×站点中每个页面的平均大小200k×每个访问用户可能要打开4个网页=800 000k=800M的网络流量当然这个数字肯定是非常的过分,至于为啥,自己可以想下 然后可以用测试环境用软件检测在你的真实环境下的服务器压力,比如在2000人在线的情况下,服务器的cpu占用多少,内存占用多少。 等服务器,足够我跑一个这样简单的网站。其实说白了,双奔3都够,真的。当然你网站的流量比我要大的多,那你可以买的更好一点的服务器。或者负载均衡器。 网络架构 mysql是一台服务器。这样你要算服务器要多少台,交换机要多少口,防火墙要买什么级别的。 哪些服务器可以放在一个防火墙下,哪些服务器不用防火墙保护,哪些服务器是内网服务器, 需要什么样的网络连接,最好是画出大致拓扑,方便你预算设备花费。 服务器交换机等设备选型和购买 说的简单点就是买什么机器,你可以和google一样开始,买几台pc作为你的网站服务器,也可以自己组装一台服务器 或者也可以和我一样,去挑选品牌服务器当然,现在你要看你服务器做什么的,
最后就是价钱问题了,这个你自己看着办吧。让你公司的财务或者采购出马砍价付钱就是了。当然,除了服务器的服务,你最好还是想想有利于自己的服务,比如人家公司可以帮你拆箱子了什么的。我做的最弱智的一件事情就是,来了400台服务器,50个交换机,8台EMC,我一个人花了一星期把箱子才全部拆完 机器选型的时候你也要为自己考虑,比如HP的ILO功能,可以让你远程BIOS级操作服务器,比如浪潮的自动资产管理等等,为自己管理服务器提供便利,否则机器10来台还好,100台还一般,我这里3万来台,我不死几百遍了。丢失一台服务器,几个月工钱就没了 二,IDC选择 首先要看你服务的地区是哪里,然后再去找当地的电信机房。毕竟,虽说全国已经互联了,但是各地的网速还是有差异的。 或者说有的IDC机房利用率高,虽然出口带宽大,但是利用率高的结果是导致你网速慢的原因之一。 当然,你也可以到你目标服务的地方,找个可以上网的地方进行网络测试,比如说网吧包个机器 好了,网络测试完了。那么你已经决定去哪个IDC了吧。 当然,你也可以找代理服务商,因为他们拿到的价钱有时候比电信或者网通给你的价钱低,但是,关键还是一个服务,因为你毕竟服务器放在那,晚上关键着急没人给你重启,机器出了问题其实按个F1就可以解决的问题,服务商的值班人员不懂。你就只能打晚上的打飞机去机房维护吧。 提着东西拜访一下服务商老大是礼节性的东西,东西不在多而在精,这样你未来谈事情人家也给你绿色通道,做事情要好做很多。当然,我也不反对你空手去,你一次租个100个机柜+10G带宽,人家还是很优惠的。哈哈。大家都是混口饭吃,也不至于难为你什么。 细心的检查一下空调数量,空调出厂和最后维护日期,网络布线类型和架构,是否可扩展,主备从电力等。 基本都是非常关键的东西,出问题了,人家可以给你更换一个新的,服务很好,但是你服务器挂一天的损失是多少,你可以自己掂量。 还有机柜电力,现在的机柜放置16台1U的服务器是正好,多了过于热,少了资源浪费;但是你发现人家只让你用10安培电力,过了要交钱买电; 或者不限制你用电,但是插线板只有10个,你还真买个托线板去转接 你要想想你一个托线板挂了,你服务器要挂几个 最后,我的一个机房包间里140个机柜,2个空调,结果某天挂了一个空调,虽然6小时人家IDC商就给更换了一个空调机,
结果我机器至少被热死了100台以上,机器是HP的,机器过热,HP会自动关机,而且会不让你启动。你崩溃不 注:不是给hp做广告哈。 三,服务器上架 我最霉气的是:来了20台机器,下着大雨人家给我往院子里一丢,让我自己搬上19楼,我没推车没啥的 你可以说,找电信的帮忙撒,废话,这个我还不知道。那我告诉你,我在某电信大楼工作时,从CCIE到机房主管到机房工作人员,全部是美女 虽然我在这个地方只干了5天活,我的同事们口水都有3尺长你还叫人家给你搬机器不 你可以说,雇民工撒,我又不是没雇过,钱得你自己支付,公司不给你报销的话,爽不 下面是拆箱子,面对着堆积如山的2000台服务器,我是连抬手的力气都拿不出来当时机房只有我们公司3个人+电信值班2个人 这么多箱子,除了机器和电源线留下,里头的导轨光盘等等你全部拿走,谁拆的多谁拿的多 最后按照我的要求帮忙搬到机柜上于是我们5个人是监工看人家拆箱子搬机器。 于是人家2队人找来了30多号人,一早上把2000台机器全部拆箱子完毕放到机柜上。 要是我们几个人拆,估计 最后再说个行价,服务器箱子一个价值5块钱甚至更多。你服务器到了,卖卖箱子请大家吃饭吧。别让扫地的阿姨拿走,几个无所谓,10来个箱子,够大伙儿吃顿烤肉了还有EMC的木箱子拿去养个小鸡小鸭的 42U机柜1U的服务器最好是16台。你就看着上吧。呵呵 四,安装系统和布线 好了,面对几千台服务器开始装系统,我不知道你会怎么想 全部是1U服务器有什么办法安装系统 我们公司穷,买不起刀片;而且电信不配合,要是上刀片,电路你们自己拉线,价钱还是原来的价钱;最重要的我们公司以人为本,宁愿多养个人也不愿意买个好服务器让人失业,而且不允许GHOST,因为你这是服务器,不是网吧GHOST出来的系统,我不知道谁用过,爽不。我自己是郁闷郁闷到了,莫名问题的时候,你就知道GHOST还是靠不住的。 当然这时候你最好是买个KVM,16口的KVM,一次准备16张光盘就可以用一套键盘鼠标操作16台机器。当然啦,KVM是可以级联的,我最牛一次一次一套键盘安装166台机器。郁闷的是,塞光盘塞死,插KVM线插死,配置IP配死,有时候还会弄错
办法2,你可以用NETKVM去远程安装,但是你插那些NETKVM的线路,2000个插下来,爽不 然后你继续扎KVM和网线的时候,看着和瀑布一样的网线和KVM线交错在一起。估计直接崩溃。远程KVM有的牛x的是可以分发ISO的,就是传说中的远程分发安装。可以自己买一个研究研究了,我们公司以人为本,从来不买这类高科技。 办法3,我犯贱时候发明的:我们的机器全部是RAID1,于是我安装一台raid1的机器,系统全部安装好,然后拔掉一个硬盘,插上一个新硬盘自动恢复镜像,基本10来分钟恢复好一个硬盘,插到机器上去。这样,还是比装系统来的快。当然啦,型号是一模一样的 办法4,HP的ILO2功能,实现远程分发。前提你得一台一台配置好BIOS里的ILO2。也是蛮痛苦的。IBM和DELL现在也都有这个功能,但是你在分发以前,还是得一台一台机器插上网线,配置好BIOS的IP,痛苦。然后把操作系统和机器的驱动程序和后续的软件全部做到一张DVD里,让他自动运行。然后所有的服务器远程运营这一个ISO,最好多弄几台,否则一台机器弄的慢死。 所以我喜欢linux,可以用N种办法安装系统。 好了系统装好了,电源线和网线连接完,和瀑布一样的。这时候还是尽量把他扎一下吧。 否则机器通风不畅,会导致热死。 简单办法就是电源线扎一边,网线扎一边。有钱的公司可以买个网线序号标,没钱就自己拿胶布标。 你可以随便扎,或者和给你老婆梳头一样,好好扎。哈哈 插交换机的时候,从上往下,从1-24往后,这样网络异常,数一下就知道了。 五,资产统计 假如你的机器只有2000台反而好容易管理了,但是现在我要管理的全国IDC有31个,平均每个机房有不同品牌服务器1500台。 一共大约有45000台的样子我的资产管理系统里的数字,不包含交换机,防火墙等 这时候怎么办 每季度和财务小MM一起出去旅游盘点IDC资产,幸福啊 到了机房就是我一个人干活点资产,小mm带着大口罩,披着双层的放辐射服 可怜我们这些干活的,短裤背心,IDC里一呆就是好几个月,不知道精子被辐射杀死多少 比如我现在的板凳就是一个资产号是:服务器-000010的一个4U服务器,配置是P2 300*2 256M内存 16G硬盘×4 购买时间是1999年10月,从中维修过1次,升级过1次,在哈尔滨机房-广州机房-河南机房-北京网通机房-上海公司内部测试机房-上海库房服役过。 有历史吧. 2,送到机房 看过我这个服务器去过的地方,羡慕不 见证我们公司的发展史。9年过去了,终于成了我的板凳
服务器在购买合同确定以后,就应该按照配置记录资产,并且在财务备案,资产编号一定和财务记录相同。这样这个服务器走到哪里,都有备案和记录。现在要把这个服务器送到某个机房去,搬着走吧汗 送到机房,我们要给服务器按照财务给的表格粘贴资产编号,选个顺眼的地方,不会磨损的地方。 一般是机器正面某个地方,然后是机器屁股后面某个地方,然后机器侧面把手的地方,粘贴3个,以防掉了就烦了。 然后在粘贴这个机器的应用资产号和IP标签: IP标签举例:外123.234.123.234内10.0.0.1。这2个标签你可以分开也可以在一张标签上写清楚。 这样远程上来都非常清晰自己在哪个服务器上,出问题时候也非常容易找到这个机器,不要闲麻烦,一切的麻烦都是为了以后快速的解决down机问题而做的。 当然啦,甚至在密码管理上你也可以用这个规则来设置密码,但是最好规则别让别人知道了 3,把这些信息全部录入你的资产管理系统 系统无非服务器名,IP信息,用途,机架位置,或者是否在使用一类的,我就不多讲了 4,资产系统软件交互,也可以说是监控系统。 企业可以开发一个软件,在装机的时候安装到服务器上。然后资产管理系统定时去取服务器上的信息,比如网络流量,CPU内存硬盘负载一类的东西,这样你的资产管理系统又变成了一个监控系统; 当然啦,你也可以在资产系统里集成一个远程桌面管理系统,自动载入用户名和密码,还有随机码,就可以登录系统。省的还得管理服务器密码。 然后用户的访问权限不同,看到的节面权限就不同。 比如说,监控人员没有登录权限,或者IDC人员没有登录权限一类。权限分配你自己研究好了。 5,还是IDC的工作。 话题继续回到我和财务小mm去盘点你公司比较大的话,你可以多派几个人分开去各个地方 小mm一看我们机房服务器黑压压的一片,铺天盖地的,直接无语。为啥,因为要拿着资产表一个一个核对,面对几千个机器,直接晕倒。 虽然按照资产管理系统里导出的信息,机柜号,IP号,机器从上到下的顺序都非常精确,但是你一个一个核对,还是慢。 怎么办 库房管理的工作用上了,哈哈。你买服务器或者买笔记本电脑的时候有没有注意到箱子上的条码 那个条码非常清楚的记录了这个机器的详细信息。所以黑莓手机或者NOKIA手机都有扫描条码的功能好像与主题无关 那么剩下的就简单了。 打印出来贴上去。然后买个扫描枪,和超市那种一样,不过你要买有存储功能的,否则你要端着笔记本去扫描,SB了。
然后我和财务mm本来需要一个人念号码一个人核对你要直到在机房里大喊资产号,喊一天的结果是啥,自己想,现在一个人拿一个扫描枪,按照规则一个一个扫描。完成后把数据导出后重新整理分析。直接和数据库核对,核对完成生成一张表。 表上写的非常清楚你哪个机架没有哪个机器,哪个机器不在特定的位置上,哪个机器缺少等等 这样比如说,机器位置不对扣5块钱工资,机器IP不对扣2块钱工资,或者反正扣到最后这月不给发工资了,还得倒贴点哈哈哈 六,监控架构 监控架构其实每个地方都有自己的做法,我也知道我的办法不是很先进,但是仍然拿出来和大家一起讨论 首先谈谈监控软件,一说起这个常用的东西MRTG,cacti一类的就都可以用了。只要稍微归类一下,流量展示看的还是很清楚的。 要是要监控服务一类的,那就只好启用大名鼎鼎的nagios,和一些牛x人基于这个做的一些别的商业软件。 或者就是自己做个脚本去定时探一下,不通了给你发邮件了啥的,你vim一下nagios的chack_xxx ,学习一下里头人家探测的办法,自己也能搞出来个啥东西,都还是很不错的了。 我就不清楚设置个节点,出现问题告诉人,人去操作会死啊,非要让人和机器一样一动不动的盯着显示器,TMD,官僚。虽然我没经历过,但是想也能想到。做SA,最大的要点是懒,把一些需要人做的事情都自动化但是话说回来,我公司以人为本,人海战术嘛,可以理解。 上面的帖子位子已经满了,下来的帖子在这里写。 企业实际面对的一些问题 我大概通读了veyron 大侠的文章,认为系统架构方面的我绝对不如他。我就不在这里卖艺了,那么我卖企业都会实际面对的一些问题。 1,自动化,流程化你的信息管理 为什么要自动化,这年头流行办公自动化,你丫没事还拿着工单四处签字,老土了吧。 上面说的是一个原理和意思,用这样的理念去管理你的服务器应该如何去做 当然了,你假如只有10来台服务器,就不用考虑这个了. 首先服务器采购录入资产管理系统,服务器的去向和调度都在管理系统里有提现。 这里说的是:如何去上架,维修,下架等流程控制 维修也一样了,机器坏了,或者需要重装系统,按照上面的流程,一步步走一遍,就可以了。年底统计机房一天要干多少活,省的某些领导认为机房人TMD都在闲着。机房的人呢 没有流程不干活,否则白干。
在流程系统里重启服务器,重启服务器要是要流程,就太慢了,那么你可以做一个绿色通道,写清楚原因,重启哪个机器,直接提交给相关机房人员,在你的流程系统里绑定一个短信网关,机房人员可以收到需要重启服务器的短信。准确无误。 这样代替了无纸化办公,既有自己做的事情的每一个记录,又有相关人员管理,可以量化自己的工作,免得年终奖的时候xx人有说你干的少,发的少。你把记录拉出来对比对比就知道谁多谁少了。 2,如何升级你的服务器 服务器老了,或者需要加内存加硬盘,怎么升级。 虽然说是很简单换个CPU,加个内存,加个硬盘很简单。 但是,如何控制你的配件不丢失,确定的安装到机器上利用了呢 简单,在服务器上做一个探测服务器配置的客户端,每天探测一次硬件配置发送到资产管理服务器上。 与资产管理系统的硬件配置做对比,出了问题就报错发一封邮件到机房工作人员,抄送流程控制人员一封就可以了。 至于的加内存的时候注意型号啥的问题就不说了,大家应该都没问题了 要说的是,假如你一个机柜上放的机器比较多,比如4个6个机器一摞,恰巧坏了,恰巧一个人在机房,非得解决,怎么办 简单,一个办法,但是还是需要你有力气,虽然有力学原理 比如有4台服务器,最下面的坏了, 你可以拽住最下面的把4台一起往出拉,拉出来一点,把上面3台往后推,这样一点一点的拉出来, 下面最关键: 拉到最后,前面要留出来一点,轻轻的把上面3台的尾巴着地,然后一只手抬住上面3台机器,一只手拉出下面一台机器。 上面3台一定要留出来一点,否则放下的时候,机器和机柜托板会压住你的手,你一松手,机器震一下,硬盘就挂了 所以在推进去的最后仍旧要留一点在外面,最后放下来了再推进去这最后一点。 然后就可以换或者加内存了。相对比较省劲,不危险,不会压倒自己,不会砸坏服务器的办法就是这样了。
1b
发表评论