我国联通 赖羿明:沃云渠道高可用实践共享
本文摘要:我国联通 赖羿明:沃云渠道高可用实践共享上云全体来讲是个趋势,除了国家政策驱动之外,选用云核算与虚拟化的技能,确实会为使用者和租户带来显着的优点。首要会显着提高IT根底设备资源的使用率,通过虚拟化的技能我们可以大起伏提高单台CPU、内存还有存储使
我国联通 赖羿明:沃云渠道高可用实践共享 上云全体来讲是个趋势,除了国家政策驱动之外,选用云核算与虚拟化的技能,确实会为使用者和租户带来显着的优点。首要会显着提高IT根底设备资源的使用率,通过虚拟化的技能我们可以大起伏提高单台CPU、内存还有存储使用率,可以用更少的投资做更多的事。

赖羿明:各位下战书好,首要请允许我先毛遂自荐一下,我来自联通云数据有限公司与研制部,我的名字叫赖羿明,现在上任于我们联通云公司的高级项目司理职位,我也很侥幸能跟从我们联通云数据公司跟了很多职业和政企大的项目,也使我生长颇多。同时对我们整个开源云核算这个职业以及我们沃云本身都有一个更深的了解。今天跟我们共享的题目是沃云渠道高可用实践共享。

当下无论各位的企业仍是政府,他们本身都有很强的动力,去将自己原本的IT信息体系往云上布置。上云全体来讲是个趋势,除了国家政策驱动之外,选用云核算与虚拟化的技能,确实会为使用者和租户带来显着的优点。首要会显着提高IT根底设备资源的使用率,通过虚拟化的技能我们可以大起伏提高单台CPU、内存还有存储使用率,可以用更少的投资做更多的事。同时针对更多的中小企业来讲,他们通过购买第三方的的平台资源,可以减少各种非核心的IT根底设备的投资,他们将可以更加专注专注于自己的事务。第二点,云核算具有布置活络和可扩展性高的特点,应用运转在云核算的各种虚拟化的设备中,本身与物理机是解耦合的,可以便利的完成资源的管理和调度的分配,同时也能够完成资源的快速交给注册、按需扩展规模。第三点,提高我们整个IT环境管理的功率,使用虚拟化的东西和统一的云渠道监管的平台,我们可以对云资源完成统一的分配和调度,提高全体的管理功率。四是借助云渠道,借助整个虚拟化的各种技能,可以有用提高效劳应用的可靠性、效劳的接连性。比如说一般来讲我们的云渠道,我们的核算节点都会以集群的形式对外提供效劳,单台节点挂掉之后,我们可以很便利的使用我们的云技能,将所有的寄宿在这台宕掉的主机中迁移到健康的虚机中,来保证事务的高可用性和事务的接连性。

除了上云会带来一些新的技能和完成的改变,更重要会带来管理形式的改变。在传统企业的信息化的建设上,假如选用这种传统的方式,或者说这种烟囱式的形式,通常每一套应用体系均要布置一套属于自己的效劳器、硬件渠道、数据库以及中心件。依据我跟过的许多项目来讲,他们原则有关的这些信息化体系假如选用烟囱化的方式建,根本上很难进行统一的管理,同时他们每一个体系因为是单独建设,会有自己单独的规划、单独的需求,很难做到体系之间的互联互通。选用购买的方式,我们就适当于为整个部分进行一个统一的资源的分配、资源的管理,当事务部分想要构建自己的应用体系渠道的时分,我们直接从统一的管理平台将各种可需要的资源以效劳的方式交给给他,完成这种活络、快速的布置,就由这种传统涣散的功率低下的管理形式变成了集中高效统一的管理形式。

同时选用云化之后,对整个平台运维也提出了更高的要求。首要我们所有的云渠道建设实践上都要以客户的事务为驱动,客户购买云效劳肯定想专注于自己的事务应用,更多的研究自己的事务为起点。在应用往下这层,他们不想过多投入精力。作为一个云效劳商,我们构建云渠道,必然要把愈来愈多接近事务侧的一些组件、通用的功用归入我们提供效劳的规模内,要将愈来愈多接近事务侧的东西变成我们规范化、模块化的效劳,去提供应用户,去完成事务的快速交给、活络布置,提供一个可靠的支撑的IT环境,也就是说我们的云效劳商必然要从提供传统的通用的IaaS层向提供PaaS效劳和SaaS效劳进行转化,越靠近于SaaS层,建的云渠道的等级越高,关于我们整个平台的可用性和运维都提出了更高的要求。同时因为我们选用的是这种大集中式的建设方式,集中化的提高会带来大管理、大运维,全体来看对我们的运维和平台的高可靠性提出了更高的要求。

我现在再来说一下我们联通所谓坚持选择这种开源的道路,我们这个沃云渠道是依托于当年我们联通研讨院的一项项目,他们当时对市道上干流的开源的云核算无论是底层的虚拟化技能仍是云管理平台开源的软件,最终确定使用OpenStack加KVM来满足我们沃云开展的需求。用OpenStack+KVM,首要我们得到几点优点,一是开放,OpenStack是一个庞大的安稳的开源社区,也能够通过开源的方式去解除这个厂家的锁定。同时我们通过OpenStack,我们可以提供平台型的处理计划,我们通过OpenStack+KVM的方式,不光搭建我们的公有云资源池,也同时为我们的客户搭建私有云或者专享云的处理计划。同时选用了开源的方案,我们可以减少许多license的开销,是一个低投资低本钱的方式。同时OpenStack自己本身所有的接口都是规范化的,二次开发的难度下降。同时各位组件具有松耦合的特性,我们在专享云中可以依据客户的各类需求进行活络的分配。同时还有易用性。这个图是我们沃云渠道使用了各类的开源组件,左面主要用的OpenStack内部的组件,首要是比较重要的Nova、cinder、neutron、MySQL等等这些内部的组件,除了OpenStack内部的这些功用效劳的组件,我们还交融了很多其他的开源的组件,去丰厚我们沃云渠道的功用,比如我们使用haproxy完成高可用和负载均衡,vyatta提供VPN,Zabbix完成整个云渠道对物理资源和虚拟资源统一管理监控的平台,还有很多,不逐个赘述。

在我们沃云了解的云环境的HA或者这个高可用,主要是分三个层次,首要是运用层的HA。它可以包括应用级的双活、主备或者数据级的备份,或者说虚拟机层面的高可用。往下一层就是所谓的云控制效劳和IaaS层的HA,实践上就是云的高可用。最底层是硬件以及根底设施的高可用,包括基础的网络、基础的各类硬件设备以及机房环境条件的高可用。本次我跟我们共享的主要是云环境、云渠道的高可用。

说了这么多高可用,先说一下高可用究竟是什么,有些要害的概念。首要高可用的界说,在本地单个组件发生故障的状况下,可以继续拜访应用的才能。这种效劳的才能一般来讲我们可以用效劳的SLA或者这个效劳的可用性来描述。这个效劳的可用性一般来讲我们可以用这个效劳是有几个9的可靠性来描述,比如四个9,某项效劳的可用性达到99.99%,意味着在一年傍边这项效劳只有52.56分钟是不可用的。假如更高一个层面,比如说99.999%,就证明这个效劳一年中不可用的时间只有5分钟左右9个个数越多,可靠性越高。什么叫效劳的不可用,首要应用无法拜访,效劳终端,应用拜访缓慢,无法继续对外提供这种效劳。这个不可用实践上协调分两类,首要是方案中和非方案中的,方案中,因为我们守时的对硬件软件进行晋级而形成的方案内的对外效劳不可用的形式,一种是方案外,软硬件突发的故障导致的不可用。从全体高可用的方针上来讲,我们当然期望这个云渠道所有的效劳是一直可用的,物理层面也是一直没有宕机的。但现实中这个问题一定会存在,所以我们在高可用这个层面上来讲,我们实践的方针实践上是要下降故障发生的频率,也要下降单次故障发生的时间,下降故障所波及的规模,同时尽量通过我们云渠道各类高可用的技能,让客户对平台发生的故障是没有感知的。

针对高可用我们也是有两种通用的切换维度,首要是RTO,事务康复时间方针,RPO数据康复时间方针,针对这种本地的效劳的HA,我们主要垂青的是事务康复时间的维度。高可用框架布景下,我们的效劳分为两类,一个是有状态效劳,一个是无状态效劳,有状态的效劳,他的下一次效劳的请求是依赖于上一次效劳请求关联的关系。无状态的效劳,每次效劳请求与请求之间,彼此之间没有强联络。这种效劳的分类是我们选用何种高可用的方案有着很大影响,关于我们HA的完成方案的品种,我们分两种,一种是所谓的Active/Passive,一般来讲需要主备的方式,另外还有一种叫Active/Active,假如是两台就是双活,假如是多台就是多活。

全体介绍一下我们沃云使用OpenStack的这些组件这些架构,我们主要在OpenStack里边使用的组件是neutron、nova、glance、ironic、trove等,glance为虚机、数据库提供镜像效劳,ironic是我们新纳过来的一个组件,是用来提供整个沃云渠道里物理机及效劳的需求。我们现在具有RDS效劳有RDS for MySQL。

基于沃云OpenStack底层的架构,我们实践上是对原生的三节点的布置方式进行了一种小的调整,原生OpenStack三节点布置,我们需要布置一个控制节点,一个核算节点和一个网络节点,针关于虚机整个云渠道东西向流量,因为虚机都是散布于多个核算节点之中,所以说东西向的流量就会由不同的核算节点相互之间进行流转。可是假如是想进行南北向通讯,所有的流量都会合中到我们所谓的网络节点中。假如当这个云渠道的规模十分大之后,所有的南北向的流量都会合中流向网络节点再向上,这个网络节点就会成为我们整个资源池整个平台中一个性能的瓶颈。为了消除这个瓶颈,我们做了一个简略的改动,在原生架构之上,我们将独立布置的网络节点进行了消除,我们将其内含的所有的组件散布布置在核算节点中,这样每一个核算节点有了南北向流量通讯的才能,从而为我们整个沃云的架构安稳性和可靠性都有提高。

介绍一下我们现在全体的沃云渠道里高可用完成的这些事情。首要针对云渠道中不同的组件,我们肯定是要依据不同的完成的策略去完成我们所谓的高可用。可是我们也一定要确定一个完成的规则和完成高可用的原则。第一个,定添加冗余节点,无论在硬件上仍是云渠道的软件上,防止呈现单节点的故障。第二个是我们要量体裁衣的依据不同的效劳选用比较成熟的failover毛病恢复的技能。我们在高可用的方案实践上,我们尽量要采纳多活的方式加负载均衡这种方式,类似于集群的方式去完成。假如我们完成困难,再使用所谓的主备的方式完成效劳的高可用。同时我们也尽量在平台中使用OpenStack原生技能,完成困难无法便捷完成功用的时分,我们再引入外部东西。

首要我向我们介绍的是我们沃云渠道针对我们OpenStack管理节点高可用的实践。全体来讲,我们主要做了这么几件事情,我们用了三台物理节点构成集群,使用MySQL Galera这个插件,同时用RabbitMQ构建集群,用haproxy进行负载均衡。我们对管理节点高可用,我们采纳的所谓的高可用的方式是想采纳多组多活的方式,我们一定要在物理节点冗余的选择上采纳奇数。同时用MySQL Galera这个插件去完成MySQL数据库的集群化,多机读写,保证三台管理节点和数据库数据的一致性。类似的RabbitMQ,音讯行列也是一样的,我们也是跨三个节点布置这个集群,然后去保证三台节点中音讯行列和镜像信息的一致性。虚拟IP,我们引入了Keepalived引入了对外效劳的虚拟的IP,通过它我们可以做到这个虚拟的IP在三台管理节点的网卡中进行自在活络的调度分配,遇到故障之后可以进行漂移。在管理节点中,相同也会运转很多OpenStack的api的效劳,在我们这个平台里这些组件根本上都是无状态的,我们会在每一台管理节点中都布置相同的效劳,通过Haproxy进行集群的负载。

这张图展示了一下我们整个管理节点所用到的所有的组件,无论是keepalived仍是Haproxy等,全体上我们做到了管理节点上的多组多活。

到了网络组件,首要介绍一下L3,我们选用的是社区里边提供的原生的VRRP方案,虚拟路由协议的方案,我们也通过引入keepalived去完成vrouter高可用。在两台核算节点上,我们分别启一个vrouter,通过心跳监测,当备vrouter接收不到主vrouter,就认为主的宕掉了,它就起来去效劳。网络组件另外一个是DHCP Agent HA,完成起来仍是比较便利的,在我们实践中,一般在多个网卡的控制节点去布置多个DHCP的Agent,为了为某个租户的网络提供多个DHCP的效劳,去完成所谓的高可用。

接下来是核算节点高可用,我们首要肯定是核算节点发生之后之后,我们的处理办法,要将故障核算节点上的虚拟机都活络的漂移到健康的宿主机中。可是我们完成的方式是这样,我们将比如每三台或每五台核算节点,我们在这个资源池内划成三个或五个为一组,查看管理网、存储网和事务网的连通性。比如说pute1这个节点,通过事务网络一直pin pute2和pute3,假如发现一直pin不通,它的虚拟拜访不到网络,效劳出问题,也就说明pute1出了问题,这个时分要出发我们自己相应的虚拟机迁移机制,将虚机往健康的宿主机上去迁移,完成所谓核算节点高可用。

说到存储节点,我这边主要介绍一下我们Cinder-volume效劳高可用。首要我们也是引入casemaker,选用主备的方式,我们的策略是在每一个沃云资源池AZ布置多个cinder-volume效劳,以这种主备的方式完成cinder-volume效劳的高可用。

针对全体高可用实践的总结,首要通过我们之前这些分析和角度,这关于云渠道来讲,高可用性、高运维度是云渠道本身一个亮点的东西,它也是在构建我们云出产环境中有必要具有的才能。我们平时在客户进行交流的时分,我们肯定会或多或少扩大云可以提供的带来的优点,高可用是在我们沃云构建中考虑得十分多的一件事情。在选择高可用这个形式方面,我们尽量是以多组多活的方式为主。我们基于OpenStack原生的功用以及对本身效劳的特性进行二次开发,完成了云管理节点高可用、网络组件高可用以及存储和核算节点高可用。

以上我提到的所有的功用现已广泛应用于我们沃云渠道,现已效劳了我们绝大大都客户。一些十分前期的客户我们也将会通过我们云渠道迭代晋级来完成上述的这些功用。

再简略说一下我们通过沃云渠道现在现已效劳了哪些客户和完成了哪些事例。我们的事例主要包括五大省级的政务云。沃云渠道,我们云公司提供了从顶层设计调研规划开始,一直到应用的布置迁移,以及私有云运用布置的一套的处理计划。我们除了深耕政务云,我们也着力打造教育云,通过OpenStack开放特性,我们也完成了物理平台和虚拟化平台混合布置的架构。同时我们还做外企的车联云的平台,通过我们的平台与第三方云渠道API的调测,我们提供异构的布置,承载国际客户车联信息化的平台。同时我们也为很多省份的环保云渠道做过成功事例,首要他们使用公有云、私有云混合布置,通过我们沃云渠道提供大数据的效劳才能的支撑。关于企业这块,我们也有公有云,通过我们公有云按需付费、按量使用的方式,我们为很多中小企业也进行了效劳的支撑。针对政务云来讲,我们深耕细作,于本年3月也率先推出了沃云电子政务云的白皮书,在这个白皮书里边我们推出了电子政务云很多规范化、模块化的产品以及对流量的模型,以及云网一体化整体架构进行了说明,我们云公司期望通过对我们这个云渠道深耕细作以及对这个职业的深化了解,要从一个职业的参加者变成一个规则的制定者。

我今天的共享到此完毕,谢谢我们!