从0开始学架构

Finnnnnnnn　　简书　　综合　　编辑:不死鸟逆　　图片来源:网络

随着移动互联网的发展智能终端的普及，计算机系统早就从单机独立工作过渡到多机器协作工作。计算机以集群的方式存在，按照分布式理论的指导构建出庞大复杂的应用服务，也已经深入人心。

架构设计的目的

主要目的是为了解决软件系统复杂度带来的问题。

架构设计的三大原则

合适、简单、演化
1、合适优于业界领先
2、简单优于复杂
3、演化优于一步到位

高性能、高可用、可扩展性

高性能增加机器目的在于”扩展“处理性能;
高可用增加机器目的在于”冗余“处理单元;

高可用

”状态决策“,即系统需要能够判断当前的状态是正常还是异常,如果出现了异常就要采取行动来保证高可用。

高可用状态决策:
1、独裁式(决策者决定)
2、协商式(主从决策)
3、民主式(投票)

可扩展性

两个基本条件:正确预测变化、完美封装变化

应对变化:将“变化”封装在一个“变化层”,将不变的部分封装在一个独立的“稳定层”。

一、高性能

数据库集群:读写分离、分库分表
NoSQL、缓存架构
单服务器:PPC与TPC、Reactor与Proactor
负载均衡:分类及架构、算法

(1)读写分离

读写分离的基本原理是将数据库读写操作分散到不同的节点上。

两个设计复杂度:主从复制延迟和分配机制

复制延迟

解决方法

写操作后的读操作指定发给数据库主服务器
读从机失败后再读一次主机
关键业务读写操作全部指向主机,非关键业务采用读写分离

分配机制

将读写操作区分开来,然后访问不同的数据库服务器,一般有两种方式:程序代码封装和中间件封装。

(2)分库分表

业务分库

按照业务模块将数据分散到不同的数据库服务器。比如把用户数据、商品数据、订单数据放在三台不同的数据库服务器上。

带来问题
1、join操作问题
2、事务问题
3、成本问题

分表

单表数据拆分有两种方式:垂直分表和水平分表

垂直分表:将表中某些不常用且占了大量空间的列拆分出去。
水平分表:适合表行数特别大的表。

水平分表的路由算法

1、范围路由
2、Hash路由
3、配置路由

(3)NoSQL

关系数据库存在如下缺点:

存储的是行记录,无法存储数据结构
schema 扩展很不方便
在大数据场景下 I/O 较高
全文搜索功能比较弱

常见的 NoSQL 方案分为 4 类

K-V 存储:解决关系数据库无法存储数据结构的问题,以 Redis 为代表。
文档数据库:解决关系数据库强 schema 约束的问题,以 MongoDB 为代表。
列式数据库:解决关系数据库大数据场景下的 I/O 问题,以 HBase 为代表。
全文搜索引擎:解决关系数据库的全文搜索性能问题,以 Elasticsearch 为代表。

(4)缓存架构

1. 缓存穿透

指缓存没有发挥作用,业务系统虽然去缓存查询数据,但缓存中没有数据,业务系统需要再次去存储系统查询数据。通常情况下有两种情况:

存储数据确实不存在
存储系统中存在数据,但缓存数据生成耗费大量时间或者资源,或刚好在业务访问的时候缓存失效了

2. 缓存雪崩

指当缓存失效(过期)后引起系统性能急剧下降的情况

缓存雪崩的常见解决方法有两种:更新锁机制和后台更新机制。

1. 更新锁
对缓存更新操作进行加锁保护,保证只有一个线程能够进行缓存更新,未能获取更新锁的线程要么等待锁释放后重新读取缓存,要么就返回空值或者默认值。

2. 后台更新
由后台线程来更新缓存,而不是由业务线程来更新缓存,缓存本身的有效期设置为永久,后台线程定时更新缓存。

3. 缓存热点

缓存热点的解决方案就是复制多份缓存副本,将请求分散到多个缓存服务器上,减轻缓存热点导致的单台缓存服务器压力。

不同的缓存副本不要设置统一的过期时间,否则就会出现所有缓存副本同时生成同时失效的情况,从而引发缓存雪崩效应。正确的做法是设定一个过期时间范围,不同的缓存副本的过期时间是指定范围内的随机值。

(5)单服务器高性能模式:Reactor和Proactor

PPC 模式最主要的问题就是每个连接都要创建进程,解决这个问题是将 read 操作改为非阻塞,然后进程不断地轮询多个连接。但轮询是要消耗 CPU 的;

为了解决上述问题,只有当连接上有数据的时候进程才去处理,这就是** I/O 多路复用技术的来源**。

I/O 多路复用结合线程池,取了一个很牛的名字:Reactor。

Reactor 模式的核心组成部分包括 Reactor 和处理资源池(进程池或线程池),其中Reactor 负责监听和分配事件,处理资源池负责处理事件。

Reactor 模式有这三种实现方案:

单 Reactor 单进程 / 线程。
单 Reactor 多线程。
多 Reactor 多进程 / 线程。

1. 单 Reactor 单进程 / 线程

优点:没有进程间通信,没有进程竞争,全部都在同一个进程内完成。
缺点:无法发挥多核 CPU 的性能;只能采取部署多个系统来利用多核 CPU。

只适用于业务处理非常快速的场景,目前比较著名的开源软件中使用单 Reactor 单进程的是 Redis。

2. 单 Reactor 多线程

优点:充分利用多核多 CPU 的处理能力
缺点:多线程数据共享和访问比较复杂。例如,子线程完成业务处理后,要把结果传递给主线程的 Reactor 进行发送,这里涉及共享数据的互斥和保护机制。

3. 多 Reactor 多进程 / 线程

多 Reactor 多进程 / 线程的方案看起来比单 Reactor 多线程要复杂,但实际实现时反而更加简单,主要原因是:

父进程和子进程的职责非常明确,父进程只负责接收新连接,子进程负责完成后续的业务处理。
父进程和子进程的交互很简单,父进程只需要把新连接传给子进程,子进程无须返回数据。
子进程之间是互相独立的,无须同步共享之类的处理(这里仅限于网络模型相关的select、read、send 等无须同步共享,“业务处理”还是有可能需要同步共享的)。

目前著名的开源系统 Nginx 采用的是多 Reactor 多进程,采用多 Reactor 多线程的实现有Memcache 和 Netty。

(6)负载均衡

高性能集群的复杂性主要体现在需要增加一个任务分配器,现在更流行的叫法是“负载均衡器”。

常见的负载均衡系统包括 3 种:DNS 负载均衡、硬件负载均衡和软件负载均衡。

DNS 负载均衡

一般用来实现地理级别的均衡。

DNS 负载均衡的本质是 DNS 解析同一个域名可以返回不同的 IP 地址。例如,同样是 www.baidu.com,北方用户解析后获取的地址是 61.135.165.224(这是北京机房的 IP),南方用户解析后获取的地址是14.215.177.38(这是深圳机房的 IP)。

优点:就近访问,提升访问速度
缺点:更新不及时、扩展性差、分配策略比较简单

硬件负载均衡

硬件负载均衡是通过单独的硬件设备来实现负载均衡功能,这类设备和路由器、交换机类似,可以理解为一个用于负载均衡的基础网络设备。目前业界典型的硬件负载均衡设备有两款:F5 和 A10。

软件负载均衡

软件负载均衡通过负载均衡软件来实现负载均衡功能,常见的有 Nginx 和 LVS,其中Nginx 是软件的 7 层负载均衡,LVS 是 Linux 内核的 4 层负载均衡。4 层和 7 层的区别就在于协议和灵活性,Nginx 支持HTTP、E-mail 协议;而 LVS 是 4 层负载均衡,和协议无关,几乎所有应用都可以做,例如,聊天、数据库等。

负载均衡典型架构(三种组合使用)

二、高可用

(1)FMEA 方法

在架构设计领域,FMEA 的具体分析方法是:

给出初始的架构设计图。
假设架构中某个部件发生故障。
分析此故障对系统功能造成的影响。
根据分析结果,判断架构是否需要进行优化。

(2)高可用储存:双机架构

析常见的双机高可用架构:主备、主从、主备 / 主从切换和主主。

(3)高可用储存:数据集群和数据分区

数据分区

设计一个良好的数据分区架构,需要从多方面去考虑
1. 数据量:数据量的大小直接决定了分区的规则复杂度。
2. 分区规则:
3. 复制规则:

(4)异地多活架构

异地多活架构可以分为同城异区、跨城异地、跨国异地。

跨国异地:

为不同地区用户提供服务
只读类业务做多活

异地多活 - 四大技巧

优先实现核心业务的异地多活
保证核心数据最终一致性
采用多种手段同步数据(MySQL 的主备复制、Redis 的 Cluster 功能、Elasticsearch 的集群功能)
只保证绝大部分用户的异地多活

异地多活 - 四步走

第 1 步:业务分级
访问量大的业务、核心业务、产生大量收入的业务

第 2 步:数据分类
数据量、唯一性、实时性、可丢失性、可恢复性

第 3 步:数据同步
存储系统同步、消息队列同步、重复生成

第 4 步:异常处理
多通道同步、同步和访问结合、日志记录、用户补偿

(5)应对接口级的故障

导致接口级故障的原因一般有下面几种:

内部原因:程序 bug 导致死循环,某个接口导致数据库慢查询,程序逻辑不完善导致耗尽内存等。
外部原因:黑客攻击、促销或者抢购引入了超出平时几倍甚至几十倍的用户,第三方系统大量请求,第三方系统响应缓慢等。

解决接口级故障的核心思想和异地多活基本类似:优先保证核心业务和优先保证绝大部分用户。

应对接口级的故障方法:
1. 降级:系统将某些业务或者接口的功能降低,可以是只提供部分功能,也可以是完全停掉所有功能。
2. 熔断:降级的目的是应对系统自身的故障,而熔断的目的是应对依赖的外部系统故障的情况。
3. 限流:只允许系统能够承受的访问量进来,超出系统访问能力的请求将被丢弃。
4. 排队:限流的一个变种,限流是直接拒绝用户,排队是让用户等待一段时间