在分布式系统中一致性是很重要的。1990年Leslie Lamport提出基于消息传递的一致性算法 Paxos 算法，解决分布式系统中就某个值或决议达成一致的问题。Paxos 算法流程繁杂实现起来也比较复杂。

2013年斯坦福的 Diego Ongaro、John Ousterhout 两个人以易懂为目标设计一致性算法Raft。Raft一致性算法保障在任何时候一旦处于leader 服务器当掉，可以在剩余正常工作的服务器中选举出新的Leader服务器更新新Leader服务器，修改从服务器的复制目标。

概念

复制状态机 (Replicated state machines)

将集群中的每个服务器看做一个状态机，它们接收外部的指令，进行状态的改变，例如机器的存储器就可以看做是一个状态机。不考虑硬件错误，这样的状态机是一个确定型状态机，即只要初始状态和接收到的指令是确定的，那么它任意时刻的状态也是确定的, 这样以来，所谓保持分布式一致性即是保证集群中所有状态机的状态一致性。

角色：领导人 (leader)、跟随者 (follower) 和候选人 (candidate)

所有服务器结点划分为 3 种角色：leader、follower、candidate。一旦 follower 在给定的时间内没有收到来自 leader 的心跳包，它便认为 leader 出了故障, 于是转变自己的身份为 candidate 进行领导人的竞选

任期 (term)

raft 将系统时间划分为一个个任期 term，每一个任期都设置一个整型编号，称为任期号。每一个任期可以进一步划分为两个子段，其中第一个子段是选举期，第二个子段是任职期。选举期将竞选产生集群的领导人，若领导人选举成功，则进入了任职期，在任职期内只要领导人持续保持健康状态（即持续不间断地向其他跟随者发送心跳包），则这个任期可以无限期地持续。当然选举不一定都是成功的，可能存在没有任何候选人胜出的情况，这样会进行下一个任期，重新进行选举。raft 采用了特别的机制来尽可能地避免一个 term 中没有任何候选人竞选成功的情形出现

日志 (log) 与日志复制 (log replication)

在 raft 协议中，指令是以日志的形式的传递的，虽然集群中有 N 个结点，但只有一个 leader 结点接收客户端的请求（注意 raft 本身是不涉及主从分离的，主从分离实现是业务代码实现的事）。其它所有结点接收来自 leader 的复制日志 Replicated log，从而进行状态的变更，所有服务器结点按序执行相同的日志，从而保持状态一致性

日志提交 (commit)

leader 在接收到客户端请求之后，会产生一个相应的日志项 log entry，leader 不会立即执行这个指令，而是先会进行日志项复制，当日志项被成功地复制到集群中 半数以上 的结点后，领导人才会提交这个日志项，并执行其中的指令
由于主节点会等待从节点的同步结果，因此 raft 保证的是 CP

Raft一致性算法

Raft 将一致性问题分解为了3个子问题：

leader 选举：leader 挂掉时，选一个新 leader，选举算法
日志同步：leader 在时，由 leader 向 follower 同步日志
安全性：确保每一个状态机都以相同的顺序执行相同的指令

1. 主节点选取 Leader Election

当 follower 超过特定的时间没有收到 leader 的心跳之后， follower 将变为 candidate，发起新一轮选举
选举投票依据三个变量：任期（选主轮数）、数据同步进度（日志索引偏移量）、随机超时时间
- 每个结点拥有一个 currentTerm 变量，表示了当前的任期号，或者说选举轮数。发起选举时 follower 会将自己的 currentTerm 变量加一，然后向中其它结点发送投票 RPC 请求。同时它也会将自己的选票投给自己，当候选人收到了过半选票时便选举成功
- 为了避免多个节点都发起选举、大家票数一样的情况，每轮选举都有超时时间，且每个点的超时时间都是随机的
- 这样先超时的点将先进入下一轮选举，currentTerm 就更大。其他 candidate 碰见更大的任期将放弃参选
follower 会拒绝 term 比自己小的 master 的数据，避免脑裂

2. 日志复制 Log Replication

raft 将日志组织成线性结构，日志是由日志项串联而成的，同时会有一个索引来标识每一个日志项的相对位置
主节点接收到命令后，写入日志，同步给从节点。收到半数以上 ACK 时，才提交
每一个日志项可以用一个二元组来表征：

log entry := (term_number, command)

领导人对所有的跟随者维护了一个 nextIndex 列表，记录下一个同步给 follower 的进度
如果因为选主导致从节点同步进度滞后，从节点将会拒绝新数据，主节点会不断补发旧数据，直到追上进度为止
如果主节点落后于其他从节点呢？参见下面

3. 安全性约束 Safety

1. 领导者追加日志

领导者永远不会覆盖已经存在的日志条目
日志永远只有一个流向：从领导者到追随者

2. 选举限制：投票阻止没有全部日志条目的服务器赢得选举

为了保证主节点进度不落后于其他从节点的情况，raft 限制那些进度落后的候选人，不允许成为新的领导人
节点发起投票请求时，会带上自己最新的日志的索引和任期，收到该请求的结点会检查自身的日志是不是比候选人的更新

3. 永远不提交任期之前的日志条目（只提交任期内的日志条目）

领导人不允许直接提交任期号为之前任期的日志

4. 候选者和追随者崩溃

主向从同步数据时，可能因为节点挂了、网路波动收到不到从的回复
raft 的应对方案是简单的无限重试，为此需要保证结点之间信息传递的幂等性。比如直接忽略已处理的日志

4. 集群成员变更 Cluster Membership Changes

直接从一种配置转到新的配置是十分不安全的。可能会有的节点转新失败。raft 采用了两阶段提交的方案
首先当集群要进行扩容或缩容时，需要向领导人发送配置变更请求
领导人收到请求后会将旧配置和新配置取并集 C，形成一个过渡配置，然后将该配置作为一个日志项广播给集群中的所有其它结点
- 只有收到 C 的节点才有资格参与选主
领导人会再生成一个新的日志项, 该日志项中只含新配置，作为第二阶段的提交

上面的论述仅仅解决了更新配置过程中的安全性问题，但还有一些性能问题需要进一步分析。

首先第一个问题是当集群中有新结点加入的时候，它的历史日志是空的，因为可能需要耗费很久的时间来追日志
1. 因此新节点加入后只同步主节点，不参与竞选。直到追平后才变为正常节点
领导人可能被下线，即领导人不在新配置中
1. raft 会把它变为从节点。由于系统没有领导人，所以一段时间之后会自发启动领导人选举，进而产生新配置下的领导人
更新配置之后，某个结点可能不在新配置中了，但如果它没关机，收不到心跳会触发选举，扰乱集群
1. raft 规定如果从节点能正常收到主的心跳，则无视其他点的选举请求
2. 被下线的节点收到新配置、发现自己被下线后，应停止发送数据

日志压缩

日志会随着系统的不断运行会无限制的增长，这会给存储带来压力，几乎所有的分布式系统(Chubby、ZooKeeper)都采用快照的方式进行日志压缩，做完快照之后快照会在稳定持久存储中保存，而快照之前的日志和快照就可以丢弃掉。

Client交互

Client 只向 leader 发送请求；如果向非 leader 发送请求，会被拒绝并重定向到 leader 节点
Client 请求失败，会超时重新发送请求；

Raft 算法要求 Client 的请求线性化，防止请求被多次执行。有两个解决方案：

每个请求有个唯一标识；
Raft 的请求保持幂等性；

Raft 协议应用

redis 选主（采用了类似的做法，但不是直接应用 raft
- redis 哨兵/集群模式下半数节点将主标记为客观下线才会触发选主，这和 raft / ZAB 一个从节点连不上就触发选主不同
kafka 2.8 抛弃了 zk，改用 raft，实现了个叫 kraft 的
- zk 选举时整个集群不可用。一般选举很快，但也有慢的情况，例如碰上 FullGC
分布式数据库：TiDB
服务发现：Consul、etcd

和 Paxos 区别

Paxos 侧重于大方向上理论，实现方案各家都不同。Raft 作者包含了很多细节，都有伪代码了。
Raft 中，leader 必须存有全部 commited 的日志。Paxos 则不一定，节点即使不包含所有日志也可能选上 leader，选上后再靠别的机制补日志。

参考

论文原文

论文译文

牛吃草-Raft协议原理详解

raft算法与paxos算法相比有什么优势，使用场景有什么差异？

孙同学 - Raft 一致性协议完整解析

何约什 - Raft一致性算法笔记

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Raft协议.md

Raft协议.md

概念

复制状态机 (Replicated state machines)

角色：领导人 (leader)、跟随者 (follower) 和候选人 (candidate)

任期 (term)

日志 (log) 与日志复制 (log replication)

日志提交 (commit)

Raft一致性算法

1. 主节点选取 Leader Election

2. 日志复制 Log Replication

3. 安全性约束 Safety

1. 领导者追加日志

2. 选举限制：投票阻止没有全部日志条目的服务器赢得选举

3. 永远不提交任期之前的日志条目（只提交任期内的日志条目）

4. 候选者和追随者崩溃

4. 集群成员变更 Cluster Membership Changes

日志压缩

Client交互

Raft 协议应用

和 Paxos 区别

参考

Files

Raft协议.md

Latest commit

History

Raft协议.md

File metadata and controls

概念

复制状态机 (Replicated state machines)

角色：领导人 (leader)、跟随者 (follower) 和候选人 (candidate)

任期 (term)

日志 (log) 与日志复制 (log replication)

日志提交 (commit)

Raft一致性算法

1. 主节点选取 Leader Election

2. 日志复制 Log Replication

3. 安全性约束 Safety

1. 领导者追加日志

2. 选举限制：投票阻止没有全部日志条目的服务器赢得选举

3. 永远不提交任期之前的日志条目（只提交任期内的日志条目）

4. 候选者和追随者崩溃

4. 集群成员变更 Cluster Membership Changes

日志压缩

Client交互

Raft 协议应用

和 Paxos 区别

参考