redis 的 LRU 算法（二）

前文再续，书接上一回。上次讲到 redis 的 LRU 算法，文章实在精妙，最近可能有机会用到其中的技巧，顺便将下半部翻译出来，实现的时候参考下。

搏击俱乐部的第一法则：用裸眼观测你的算法

Redis2.8 的 LRU 实现已经上线了，在不同的负载环境下经过测试，用户没有抱怨 Redis 的清理机制。为了继续改进，我希望能观察到算法的性能，同时不会浪费大量 CPU，不增加 1 比特空间占用。

我设计了一个测试用例。导入指定数量的 key，然后顺序访问他们，好让他们的最近访问时间顺序递减。再添加 50% 的 key，那么之前的 key 有 50% 就会被淘汰掉。理想情况下，被淘汰的应该是前 50% 的。如下图：

绿色的是新添加的 key，灰色的是第一次添加的 key，白色表示被移除的。

LRU v2：不要丢掉重要信息

当采用了 N-key 取样时，默认会建立 16 个 key 的池，将里面的 key 按空闲时间排序。新 key 只会在池不满或者空闲时间大于池里最小的，才能进池。

这个实现极大的提升了性能，实现又简单，没有大 bug。只要一点点性能监控和一些 memmove() 就完成了。

同时，新的 redis-cli 模式（-lru-test）支持测试 LRU 精度，可以更接近真实的负载来看新算法的工况，尝试不同算法的时候，至少可以发现明显的速度退化。

最近最少访问（LFU）

我最近又部分重构了 Redis cache 的换页算法。这些工作源于一个 issue：当你在 Redis 3.2 有多个数据库的时候，算法总是做局部选择。比如 DB 0 的所有 key 都用的很频繁，DB 1 的所有 key 都用的很少。Redis 会从每个 DB 里丢弃一个 key。理性的选择应该是先丢弃 DB 1 的 key，丢完以后再丢 DB 0 的

Redis 用作 cache 的时候，通常不会跟不同 DB 混合用，但我还是开始着手改进，最后将 db 的 id 包括在池里，然后所有 DB 都共用一个池，这个实现比原始先快 20%

这次改进激起了我对 Redis 这块子系统的好奇心。我花了好些天进行优化，如果我用一个大点的池子，会好点吗？如果选择 key 的时候考虑了流逝的时间，效果会不会更好？

最后，我终于明白到，LRU 算法会受到取样数量限制，只要数量足够，效果就很好，很难再改进。正如上图所示，每次取样 10 个键，已经和理论上的 LRU 几乎一样准确了。

因为原始算法难以改进，我开始想其他办法。回顾前文，其实我们真正想要的，是保留未来最有可能访问的 key，即是最常访问的 key，而不是最新访问的 key。这就是 LFU 算法。理论上 LFU 的实现很简单，只要给每个 key 挂一个计数器，我们就可以知道给定的 key 是不是比另一个 key 访问更多了。

当然，LFU 的实现上有几个通用的难点：

LFU 里没法使用链表法转移到头部的技巧了。因为完美 LFU 需要 key 严格按访问量排序。当访问量一致时，排序算法可能劣化为 O（N），即使计数器只变了一点点
LFU 没法简单的只在访问时对计数器加一。因为访问模式会随着时间发生变化，所以一个高分的 key 需要随着时间流逝而分数递减。

在 Redis 里第一个问题不是问题，我们可以沿用 LRU 的随机取样方法。第二个问题仍然存在，我们需要一个方法来递减分数，或者随着时间流逝将计数器折半。

24bit 空间实现的 LFU

在 Redis 里，我们可以用的就是 LRU 的 24bit 空间，需要一些奇技淫巧来实现。

在 24bit 空间里，需要塞下：

某种类型的访问计数器
足够的信息来决定何时折半计数器

我的解决方案如下：

           16 bits      8 bits
      +----------------+--------+
      + Last decr time | LOG_C  |
      +----------------+--------+

8bit 用来计数，16bit 用来记录上次递减的时间

你可能会认为，8bit 计数器很快就会溢出了吧？这就是技巧所在：我用的是对数计数器。具体代码如下：

  uint8_t LFULogIncr(uint8_t counter) {
      if (counter == 255) return 255;
      double r = (double)rand()/RAND_MAX;
      double baseval = counter - LFU_INIT_VAL;
      if (baseval < 0) baseval = 0;
      double p = 1.0/(baseval*server.lfu_log_factor+1);
      if (r < p) counter++;
      return counter;
  }

计数器的值越大，真正加一的概率越小。上述代码算出一个概率 p，介乎 0 到 1 之间，计数器越大，p 越小。然后生成 0-1 之间的随机数 r，只有 r<p 的时候，计数器才会加一。

现在我们来看看计数器折半的问题。转成分钟为单位的 unix 时间，低 16 位会存在上面保留的 16 位空间内。当 Redis 进行随机取样，扫描 key 空间的时候，所有遇到的 key 都会被检查是否应该递减。如果上次递减实在 N 分钟之前（N 是可配置的），并且计数器的值是高分值，那计数器就会被折半。如果计数器是低分值，则只会递减。（希望我们可以更好的分辨少访问量的 key，因为我们的计数器精度比较低）

还有一个问题，新的 key 需要一个生存的机会。Redis 里新 key 会从 5 分开始。上面的递减算法已经考虑到这个分数，如果 key 分数低于 5 分，更容易被丢弃（一般是长时间没访问的非活跃 key）。