HTTP 中的缓存
Expires
Expires 是 HTTP/1.0 中的 Header,它的作用类似于 Cache-Control:max-age,它告诉浏览器缓存的过期时间,是一个具体格式的时间字符串。
由于它记录的是一个具体的时间,浏览器之类的客户端应用会根据本地的时间与该具体时间对比从而判定是否过期。那么如果我们对本地的时间进行了修改,则 Expires 的功能显然会受到影响。
Cache-Control
HTTP/1.1 中引入了CacheControl,Cache-Control 相信大家都接触过,它是一个位于 Request 及 Response 的 Headers 中的一个字段,对于请求的指令及响应的指令,它有如下不同的取值:
请求缓存指令
- max-age=
:设置缓存存储的最大周期,超过这个的时间缓存被认为过期,时间是相对于请求的时间。 - max-stale[=
]:表明客户端愿意接收一个已经过期的资源。可以设置一个可选的秒数,表示响应不能已经过时超过该给定的时间。 - min-fresh=
:表示客户端希望获取一个能在指定的秒数内保持其最新状态的响应。 - no-cache :在发布缓存副本之前,强制要求缓存把请求提交给原始服务器进行验证。
- no-store:缓存不应存储有关客户端请求的任何内容。
- no-transform:不得对资源进行转换或转变,Content-Encoding、Content-Range、Content-Type等 Header 不能由代理修改。
- only-if-cached:表明客户端只接受已缓存的响应,并且不向原始服务器检查是否有更新的数据。
响应缓存指令
- must-revalidate:一旦资源过期(比如已经超过max-age),在成功向原始服务器验证之前,缓存不能用该资源响应后续请求。
- no-cache:在发布缓存副本之前,强制要求缓存把请求提交给原始服务器进行验证
- no-store:缓存不应存储有关服务器响应的任何内容。
- no-transform:不得对资源进行转换或转变,Content-Encoding、Content-Range、Content-Type等 Header 不能由代理修改。
- public:表明响应可以被任何对象(包括:发送请求的客户端,代理服务器,等等)缓存,即使是通常不可缓存的内容(例如,该响应没有 max-age 指令或 Expires 消息头)。
- private:表明响应只能被单个用户缓存,不能作为共享缓存(即代理服务器不能缓存它),私有缓存可以缓存响应内容。
- proxy-revalidate:与 must-revalidate 作用相同,但它仅适用于共享缓存(如代理),并被私有缓存忽略。
- max-age=
:设置缓存存储的最大周期,超过这个的时间缓存被认为过期,时间是相对于请求的时间。 - s-maxage=
:覆盖 max-age 或者 Expires 头,但它仅适用于共享缓存(如代理),并被私有缓存忽略。
Last-Modified / If-Modified-Since
这两个字段需要配合 Cache-Control 来使用
- Last-Modified:该响应资源最后的修改时间,服务器在响应请求的时候可以填入该字段。
- If-Modified-Since:客户端缓存过期时(max-age 到达),发现该资源具有 Last-Modified 字段,可以在 Header 中填入 If-Modified-Since 字段,表示当前请求时间。服务器收到该时间后会与该资源的最后修改时间进行比较,若最后修改的时间更新一些,则会对整个资源响应,否则说明该资源在访问时未被修改,响应 code 304,告知客户端使用缓存的资源,这也就是为什么之前看到 CacheInterceptor 中对 304 做了特殊处理。
Etag / If-None-Match
这两个字段同样需要配合 Cache-Control 使用
- Etag:请求的资源在服务器中的唯一标识,规则由服务器决定
- If-None-Match:若客户端在缓存过期时(max-age 到达),发现该资源具有 Etag 字段,就可以在 Header 中填入 If-None-Match 字段,它的值就是 Etag 中的值,之后服务器就会根据这个唯一标识来寻找对应的资源,根据其更新与否情况返回给客户端 200 或 304。
同时,这两个字段的优先级是比 Last-Modified 及 If-Modified-Since 两个字段的优先级要高的
OkHttp 中的缓存机制
InternalCache
1 | public interface InternalCache { |
Cache
Cache 类并没有实现 InternalCache 这个类,而是在内部持有了一个实现了 InternalCache 的内部对象 internalCache。
在Cache中可以发现, OkHttp 的缓存的实现是基于 DiskLruCache 实现的。
1 | final InternalCache internalCache = new InternalCache() { |
构建
Cache的构建是在创建okhttp的时候。
1 | File cacheFile = new File(cachePath); // 缓存路径 |
看下Cache的构造函数,它的构造函数中构造了一个 DiskLruCache 对象。
1 |
|
put
1 | CacheRequest put(Response response) { |
它主要的实现就是根据 Response 构建 Entry,之后将其写入到 DiskLruCache.Editor 中,写入的过程中调用了 key 方法根据 url 产生了其存储的 key。
OkHttp 的作者认为虽然能够实现如 POST、HEAD 等请求的缓存,但其实现会比较复杂,且收益不高,因此只允许缓存 GET 请求的 Response。
key 方法的实现如下:
1 | public static String key(HttpUrl url) { |
其实就是将 url 转变为 UTF-8 编码后进行了 md5 加密。
接着我们看到 Entry 构造函数,看看它是如何存储 Response 相关的信息的:
1 | Entry(Response response) { |
这里主要是利用了 Okio 这个库中的 BufferedSink 实现了写入操作,将一些 Response 中的信息写入到 Editor。关于 Okio,会在后续文章中进行介绍。
get
1 | Response get(Request request) { |
这里拿到了 DiskLruCache.Snapshot,之后通过它的 source 创建了 Entry,然后再通过 Entry 来获取其 Response。
我们看看通过 Snapshot.source 是如何创建 Entry 的:
1 | Entry(Source in) throws IOException { |
可以看到,同样是通过 Okio 进行了读取,看来 OkHttp 中的大部分 I/O 操作都使用到了 Okio。我们接着看到 Entry.response 方法:
1 | public Response response(DiskLruCache.Snapshot snapshot) { |
其实就是根据 response 的相关信息重新构建了 Response 对象。
remove
1 | void remove(Request request) throws IOException { |
remove 的实现非常简单,它直接调用了 DiskLruCache.remove.
update
1 | void update(Response cached, Response network) { |
update 的实现也十分简单,这里不再解释,和 put 比较相似。
CacheStrategy
我们前面介绍了缓存的使用,但还没有介绍在 CacheInterceptor 中使用到的缓存策略类 CacheStrategy。我们先看到 CacheStrategy.Factory 构造函数的实现:
1 | public Factory(long nowMillis, Request request, Response cacheResponse) { |
这里主要是对一些变量的初始化,接着我们看到 Factory.get 方法,之前通过该方法我们就获得了 CacheStrategy 对象:
1 | public CacheStrategy get() { |
这里首先通过 getCandidate 方法获取到了对应的缓存策略。
如果发现我们的请求中指定了禁止使用网络,只使用缓存(指定 CacheControl 为 only-if-cached ),则创建一个 networkRequest 及 cacheResponse 均为 null 的缓存策略。
我们接着看到 getCandidate 方法:
1 | private CacheStrategy getCandidate() { |
在缓存策略的创建中,主要是以下几步:
- 没有缓存 response,直接进行寻常网络请求
- HTTPS 的 response 丢失了握手相关数据,丢弃缓存直接进行网络请求
- 缓存的 response 的 code 不支持缓存,则忽略缓存,直接进行寻常网络请求
- 对 Cache-Control 中的字段进行处理,主要是计算缓存是否还能够使用(比如超过了 max-age 就不能再使用)
- 对 If-None-Match、If-Modified-Since 字段进行处理,填入相应 Header(同时可以看出 Etag 确实比 Last-Modified 优先级要高
我们可以发现,OkHttp 中实现了一个 CacheControl 类,用于以面向对象的形式表示 HTTP 协议中的 Cache-Control Header,从而支持获取 Cache-Control 中的值。
同时可以看出,我们的缓存策略主要存在以下几种情况:
request != null, response == null:执行寻常网络请求,忽略缓存
request == null, response != null:采用缓存数据,忽略网络数据
request != null, response != null:存在 Last-Modified、Etag 等相关数据,结合 request 及缓存中的 response
request == null, response == null:不允许使用网络请求,且没有缓存,在 CacheInterceptor 中会构建一个 504 的 response
总结
OkHttp 的缓存机制主要是基于 DiskLruCache 这个开源库实现的,从而实现了缓存在磁盘中的 LRU 存储。通过在 OkHttpClient 中对 Cache 类的配置,我们可以实现对缓存位置及缓存空间大小的配置,同时 OkHttp 提供了 CacheStrategy 类对 Cache-Control 中的值进行处理,从而支持 HTTP 协议的缓存相关 Header。