《图解HTTP》读书笔记(二)

本文是《图解HTTP》读书笔记的第二篇,主要包括此书的第六章内容,因为第六章的内容较多,而且比较重要,所以单独写为一篇文章。主要内容是 HTTP 的首部,包括以下六点内容:

  1. HTTP 首部简介
  2. HTTP/1.1 通用首部字段
  3. 请求首部字段
  4. 响应首部字段
  5. 实体首部字段
  6. 其他

1. HTTP 首部简介

HTTP 协议的请求和响应报文中必定包含 HTTP 首部。首部内容为客户端和服务器分别处理请求和响应提供所需要的信息。

在报文众多的字段当中,HTTP 首部字段包含的信息最为丰富。首部字段同时存在于请求和响应报文内,并涵盖 HTTP 报文相关的内容信息。

1.1 HTTP 请求报文

在请求中,HTTP 报文由方法、URI、HTTP 版本、HTTP 首部字段等部分构成。

1.2 HTTP 响应报文

在响应中,HTTP 报文由 HTTP 版本、状态码(数字和原因短语)、HTTP 首部字段 3 部分组成。

1.3 HTTP 首部字段传递重要信息

HTTP 首部字段是构成 HTTP 报文的要素之一。在客户端与服务器之间以 HTTP 协议进行通信的过程中,无论是请求还是响应都会使用首部字段,它能起到传递额外重要信息的作用。

使用首部字段是为了给浏览器和服务器提供报文主体大小、所使用的语言、认证信息等内容。

1.4 HTTP 首部字段结构

HTTP 首部字段是由首部字段名和字段值构成的,中间用冒号 “:” 分隔。

1
首部字段名:字段值

例如在 HTTP 首部中以 Content-Type 这个字段来表示报文主体的对象类型。

1
Content-Type:text/html

字段名是:Content-Type,字段值是:text/html
另外,字段值对应单个 HTTP 首部字段可以有多个值,如下所示:

1
Keep-Alive:timeout=15,max=100

若 HTTP 首部字段重复了会如何?

当 HTTP 报文首部中出现了两个或两个以上具有相同首部字段名时会怎么样?这种情况在规范内尚未明确,根据浏览器内部处理逻辑的不同,结果可能并不一样。有些浏览器会优先处理第一次出现的首部字段,而有些则会优先处理最后出现的首部字段。

1.5 四种 HTTP 首部字段类型

HTTP 首部字段根据实际用途被分为以下 4 种类型:

  • 通用首部字段:请求和响应报文两方都会使用的字段
  • 请求首部字段:从客户端向服务器发送请求报文时使用的首部。补充了请求的附加内容、客户端信息、响应内容相关优先级等信息。
  • 响应首部字段:从服务器向客户端返回响应报文时使用的首部。补充了响应的附加内容,也会要求客户端附加额外的内容信息
  • 实体首部字段:针对请求报文和响应报文的实体部分使用的首部。补充了资源内容更新时间等与实体有关的信息。

1.6 End-to-end 首部和 Hop-by-hop 首部

HTTP 首部字段将定义成缓存代理和非缓存代理的行为,分为 2 种类型:

端到端首部(End-to-end Header):分在此类别中的首部会转发给请求/响应对应的最终接受目标,且必须保持在缓存生成的响应中,另外规定它必须被转发。

逐跳首部(Htp-by-hop Header):分在此类别中的首部只对单次转发有效,会因通过缓存或代理而不再转发。HTTP/1.1 和之后版本中,如果要使用 hop-by-hop 首部,需提供 Connection 首部字段。

下面列举了 HTTP/1.1 中的逐跳首部字段。除这 8 个首部字段之外,其他所有字段都属于端到端首部。

  • Connection
  • Kttp-Alive
  • Proxy-Authenticate
  • Proxy-Authorization
  • Trailer
  • TE
  • Transfer-Encoding
  • Upgrade

2. HTTP/1.1 通用首部字段

通用首部字段是指,请求报文和响应报文双方都会使用的首部。

2.1 Cache-Control

通过制定首部字段 Cache-Control 的指令,就能操作缓存的工作机制。指令的参数是可选的,多个指令之间用分割。



2.1.1 Cache-Control 指令一览

可用的指令按请求和响应分类如下所示:

  • 缓存请求指令:
指令 参数 说明
no-cache 强制向源服务器再次验证
no-store 不缓存请求或响应的任何内容
max-age = [秒] 必需 响应的最大 Age 值
max-stale (= [秒]) 可省略 接收已过期的响应
min-fresh = [秒] 必需 期望在指定时间内的响应仍有效
no-transform 代理不可更改媒体类型
only-if-cached 从缓存获取资源
cache-extention - 新指令标记(token)
  • 缓存响应指令:
指令 参数 说明
public 可向任意方提供响应的缓存
private 可省略 仅向特定用户返回响应
no-cache 可省略 缓存前必须先确认其有效性
no-store 不缓存请求或响应的任何内容
no-transform 代理不可更改媒体类型
must-revalidate 可缓存但必须再向源服务器进行确认
proxy-revalidate 要求中间缓存服务器对缓存的响应有效性再次确认
max-age = [秒] 必需 响应的最大 Age 值
s-maxage = [秒] 必需 公共缓存服务器响应的最大 Age 值
cache-extention - 新指令标记(token)
  • 表示是否能缓存的指令

    public 指令:Cache-Control:public,当指定使用 public 指令时,则明确表明其他用户也可利用缓存。

    private 指令:Cache-Control:private,当指定 private 指令后,响应只以特定的用户作为对象,这与 public 指令的行为相反。缓存服务器会对特定用户提供资源缓存的服务,对于其他用户发送过来的请求,代理服务器则不会返回缓存了。



    no-cache 指令:使用 no-cache 指令的目的是为了防止从缓存中返回过期的资源

    • 客户端的角度:客户端发送的请求中如果包含 no-cache 指令,则表示客户端将不会接收缓存过的响应。于是,”中间”的缓存服务器必须把客户端请求转发给源服务器。
    • 服务器的角度:如果服务器返回的响应中包含 no-cache 指令,那么缓存服务器不能对资源进行缓存。源服务器以后也将不再对缓存服务器请求中提出的资源有效性进行确认,且禁止其对响应资源进行缓存操作。

      由服务器返回的响应中,若报文首部字段 Cache-Control 中对 no-cache 字段名具体制定参数值,那么客户端在接收到这个被制定参数值的首部字段对应的响应报文后,就不能使用缓存。换言之,无参数值的首部字段可以使用缓存。只能在响应指令中指定该参数。



  • 控制可执行缓存的对象的指令

    no-store 指令:Cache-Control:no-store,当使用 no-store 指令时,暗示请求或响应中包含机密信息。因此,该指令规定缓存不能在本地存储请求或响应的任一部分。

  • 指定缓存期限和认证的指令

    s-maxage 指令:Cache-Control:s-maxage=604800(单位:秒)s-maxage 指令的功能和 max-age 指令的相同,它们的不同点是 s-maxage 指令只适用于供多位用户使用的公共缓存服务器。也就是说,对于向同一用户重复返回响应的服务器来说,这个指令没有任何作用。另外,当使用 s-maxage 指令后,则直接忽略对 Expires 首部字段及 max-age 指令的处理。

    max-age 指令:Cache-Control:max-age=604800(单位:秒)

    • 当客户端发送的请求中包含 max-age 指令时,如果判定缓存资源的缓存时间数值比指定时间的数值更小,那么客户端就接收缓存的资源。另外,当指定 max-age 值为 0,那么缓存服务器通常需要将请求转发给源服务器。
    • 当服务器返回的响应中包含 max-age 指令时,缓存服务器将不对资源的有效性再做确认,而 max-age 数值代表资源保存为缓存的最长时间。

      应用 HTTP/1.1 版本的缓存服务器遇到同时存在 Expires 首部字段的情况时,会优先处理 max-age 指令,而忽略掉 Expires 首部字段。而 HTTP/1.0 版本的缓存服务器的情况却相反,max-age 指令会被忽略。



    min-fresh 指令:Cache-Control:min-fresh=60(单位:秒)min-fresh 指令要求缓存服务器返回至少还未过指定时间的资源缓存。比如,当指定 min-fresh 为 60 秒后,在这 60 秒以内如果有超过有效期限的资源都无法作为响应返回了。



    max-stale 指令:Cache-Control:max-stale=3600(单位:秒)。使用 max-stale 可指示缓存资源,即使过期也照常接收。如果指令未指定参数值,那么无论经过多久,客户端都会接收响应;如果指令中指定了具体参数,那么即使过期,只要仍处于 max-stale 指定的时间内,仍旧会被客户端接收。

    only-if-cached 指令:Cache-Control:only-if-cached。使用 only-if-cached 指令表示客户端仅在缓存服务器本地缓存目标资源的情况下才会要求其返回。换言之,该指令要求缓存服务器不重新加载响应,也不会再次确认资源有效性。若发生请求缓存服务器的本地缓存资源无响应,则返回状态码 504 Gateway Timeout

    must-revalidate 指令:Cache-Control:must-revalidate。使用 must-revalidate 指令,代理会向源服务器验证即将返回的响应缓存目前是否仍然有效。若代理无法连通源服务器再次获取有效资源的话,缓存必须给客户端一条 504(Gateway Timeout)状态码。另外,使用 must-revalidate 指令会忽略 max-stale 指令,must-revalidate 的优先级比 max-stale 指令的优先级高。

    proxy-revalidate 指令:Cache-Control:proxy-revalidateproxy-revalidate 指令要求所有的缓存服务器在接收到客户端带有该指令的请求返回响应之前,必须再次验证缓存的有效性。

    no-transform 指令:Cache-Control:no-transform。使用 no-transform 指令规定无论是在请求还是响应中,缓存都不能改变实体主体的媒体类型。这样做可以防止缓存或代理压缩图片等类似操作。

2.2 Connection

Connection 首部字段具有如下两个作用:

  • 控制不再转发给代理的首部字段
  • 管理持久连接
  1. 控制不再转发给代理的首部字段

    在客户端发送请求或服务器返回响应内,使用 Connection 首部字段,可控制不再转发给代理的首部字段(即Hop-by-hop首部)。



  2. 管理持久连接
    HTTP/1.1 的默认连接都是持久连接。为此,客户端会在持久连接上发送请求。当服务器端想明确断开连接时,则指定 Connection 首部字段的值为 Close

    HTTP/1.1 之前的 HTTP 版本的默认连接都是非持久连接。为此,如果想在旧版本的 HTTP 协议上维持持续连接,则需要指定 Connection 首部字段的值为 Keep-Alive

    如下图所示,客户端发送请求给服务器时,服务器端会像下图那样加上首部字段 Keep-Alive 及首部字段 Connection 后返回响应。



2.3 Date

首部字段 Date 表明创建 HTTP 报文的日期和时间。

2.4 Pragma

Pragma 是 HTTP/1.1 之前版本的历史遗留字段,仅作为与 HTTP/1.0 的向后兼容而定义。规范定义的形式唯一,如下所示:

1
Pragme:no-cache

该首部字段属于通用首部字段,但只用在客户端发送的请求中。客户端会要求所有的中间服务器不返回缓存的资源。

所有的中间服务器如果都能以 HTTP/1.1 为基准,那直接采用 Cache-Control:no-cache 指定缓存的处理方式是最为理想的。但要整体掌握全部中间服务器使用的 HTTP 协议版本却是不现实的。因此,发送的请求会同时含有下面两个首部字段。

1
2
Cache-Control:no-cache
Pragma:no-cache



2.5 Trailer

首部字段 Trailer 会事先说明在报文主体后记录了哪些首部字段。该首部字段可应用在 HTTP/1.1 版本分块传输编码时。



2.6 Transfer-Encoding

首部字段 Transfer-Encoding 规定了传输报文主体时采用的传输方式。

HTTP/1.1 的传输编码方式仅对分块传输编码有效。

2.7 Upgrade

首部字段 Upgrade 用于检测 HTTP 协议及其他协议是否可使用更高的版本进行通信,其参数值可以用来指定一个完全不同的通信协议。



上图用例中,首部字段 Upgrade 指定的值为 TLS/1.0。请注意此处两个字段首部字段的对应关系,Connection 的值被指定为 UpgradeUpgrade 首部字段产生作用的 Upgrade 对象仅限于客户端和邻接服务器之间。因此,使用首部字段 Upgrade 时,还需要额外指定 Connection:Upgrade

对于附有首部字段 Upgrade 的请求,服务器可用 101 Switching Protocols 状态码作为响应返回。

2.8 Via

使用首部字段 Via 是为了追踪客户端与服务器之间的请求和响应报文的传输路径。

报文经过代理或网关时,会先在首部字段 Via 中附加该服务器的信息,然后再进行转发。



首部字段 Via 不仅作用于追踪报文的转发,还可避免请求回环的发生。所以必须在经过代理时附加该首部字段内容。

Via 首部是为了追踪传输路径,所以经常会和 TRACE 方法一起使用。比如,代理服务器接收到由 TRACE 方法发送过来的请求(其中:Max-Forwards:0)时,代理服务器就不能再转发该请求了。这种情况下,代理服务器会将自身的信息附加到 Via 首部后,返回该请求的响应。

2.9 Warning

HTTP/1.1 的 Warning 首部通常会告知用户一些与缓存相关的问题的警告。

Warning 首部的格式如下。最后的日期时间部分可省略。

1
Warning:[警告码][警告的主机:端口号]“[警告内容]”([日期时间])

HTTP/1.1 中定义了 7 种警告。警告码对应的警告内容仅推荐参考。另外,警告码具备扩展性。

3. 请求首部字段

请求首部字段是从客户端往服务器端发送请求报文中所使用的字段,用于补充请求的附加信息、客户端信息、对响应内容相关的优先级等内容。

3.1 Accept

Accept 首部字段可通知服务器,用户代理能够处理的媒体类型及媒体类型的相对优先级。可使用 type/subtype 这种形式,一次指定多种媒体类型。



下面我们试举几个媒体类型的样子。

  • 文本文件

    text/html,text/plain,text/css …

    application/xhtml+xml,application/xml …

  • 图片文件

    image/jpeg,image/gif,image/png …

  • 视频文件

    video/mpeg,video/quicktime …

  • 应用程序使用的二进制文件

    application/octet-stream,application/zip …

比如,如果浏览器不支持 PNG 图片的显示,那 Accept 就不指定 image/png,而指定可处理的 image/gif 和 image/jpeg 等图片类型。

若想要给显示的媒体类型增加优先级,则使用 q= 来额外表示权重值,用分号(;)进行分隔。权重值 q 的范围是 0~1 (可精确到小数点后3位),且1为最大值。不指定权重 q 值时,默认权重为 q=1.0。

当服务器提供多种内容时,将会首先返回权重值最高的媒体类型。

3.2 Accept-Charset

Accept-Charset 首部字段可用来通知服务器用户代理支持的字符集及字符集的相对优先顺序。另外,可一次性指定多种字符集。与首部字段 Accept 相同的是可用权重 q 值来表示相对优先级。



该首部字段应用于内容协商机制的服务器驱动协商。

3.3 Accept-Encoding

Accept-Encoding 首部字段用来告知服务器用户代理支持的内容编码及内容编码的优先级顺序。可一次性指定多种内容编码。

下面试举出几个内容编码的例子。

  • gzip:由文件压缩程序gzip(GNU zip)生成的编码格式(RFC1952),采用Lemepl-Ziv算法及32位循环冗余校验(CRC32)。
  • compress:由UNIX文件压缩程序compress生成的编码格式,采用Lemepel-Zip-Welch算法。
  • deflate:组合使用zlib格式及有deflate压缩算法生成的编码格式。
  • identity:不执行压缩或不会变化的默认编码格式。

采用权重 q 值来表示相对优先级,这点与首部字段 Accept 相同。另外,也可使用星号(* )作为通配符,指定任意的编码格式。

3.4 Accept-Language

首部字段 Accept-Language 用来告知服务器用户代理能够处理的自然语言集(指中文或英文等),以及自然语言的相对优先级。可一次指定多种自然语言集。

Accept 首部字段一样,按权重值 q 来表示相对优先级。



3.5 Authorization

首部字段 Authorization 是用来告知服务器,用户代理的认证信息(证书值)。通常,想要通过服务器认证的用户代理会在接收到返回的 401 状态码响应后,把首部字段 Authorization 加入请求中。共用缓存在接收到含有 Authorization 首部字段的请求时的操作处理会略有差异。



3.6 Expect

客户端使用首部字段 Except 来告知服务器,期望出现的某种特定行为。因服务器无法理解客户端的期望作出回应而发生错误时,会返回状态码 417 Expectation Failed

客户端可以利用该首部字段,写明所期望的扩展。虽然 HTTP/1.1 规范只定义了 100-continue(状态码 100 Continue 之意)。

3.7 From

首部字段 From 用来告知服务器使用用户代理的用户的电子邮件地址。

3.8 Host

首部字段 Host 会告知服务器,请求的资源所处的互联网主机名和端口号。Host 首部字段在 HTTP/1.1 规范内是唯一一个必须包含在请求内的首部字段。

首部字段 Host 和以单台服务器分配多个域名的虚拟主机的工作机制有很密切的关联,这是首部字段 Host 必须存在的意义。

请求被发送至服务器时,请求中的主机名会用 IP 地址直接替换解决。但如果这时,相同的 IP 地址下部署运行着多个域名,那么服务器就会无法理解究竟是哪个域名对应的请求。因此,就需要使用首部字段 Host 来明确指出请求的主机名。若服务器未设定主机名,那直接发送一个空值即可。



3.9 If-Match

形如 If-xxx 这种形式的请求首部字段,都可称为条件请求。服务器接收到附带条件的请求后,只有判断指定条件为真时,才会执行请求。



首部字段 If-Match,附属带条件之一,它会告知服务器匹配资源所用的实体标记(ETag)值。这时的服务器无法使用弱 ETag 值。

服务器会比对 If-Match 的字段值和资源的 ETag 值,仅当两者一致时,才会执行请求。反之,则返回状态码 412 Precondition Failed 的响应。

还可以使用星号(* )指定 If-Match 的字段值。针对这种情况,服务器将会忽略 ETag 的值,只要资源存在就处理请求。



3.10 If-Modified-Since

首部字段 If-Modified-Since,附属带条件之一,它会告知服务器若 If-Modified-Since 字段值早于资源的更新时间,则希望能处理该请求。而在指定 If-Modified-Since 字段值的日期时间之后,如果请求的资源都没有过更新,则返回状态码 304 Not Modified 的响应。

If-Modified-Since 用于确认代理或客户端拥有的本地资源的有效性。获取资源的更新日期时间,可通过确认首部字段 Last-Modified 来确定。



3.11 If-None-Match

首部字段 If-None-Match 属于附带条件之一。它和首部字段 If-None-Match 作用相反。用于指定 If-None-Match 字段值的实体标记(ETag) 值与请求资源的 ETag 不一致时,它就告知服务器处理请求。

在 GET 或 HEAD 方法中使用首部字段 If-None-Match 可获取最新的资源。因此,这与使用首部字段 If-Nodified-Since 时有些类似。



3.12 If-Range

首部字段 If-Range 属于附带条件之一。它告知服务器若指定的 If-Range 字段值(ETag值或者时间)和请求资源的 ETag 值或时间相一致时,则作为范围请求处理。反之,则返回全体资源。




—————


3.13 If-Unmodified-Since

首部字段 If-Unmodified-Since 和首部字段 If-Modified-Since 的作用相反。它的作用是告知服务器,指定的请求资源只有在字段值内指定的日期时间之后,未发生更新的情况下,才能处理请求。如果在指定日期时间后发送了更新,则以状态码 412 Precondition Failed 作为响应返回。

3.14 Max-Forwards

通过 TRACE 方法或 OPTIONS 方法,发送包含首部字段 Max-Forwards 的请求时,该字段以十进制整数形式指定可经过的服务器最大数目。服务器在往下一个服务器转发请求之前,会将 Max-Forwards 的值减 1 后重新赋值。当服务器接收到 Max-Forwards 值为 0 的请求时,则不再进行转发,而是直接返回响应。



3.15 Proxy-Authorization

接收到从代理服务器发来的认证质询时,客户端会发送包含首部字段 Proxy-Authorization 的请求,以告知服务器认证所需要的信息。

这个行为是与客户端和服务器之间的 HTTP 访问认证相类似的,不同之处在于,认证行为发生在客户端和代理之间。客户端和服务器之间的认证,使用首部字段 Authorization 可起到相同作用。

3.16 Range

1
Range:bytes=5001-10000

对于只需要获取部分资源的范围请求,包含首部字段 Range 即可告知服务器资源的指定范围。上面的示例表示请求获取从第 5001 字节至第10000字节的资源。

接收到附带 Range 首部字段请求的服务器,会在处理请求之后返回状态码 206 Partial Content 的响应。无法处理该范围请求时,则会返回状态码 200 OK 的响应及全部资源。

3.17 Referer

首部字段 Referer 会告知服务器请求的原始资源的 URI。
客户端一般都会发送 Referer 首部字段给服务器。但当直接在浏览器的地址栏输入 URI,或出于安全性的考虑时,也可以不发送该首部字段。



3.18 TE

首部字段 TE 会告知服务器客户端能够处理响应的传输编码方式及相对优先级。它和首部字段 Accept-Encoding 的功能很相像,但是用于传输编码。

首部字段 TE 除指定传输编码之外,还可以指定伴随 trailer 字段的分块传输编码的方式。应用后者时,只需把 trailers 赋值给该字段值。

3.19 User—Agent

首部字段 User—Agent 会将创建请求的浏览器和用户代理名称等信息传达给服务器。

由网络爬虫发起请求时,有可能会在字段内添加爬虫作者的电子邮件地址。此外,如果请求经过代理,那么中间也很可能被添加上代理服务器的名称。



4. 响应首部字段

响应首部字段是由服务器向客户端返回响应报文中所使用的字段,用于补充响应的附加信息、服务器信息,以及对客户端的附加要求等信息。



4.1 Accept-Ranges

首部字段 Accept-Ranges 是用来告知客户端服务器是否能处理范围请求,以指定获取服务器端某个部分的资源。

可指定的字段值有两种,可处理范围请求时指定其为 bytes,反之则指定为 none



4.2 Age

首部字段 Age 能告知客户端,源服务器在多久前创建了响应。字段值的单位为秒。

若创建该响应的服务器是缓存服务器,Age 值是指缓存后的响应再次发起认证到认证完成的时间值。代理创建响应时必须加上首部字段 Age。



4.3 ETag

首部字段 ETag 能告知客户端实体标识。它是一种可将资源以字符串形式做唯一性标识的方式。服务器会为每份资源分配对应的 ETag 值。



另外,当资源更新时,ETag 值也需要更新。生成 ETag 值时,并没有统一的算法规则,而仅仅是由服务器来分配。

资源被缓存时,就会被分配唯一性标识。

强 ETag 值和弱 ETag 值

ETag 中有强 ETag 值和弱 ETag 值之分。

强 ETag 值:不论实体发生多么细微的变化都会改变其值。

弱 ETag 值:只用于提示资源是否相同。只有资源发生了根本改变,产生差异时才会改变 ETag 值。这时,会在字段值最开始处附加 W/。

4.4 Location



使用首部字段 Location 可以将响应接收方引导至某个与请求 URI 位置不同的资源。

基本上,该字段会配合 3XX:Redirection 的响应,提供重定向的 URI。

几乎所有的浏览器在接收到包含首部字段 Location 的响应后,都会强制性地尝试对已提示的重定向资源的访问。

4.5 Proxy-Authenticate

首部字段 Proxy-Authenticate 会把由代理服务器所要求的认证信息发送给客户端。

它与客户端和服务器之间的 HTTP 访问认证的行为相似,不同之处在于其认证行为是在客户端与代理之间进行的。而客户端与服务器之间进行认证时,首部字段 WWW-Authenticate 有着相同的作用。

4.6 Retry-After

首部字段 Retry-After 告知客户端应该在多久之后再次发送请求。主要配合状态码 503 Service Unavailable 响应,或 3xx Redirect 响应一起使用。

字段值可以指定为具体的日期时间,也可以是创建响应后的秒数。



4.7 Server

1
Server:Apache/2.2.6 (Unix) PHP/5.2.5

首部字段 Server 告知客户端当前服务器上安装的 HTTP 服务器应用程序的信息。不单单会标出服务器上的软件应用名称,还有可能包括版本号和安装时启用的可选项。

4.8 Vary



首部字段 Vary 可对缓存进行控制。源服务器会向代理服务器传达关于本地缓存使用方法的命令。

从代理服务器接收到源服务器返回包含 Vary 指定项的响应之后,若再要进行缓存,仅对请求中含有相同 Vary 指定首部字段的请求返回缓存。即使对相同资源发起请求,但由于 Vary 指定的首部字段不相同,因此必须要从源服务器重新获取资源。

4.9 WWW-Authenticate

首部字段 WWW-Authenticate 用于 HTTP 访问认证。它会告知客户端适用于访问请求 URI 所指定资源的认证方案(Basic 或是 Digest)和带参数提示的质询(challenge)。状态码 401 Unauthorized 响应中,肯定带有首部字段 WWW-Authenticate

5. 实体首部字段

实体首部字段是包含在请求报文和响应报文中的实体部分所使用的首部,用于补充内容的更新时间等于实体相关的信息。



5.1 Allow

首部字段 Allow 用于通知客户端能够支持 Request-URI 指定资源的所有 HTTP 方法。当服务器接收到不支持的 HTTP 方法时,会以状态码 405 Method Not Allowed 作为响应返回。与此同时,还会把所有能支持的 HTTP 方法写入首部字段 Allow 后返回。



5.2 Content-Encoding

首部字段 Content-Encoding 会告知客户端服务器对实体的主体部分选用的内容编码方式。内容编码是指在不丢失实体信息的前提下所进行的压缩。



主要采用以下四种编码方式:

  • gzip
  • compress
  • deflate
  • identity

5.3 Content-Language

1
Content-Language:zh-CN

首部字段 Content-Language 会告知客户端,实体主体使用的自然语言(指中文或英文等语言)。

5.4 Content-Length

1
Content-Length:15000

首部字段 Content-Length 表明了实体主体部分的大小(单位是字节)。对实体主体进行内容编码传输时,不能再使用 Content-Length 首部字段。

5.5 Content-Location

首部字段 Content-Location 给出与报文主体部分相对于的 URI。和首部字段 Location 不同,Content-Location 表示的是报文主体返回资源对应的 URI。

5.6 Content-MD5

首部字段 Content-MD5 是一串由 MD5 算法生成的值,其目的在于检查报文主体在传输过程中是否保持完整,以及确认传输到达。



5.7 Content-Range



针对范围请求吗,返回响应时使用的首部字段 Content-Range,能告知客户端作为响应返回的实体的哪个部分符合范围请求。字段值以字节为单位,表示当前发送部分及整个实体大小。

5.8 Content-Type

首部字段 Content-Type 说明了实体主体内对象的媒体类型。和首部字段 Accept 一样,字段值用 type/subtype 形式赋值。

5.9 Expires

首部字段 Expires 会将资源失效的日期告知客户端。缓存服务器在接收到含有首部字段 Expires 的响应后,会以缓存来应答请求,在 Expires 字段值指定的时间之前,响应的副本会一直被保存。当超过指定的时间后,缓存服务器在请求发送过来时,会转向源服务器请求资源。



源服务器不希望缓存服务器对资源缓存时,最好在 Expires 字段内写入与首部字段 Date 相同的时间值。

但是,当首部字段 Cache-Control 有指定 max-age 指令时,比起首部字段 Expires,会优先处理 max-age 指令。

5.10 Last-Modified

首部字段 Last-Modified 指明资源最终修改的时间。一般来说,这个值就是 Request-URI 指定资源被修改的时间。但类似使用 CGI 脚本进行动态数据处理时,该值有可能会变成数据最终修改时的时间。



6.其他

管理服务器与客户端之间状态的 Cookie,虽然没有被编入标准化 HTTP/1.1 的 RFC2616 中,但在 Web 网站方面得到了广泛的应用。

Cookie 的工作机制是用户识别及状态管理。Web 网站为了管理用户的状态会通过 Web 浏览器,把一些数据临时写入用户的计算机内。接着当用户访问该 Web 网站时,可通过通信方式取回之前发放的 Cookie。

调用 Cookie 时,由于可校验 Cookie 的有效期,以及发送方的域、路径、协议等信息,所以正规发布的 Cookie 内的数据不会因来自其他 Web 站点和攻击者的攻击而泄露。






1
Set-Cookie:status=enable;expires=Tue,05 Jul 2011 07:26:31 GMT;path=/;domain=.hackr.jp;

当服务器准备开始管理客户端的状态时,会事先告知各种信息。下面的表格列举了 Set-Cookie 的字段值。

属性 说明
NAME=VALUE 赋予 Cookie 的名称和其值(必需项)
expires=DATE Cookie 的有效期(若不明确指定则默认为浏览器关闭前为止)
path=PATH 将服务器上的文件目录作为 Cookie 的适用对象(若不指定则默认为文档所在的文件目录)
domain=域名 作为 Cookie 适用对象的域名(若不指定则默认为创建 Cookie 的服务器的域名)
Secure 仅在 HTTPS 安全通信时才会发送 Cookie
HttpOnly 加以限制,使 Cookie 不能被 JavaScript 脚本访问
  • expires 属性

    Cookie 的 expires 属性指定浏览器可发送 Cookie 的有效期。

    当省略 expires 属性时,其有效期仅限于维持浏览器会话(Session)时间段内。这通常限于浏览器应用程序被关闭之前。

    另外,一旦 Cookie 从服务器端发送至客户端,服务器端就不存在可以显示删除 Cookie 的方法。但可通过覆盖已过期的 Cookie,实现对客户端 Cookie 的实质性删除操作

  • path 属性

    Cookie 的 path 属性可用于限制指定 Cookie 的发送范围的文件目录。

  • domain 属性

    通过 Cookie 的 domain 属性指定的域名可做到与结尾匹配一致。比如:当指定 example.com 后,除 example.com 以外,www.example.com 或 www2.example.com 等都可以发送 Cookie。

    因此,除了针对具体指定的多个域名发送 Cookie 之外,不指定 domain 属性显得更安全。

  • secure 属性
    Cookie 的 secure 属性用于限制 Web 页面仅在 HTTPS 安全连接时,才可以发送 Cookie。

    发送 Cookie 时,指定 secure 属性的方法如下所示:

    1
    Set-Cookie:name-value;secure

    以上例子仅当在 https://www.example.com/(HTTPS) 安全连接的情况下才会进行 Cookie 的回收。也就是说,即使域名相同,http://www.example.com/(HTTP) 也不会发生 Cookie 回收行为。

    当省略 secure 属性时,不论 HTTP 还是 HTTPS,都会对 Cookie 进行回收。

  • HttpOnly 属性
    Cookie 的 HttpOnly 属性是 Cookie 的扩展功能,它使 JavaScript 脚本无法获取 Cookie。其主要目的为防止跨站脚本攻击(Cross-site scripting,XSS)对 Cookie 的信息窃取。

    发送指定 HttpOnly 属性的 Cookie 的方法如下所示。

    1
    Set-Cookie:name-value;HttpOnly

    通过上述设置,通常从 Web 页面内还可以对 Cookie 进行读取操作。但使用 JavaScript 的 document.cookie 就无法读取附加 HttpOnly 属性后的 Cookie 的内容了。因此,也就无法在 XSS 中利用 JavaScript 劫持 Cookie 了。

1
Cookie:status=enable

首部字段 Cookie 会告知服务器,当客户端想获得 HTTP 状态管理支持时,就会在请求中包含从服务器接收到的 Cookie。接收到多个 Cookie 时,同样可以以多个 Cookie 的形式发送。

6.2 其他首部字段

HTTP 首部字段是可以自行扩展的。所以在 Web 服务器和浏览器的应用上,会出现各种非标准的首部字段。以下是一些常用的首部字段:

  • X-Frame-Options
  • X-XSS-Protection
  • DNT
  • P3P

6.2.1 X-Frame-Options

1
X-Frame-Options:DENY

首部字段 X-Frame-Options 属于 HTTP 响应首部,用于控制网站内容在其他 Web 网站的 Frame 标签内的显示问题。其主要目的是为了防止点击劫持(clickjacking)攻击。

首部字段 X-Frame-Options 有以下两个可指定的字段值。

  • DENY:拒绝
  • SAMEORIGIN:仅同源域名下的页面匹配时许可。(比如:当指定 http://hackr.jp/sample.html 页面为 SAMEORIGIN 时,那么 hackr.jp 上所有页面的 frame 都被允许可加载该页面,而 example.com 等其他域名的页面就不行了)

6.2.2 X-XSS-Protection

1
X-XSS-Protection:1

首部字段 X-XSS-Protection 属于 HTTP 响应首部,它是针对跨站脚本攻击(XSS)的一种对策,用于控制浏览器 XSS 防护机制的开关。

首部字段 X-XSS-Protection 可指定的字段值如下。

  • 0:将 XSS 过滤设置成无效状态
  • 1:将 XSS 过滤设置成有效状态

6.2.3 DNT



首部字段 DNT 属于 HTTP 请求首部,其中 DNT 是 Do Not Track 的简称,意为拒绝个人信息被收集,是表示拒绝被精准广告追踪的一种方法。

首部字段 DNT 可指定的字段值如下:

  • 0:同意被追踪
  • 1:拒绝被追踪

由于首部字段 DNT 的功能具备有效性,所以 Web 服务器需要对 DNT 做对应的支持。

6.2.4 P3P

首部字段 P3P 属于 HTTP 响应首部,通过利用 P3P 技术,可以让 Web 网站上的个人隐私变成一种仅供程序可理解的技术,以达到保护用户隐私的目的。

要进行 P3P 的设定,需按以下操作步骤进行。
步骤1:创建 P3P 隐私
步骤2:创建 P3P 隐私对照文件后,保存命名在 /w2c/p3p.xml
步骤3:从 P3P 隐私中新建 Compact policies 后,输出到 HTTP 响应中