应用层开始

1.在浏览器输入https://www.taobao.com

浏览器接收 url 开启网络请求线程,URL 包括以下部分

  • protocol:协议头 https
  • host:主机域名www.taobao.com
  • port:端口号(默认)
  • path:无
  • query:无
  • fragment:无

https 协议

  • https 协议是基于 http 协议开发的,是比 http 更安全的协议,在 http 协议的基础上增加了 SSL/TLS 加密

2.DNS 获取 IP 地址


DNS 运行在 UDP 上,使用 53 端口。
DNS 与 IP 地址的转化关系如图:

DNS 是一种分层数据库,它的主要层次结构如下


一般,如果平台配备了负载均衡的话,前一步 DNS 解析获得的 IP 地址应该是 Nginx 负载均衡服务器的 IP 地址。所以,之后会将我们的网页请求发送到了 Nginx 负载均衡服务器上。
Nginx 根据我们设定的分配算法和规则,选择一台后端的真实 Web 服务器,与之建立 TCP 连接、并转发我们浏览器发出去的网页请求。
寻找 IP 地址过程:

  • 请求一旦发起,浏览器首先要做的事情就是解析这个域名,一般来说,浏览器会首先查看本地硬盘的 hosts 文件,看看其中有没有和这个域名对应的规则,如果有的话就直接使用 hosts 文件里面的 ip 地址。
  • 如果在本地的 hosts 文件没有能够找到对应的 ip 地址,浏览器会发出一个 DNS 请求到本地 DNS 服务器 。本地 DNS 服务器一般都是你的网络接入服务器商提供,比如中国电信,中国移动。
  • 查询你输入的网址的 DNS 请求到达本地 DNS 服务器之后,本地 DNS 服务器会首先查询它的缓存记录,如果缓存中有此条记录,就可以直接返回结果,此过程是递归的方式进行查询。如果没有,本地 DNS 服务器还要向 DNS 根服务器进行查询。
  • 根 DNS 服务器没有记录具体的域名和 IP 地址的对应关系,而是告诉本地 DNS 服务器,你可以到域服务器上去继续查询,并给出域服务器的地址。这种过程是迭代的过程。
  • 本地 DNS 服务器继续向域服务器发出请求,在这个例子中,请求的对象是.com 域服务器。.com 域服务器收到请求之后,也不会直接返回域名和 IP 地址的对应关系,而是告诉本地 DNS 服务器,你的域名的解析服务器的地址。
  • 最后,本地 DNS 服务器向域名的解析服务器发出请求,这时就能收到一个域名和 IP 地址对应关系,本地 DNS 服务器不仅要把 IP 地址返回给用户电脑,还要把这个对应关系保存在缓存中,以备下次别的用户查询时,可以直接返回结果,加快网络访问。如果 url 里不包含端口号,则会使用该协议的默认端口号。

3.根据 HTTP 协议生成 HTTP 请求报文

HTTP 报文一般包括了: 请求/响应行,请求/响应头部,空白行,请求体/响应数据。

请求

  • 【请 求 行】请求方法 空格 请求资源地址(URI、无域名) 空格 HTTP 版本 空格 CRLF(换行符)
  • 【请 求 头】标识:内容 CRLF(换行符)
  • 【空 一 行】(表示请求头结束)
  • 【请求 主体】(即请求正文,用户的主要数据。POST 方式时使用,GET 无请求主体)

响应

  • 【响 应 行】HTTP 版本 空格 状态码 空格 状态码的文本描述 空格 CRLF(换行符)
  • 【响 应 头】标识:内容 CRLF(换行符)
  • 【空 一 行】(表示响应头结束)
  • 【响应 主体】所谓响应主体,就是服务器返回的资源的内容。即整个 HTML 文件。

4.TLS 进行加密,提供保密性和数据完整性

(1)TLS 是对 SSL 的改进,目标是为了更安全,可以确保数据发送到正确的客户端和服务器,途中防止被窃取,并且数据在过程中不发生改变.

  • TLS 使用“消息认证代码的密钥散列法”,当记录在开放的网络(如因特网)上传送时,该代码确保记录不会被变更。
  • 增强的伪随机功能(PRF):PRF 生成密钥数据。在 TLS 中,PRF 使用两种散列算法保证其安全性。如果任一算法暴露了,只要第二种算法未暴露,数据仍然是安全的。
  • TLS 提供更多的特定和附加警报,以指示任一会话端点检测到的问题。

(2)TLS 协商过程

  • 客户端发出请求(ClientHello),客户端表达想跟服务端安全进行通话
  • 服务器回应 (ServerHello),服务器收到并返回给客户端证书,拿去验证身份
  • 客户端回应 Certificate Verify),客户端验证证书的真实性,如果有误发出警告并断开链接,如果无误,客户端就会取出公钥并把秘密消息加密发送至服务端
  • 服务端最后回应(Server Finish),用私钥将客户端消息解密,然后处理并加密发给客户端,这时加密通道已经建立成功了.双方可以进行加密传输了.

应用层结束

  • 在应用层将要发送的数据内容形成了应用层的报文 data,发送到传输层

传输层开始

5.TCP 三次握手

握手过程:

  • 第一次握手:客户端给服务端发一个 SYN 报文,并指明客户端的初始化序列号 ISN©。此时客户端处于 SYN_Send 状态。
  • 第二次握手:服务器收到客户端的 SYN 报文之后,会以自己的 SYN 报文作为应答,并且也是指定了自己的初始化序列号 ISN(s),同时会把客户端的 ISN + 1 作为 ACK 的值,表示自己已经收到了客户端的 SYN,此时服务器处于 SYN_REVD 的状态
  • 第三次握手:客户端收到 SYN 报文之后,会发送一个 ACK 报文,当然,也是一样把服务器的 ISN + 1 作为 ACK 的值,表示已经收到了服务端的 SYN 报文,此时客户端处于 establised 状态。
  • 服务器收到 ACK 报文之后,也处于 establised 状态,此时,双方以建立起了链接。

通俗点说就是:

  • 客户端想要跟服务端进行通信,首先告知服务端一声:“我想跟你通信”
  • 服务端收到客户端的连接请求,回一个确认消息:“我知道了,你现在能连吗?”
  • 客户端收到服务端的确认消息后,礼貌的告知一下服务端:“好的,咱们开始通信吧”

传输层结束

  • 这些数据通过传输层发送,比如 tcp 协议。所以它们会被送到传输层处理,在这里报文打上了传输头的包头,主要包含端口号,以及 tcp 的各种制信息,这些信息是直接得到的,因为接口中需要指定端口。这样就组成了 tcp 的数据传送单位 segment。tcp 是一种端到端的协议,利用这些信息,比如 tcp 首部中的序号确认序号,根据这些数字,发送的一方不断的进行发送等待确认,发送一个数据段后,会开启一个计数器,只有当收到确认后才会发送下一个,如果超过计数时间仍未收到确认则进行重发,在接受端如果收到错误数据,则将其丢弃,这将导致发送端超时重发。通过 tcp 协议,控制了数据包的发送序列的产生,不断的调整发送序列,实现流控和数据完整。然后待发送的数据段发送到网络层。

网络层开始

6.IP 寻址

网络层开始负责将这样的数据包在网络上传输,如何穿过路由器,最终到达目的地址。在这里,根据目的 ip 地址,就需要查找下一跳路由的地址。首先在本机,要查找本机的路由表。

查找过程是这样的:

  • 根据目的地址,得到目的网络号,如果处在同一个内网,则可以直接发送。
  • 如果不是,则查询路由表,找到一个路由。
  • 如果找不到明确的路由,此时在路由表中还会有默认网关,也可称为缺省网关,IP 用缺省的网关地址将一个数据传送给下一个指定的路由器,所以网关也可能是路由器,也可能只是内网向特定路由器传输数据的网关。
  • 路由器收到数据后,它再次为远程主机或网络查询路由,若还未找到路由,该数据包将发送到该路由器的缺省网关地址。而数据包中包含一个最大路由跳数,如果超过这个跳数,就会丢弃数据包,这样可以防止无限传递。路由器收到数据包后,只会查看网络层的包裹数据,目的 ip。所以说它是工作在网络层,传输层的数据对它来说则是透明的。
  • 如果上面这些步骤都没有成功,那么该数据报就不能被传送。如果不能传送的数据报来自本机,那么一般会向生成数据报的应用程序返回一个“主机不可达”或 “网络不可达”的错误。

关于 NAT 转换

  • 如果是在局域网中,每台电脑都有自己的私网 IP,在对外传输的时候,会经过 NAT 转换,改成路由器的公网 IP

7.ARP 协议获取 MAC 地址

ARP 协议是将 IP 地址映射成 MAC 地址的,由于是 IP 协议使用了 ARP 协议,因此通常把 ARP 协议划归为网络层,但是 ARP 协议的用途是为了从网络层使用的 IP 地址解析出在数据链路层使用的 MAC 地址.

获取 MAC 地址过程:

  • 主机生成一个具有目的 IP 地址(默认网关)的 ARP 查询报文,将该 ARP 报文放置在一个具有广播目的地址(例如 FF:FF:FF:FF:FF:FF:FF)的以太网帧中,并向交换机发送该以太网帧,交换机将该帧交付给所有连接的设备,包括网关路由器。
  • 网关路由器在接口上收到包含该 ARP 查询报文的帧,发现 ARP 报文中目的地址 IP 地址匹配接口的 IP 地址.网关路由器因此准备一个 ARP 回答,指示它的 MAC 地址对应报文中的 IP 地址,它将 ARP 回答放在一个以太网帧中,其目的地址是源 MAC 地址,并向交换机发送该帧,再由交换机将该帧交付给主机。
  • 主机接收包含 ARP 回答报文的帧,并从 ARP 回答报文中抽取网关路由器的 MAC 地址。
  • 将这个 MAC 地址将与 IP 包共同传输给下层。

8.BGP 外部网关协议

在网络层用 BGP 协议来控制路由的传播和选择最佳路由。

  • 路由更新时,BGP 只发送更新的路由,大大减少了 BGP 传播路由所占用的带宽,适用于在 Internet 上传播大量的路由信息。
  • BGP 路由通过携带 AS 路径信息彻底解决路由环路问题。
  • BGP 提供了丰富的路由策略,能够对路由实现灵活的过滤和选择。

网络层结束

  • 在网络层被打包,这样封装上了网络层的包头,包头内部含有源及目的的 ip 地址,该层数据发送单位被称为 packet。

数据链路层开始

9.MAC 寻址

  • 首先通过广播获取足够的 MAC 地址表,交换机使用 MAC 地址通过指向相应端口的交换结构将网络通信转向目的节点。交换机为了知道要使用哪个端口来传送单播帧,它必须首先知道自己的每个端口上都存在哪些节点。
  • 交换机使用其 MAC 地址表来确定如何处理传入的数据帧。通过记录与其每一个端口相连的节点的 MAC 地址来构建其 MAC 地址表。当某个特定端口上的某个特定节点的 MAC 地址记录到地址表之后,交换机就可以知道在后续传输中,应将目的地为该特定节点的流量从与该节点对应的端口上发出。
  • 当交换机收到传入的数据帧,而地址表中没有该帧的目的 MAC 地址时,交换机将把该帧从除接收该帧的端口之外的所有端口转发出去。当目的节点响应时,交换机从响应帧的源地址字段中获得的该节点的 MAC 地址,并将其记录在地址表中。在多台交换机互连的网络中,连接其它交换机的端口 MAC 地址表中记录有多个 MAC 地址,用来代表远端节点。通常,用于互连两台交换机的交换机端口在 MAC 地址表中记录了多个 MAC 地址。

数据链路层结束

10.服务器接受请求

用户发起的请求都指向调度服务器(反向代理服务器,譬如安装了 nginx 控制负载均衡),然后调度服务器根据实际的调度算法,分配不同的请求给对应集群中的服务器执行.

服务端将数据包通过数据链路层->网络层->传输层一层层的解封,最后处理 HTTP 中的请求

11.服务端处理请求

首页请求

  • 因为输入的 url 是请求进入网站首页的,不带任何参数请求,而且操作简单,这样下来 QPS 即每秒查询量是极大的,服务器需要在极短的时间内处理这些流量,这时候会用到 CDN 系统的缓存服务器将首页的图片迅速分发给用户。
  • 在网站和用户之间引入 CDN 之后,用户不会有任何与原来不同的感觉。
  • 使用 CDN 服务的网站,只需将其域名的解析权交给 CDN 的负载均衡设备,CDN 负载均衡设备将为用户选择一台合适的缓存服务器,用户通过访问这台缓存服务器来获取自己所需的数据。
  • 用户可以以最短的路径,最快的速度对网站进行访问。因此,CDN 可以加速用户访问速度,减少源站中心负载压力。

其它请求

  • 后台统一处理请求,处理完后响应结果.一般后端都是有统一的验证的,如安全拦截,跨域验证.如果这一步不符合规则,就直接返回了相应的 http 报文(如拒绝请求等)
  • 然后当验证通过后,才会进入实际的后台代码,此时是程序接收到请求,然后执行(譬如查询数据库,大量计算等等)
  • 等程序执行完毕后,就会返回一个 http 响应包

关于数据库

对于数亿用户的存储

  • 合理设计数据库字段
  • 创建索引
  • 分库分表

水平分库分表

  • 对单个指标通过 Hash 等方式分散在多个库或表中
  • 简单来说就是把一个表的数据划分到不同的数据库,两个数据库的表结构一样,根据一点的规则来划分数据库,查询的时候也根据一定的规则知悉在哪个数据库

垂直分库分表

  • 将不同业务指标分散在不同库和表
  • 简单来说,就是按照业务功能等划分,比如说把收藏夹和购物车放到不同的库中

12.服务端提供响应

服务端处理完请求后,会将所请求的东西响应给客户端

  • 服务器会以同样的顺序同样的方式将响应数据包发送都客户端

13.四次挥手

在这种短链接下,当客户端接受到服务端的响应后进行挥手操作

  • 第一次挥手:客户端发送一个 FIN 报文,报文中会指定一个序列号。此时客户端处于 FIN_WAIT1 状态。
  • 第二次挥手:服务端收到 FIN 之后,会发送 ACK 报文,且把客户端的序列号值 + 1 作为 ACK 报文的序列号值,表明已经收到客户端的报文了,此时服务端处于 CLOSE_WAIT 状态。
  • 第三次挥手:如果服务端也想断开连接了,和客户端的第一次挥手一样,发给 FIN 报文,且指定一个序列号。此时服务端处于 LAST_ACK 的状态。
  • 第四次挥手:客户端收到 FIN 之后,一样发送一个 ACK 报文作为应答,且把服务端的序列号值 + 1 作为自己 ACK 报文的序列号值,此时客户端处于 TIME_WAIT 状态。需要过一阵子以确保服务端收到自己的 ACK 报文之后才会进入 CLOSED 状态。
  • 服务端收到 ACK 报文之后,就处于关闭连接了,处于 CLOSED 状态。

通俗点说就是:

  • 客户端:“我要下了,还有什么想跟我说的吗?”
  • 服务端:“等等,上一句还没说完”
  • 服务端发完后说:“好了,说完了”
  • 客户端:“我知道了,拜拜”

14.浏览器解析和渲染

(1)解析 HTML,构建 DOM 树

  • HTML 文档会被解析成一棵以 document 为根的 DOM 树,解析过程中如果遇到 JavaScript,则会暂停解析并传输下载相应的文件造成阻塞,故推荐将 JavaScript 脚本放在 HTML 文件的后面。

(2)构建 CSSSOM 树

  • 浏览器根据外部样式,内部样式和内联样式来解析 CSS,构建 CSSSOM 树。

(3)构建渲染树和布局

  • DOM 树和 CSSOM 树构建完毕后会融合成渲染树,然后浏览器会确认页面各元素的位置。

(4)页面绘制和优化

  • 浏览器根据布局结果进行页面的绘制,并优化页面内容,减小 CPU 消耗。

15.交互结束

这时如果以上步骤都不出意外,就得到我们想要访问的网页了.在我们输入网址到网页展示短短几秒的过程中就大致经历了这么多过程.
客户端到服务端如上所示,看似只有一次交互,其实中间过程中已经交互了多次,比如握手过程,都是需要进行发包交互的.