閱讀(40.8k) 書簽贊(1) 我要糾錯

Web工作方式

2022-05-13 17:52 更新

我們平時瀏覽網(wǎng)頁的時候,會打開瀏覽器，輸入網(wǎng)址后按下回車鍵，然后就會顯示出你想要瀏覽的內(nèi)容。在這個看似簡單的用戶行為背后，到底隱藏了些什么呢？

對于普通的上網(wǎng)過程，系統(tǒng)其實是這樣做的：瀏覽器本身是一個客戶端，當你輸入URL的時候，首先瀏覽器會去請求DNS服務器，通過DNS獲取相應的域名對應的IP，然后通過IP地址找到IP對應的服務器后，要求建立TCP連接，等瀏覽器發(fā)送完HTTP Request（請求）包后，服務器接收到請求包之后才開始處理請求包，服務器調用自身服務，返回HTTP Response（響應）包；客戶端收到來自服務器的響應后開始渲染這個Response包里的主體（body），等收到全部的內(nèi)容隨后斷開與該服務器之間的TCP連接。

一個Web服務器也被稱為HTTP服務器，它通過HTTP協(xié)議與客戶端通信。這個客戶端通常指的是Web瀏覽器(其實手機端客戶端內(nèi)部也是瀏覽器實現(xiàn)的)。

Web服務器的工作原理可以簡單地歸納為：

客戶機通過TCP/IP協(xié)議建立到服務器的TCP連接
客戶端向服務器發(fā)送HTTP協(xié)議請求包，請求服務器里的資源文檔
服務器向客戶機發(fā)送HTTP協(xié)議應答包，如果請求的資源包含有動態(tài)語言的內(nèi)容，那么服務器會調用動態(tài)語言的解釋引擎負責處理“動態(tài)內(nèi)容”，并將處理得到的數(shù)據(jù)返回給客戶端
客戶機與服務器斷開。由客戶端解釋HTML文檔，在客戶端屏幕上渲染圖形結果

一個簡單的HTTP事務就是這樣實現(xiàn)的，看起來很復雜，原理其實是挺簡單的。需要注意的是客戶機與服務器之間的通信是非持久連接的，也就是當服務器發(fā)送了應答后就與客戶機斷開連接，等待下一次請求。

URL和DNS解析

我們?yōu)g覽網(wǎng)頁都是通過URL訪問的，那么URL到底是怎么樣的呢？

URL(Uniform Resource Locator)是“統(tǒng)一資源定位符”的英文縮寫，用于描述一個網(wǎng)絡上的資源, 基本格式如下

scheme://host[:port#]/path/.../[?query-string][#anchor]
scheme         指定底層使用的協(xié)議(例如：http, https, ftp)
host           HTTP服務器的IP地址或者域名
port#          HTTP服務器的默認端口是80，這種情況下端口號可以省略。如果使用了別的端口，必須指明，例如 http://www.cnblogs.com:8080/
path           訪問資源的路徑
query-string   發(fā)送給http服務器的數(shù)據(jù)
anchor         錨

DNS(Domain Name System)是“域名系統(tǒng)”的英文縮寫，是一種組織成域層次結構的計算機和網(wǎng)絡服務命名系統(tǒng)，它用于TCP/IP網(wǎng)絡，它從事將主機名或域名轉換為實際IP地址的工作。DNS就是這樣的一位“翻譯官”，它的基本工作原理可用下圖來表示。

更詳細的DNS解析的過程如下，這個過程有助于我們理解DNS的工作模式

在瀏覽器中輸入www.qq.com域名，操作系統(tǒng)會先檢查自己本地的hosts文件是否有這個網(wǎng)址映射關系，如果有，就先調用這個IP地址映射，完成域名解析。
如果hosts里沒有這個域名的映射，則查找本地DNS解析器緩存，是否有這個網(wǎng)址映射關系，如果有，直接返回，完成域名解析。
如果hosts與本地DNS解析器緩存都沒有相應的網(wǎng)址映射關系，首先會找TCP/IP參數(shù)中設置的首選DNS服務器，在此我們叫它本地DNS服務器，此服務器收到查詢時，如果要查詢的域名，包含在本地配置區(qū)域資源中，則返回解析結果給客戶機，完成域名解析，此解析具有權威性。
如果要查詢的域名，不由本地DNS服務器區(qū)域解析，但該服務器已緩存了此網(wǎng)址映射關系，則調用這個IP地址映射，完成域名解析，此解析不具有權威性。
如果本地DNS服務器本地區(qū)域文件與緩存解析都失效，則根據(jù)本地DNS服務器的設置（是否設置轉發(fā)器）進行查詢，如果未用轉發(fā)模式，本地DNS就把請求發(fā)至 “根DNS服務器”，“根DNS服務器”收到請求后會判斷這個域名(.com)是誰來授權管理，并會返回一個負責該頂級域名服務器的一個IP。本地DNS服務器收到IP信息后，將會聯(lián)系負責.com域的這臺服務器。這臺負責.com域的服務器收到請求后，如果自己無法解析，它就會找一個管理.com域的下一級DNS服務器地址(qq.com)給本地DNS服務器。當本地DNS服務器收到這個地址后，就會找qq.com域服務器，重復上面的動作，進行查詢，直至找到 www.qq.com主機。
如果用的是轉發(fā)模式，此DNS服務器就會把請求轉發(fā)至上一級DNS服務器，由上一級服務器進行解析，上一級服務器如果不能解析，或找根DNS或把轉請求轉至上上級，以此循環(huán)。不管本地DNS服務器用的是轉發(fā)，還是根提示，最后都是把結果返回給本地DNS服務器，由此DNS服務器再返回給客戶機。

所謂 `遞歸查詢過程` 就是 “查詢的遞交者” 更替, 而 `迭代查詢過程` 則是 “查詢的遞交者”不變。
舉個例子來說，你想知道某個一起上法律課的女孩的電話，并且你偷偷拍了她的照片，回到寢室告訴一個很仗義的哥們兒，這個哥們兒二話沒說，拍著胸脯告訴你，甭急，我替你查(此處完成了一次遞歸查詢，即，問詢者的角色更替)。然后他拿著照片問了學院大四學長，學長告訴他，這姑娘是xx系的；然后這哥們兒馬不停蹄又問了xx系的辦公室主任助理同學，助理同學說是xx系yy班的，然后很仗義的哥們兒去xx系yy班的班長那里取到了該女孩兒電話。(此處完成若干次迭代查詢，即，問詢者角色不變，但反復更替問詢對象)最后，他把號碼交到了你手里。完成整個查詢過程。

通過上面的步驟，我們最后獲取的是IP地址，也就是瀏覽器最后發(fā)起請求的時候是基于IP來和服務器做信息交互的。

HTTP協(xié)議詳解

HTTP協(xié)議是Web工作的核心，所以要了解清楚Web的工作方式就需要詳細的了解清楚HTTP是怎么樣工作的。

HTTP是一種讓Web服務器與瀏覽器(客戶端)通過Internet發(fā)送與接收數(shù)據(jù)的協(xié)議,它建立在TCP協(xié)議之上，一般采用TCP的80端口。它是一個請求、響應協(xié)議--客戶端發(fā)出一個請求，服務器響應這個請求。在HTTP中，客戶端總是通過建立一個連接與發(fā)送一個HTTP請求來發(fā)起一個事務。服務器不能主動去與客戶端聯(lián)系，也不能給客戶端發(fā)出一個回調連接。客戶端與服務器端都可以提前中斷一個連接。例如，當瀏覽器下載一個文件時，你可以通過點擊“停止”鍵來中斷文件的下載，關閉與服務器的HTTP連接。

HTTP協(xié)議是無狀態(tài)的，同一個客戶端的這次請求和上次請求是沒有對應關系的，對HTTP服務器來說，它并不知道這兩個請求是否來自同一個客戶端。為了解決這個問題， Web程序引入了Cookie機制來維護連接的可持續(xù)狀態(tài)。

HTTP協(xié)議是建立在TCP協(xié)議之上的，因此TCP攻擊一樣會影響HTTP的通訊，例如比較常見的一些攻擊：SYN Flood是當前最流行的DoS（拒絕服務攻擊）與DdoS（分布式拒絕服務攻擊）的方式之一，這是一種利用TCP協(xié)議缺陷，發(fā)送大量偽造的TCP連接請求，從而使得被攻擊方資源耗盡（CPU滿負荷或內(nèi)存不足）的攻擊方式。

HTTP請求包（瀏覽器信息）

我們先來看看Request包的結構, Request包分為3部分，第一部分叫Request line（請求行）, 第二部分叫Request header（請求頭）,第三部分是body（主體）。header和body之間有個空行，請求包的例子所示:

GET /domains/example/ HTTP/1.1		//請求行: 請求方法 請求URI HTTP協(xié)議/協(xié)議版本
Host：www.iana.org				//服務端的主機名
User-Agent：Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.94 Safari/537.4			//瀏覽器信息
Accept：text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8	//客戶端能接收的MIME
Accept-Encoding：gzip,deflate,sdch		//是否支持流壓縮
Accept-Charset：UTF-8,*;q=0.5		//客戶端字符編碼集
//空行,用于分割請求頭和消息體
//消息體,請求資源參數(shù),例如POST傳遞的參數(shù)

HTTP協(xié)議定義了很多與服務器交互的請求方法，最基本的有4種，分別是GET,POST,PUT,DELETE。一個URL地址用于描述一個網(wǎng)絡上的資源，而HTTP中的GET, POST, PUT, DELETE就對應著對這個資源的查，增，改，刪4個操作。我們最常見的就是GET和POST了。GET一般用于獲取/查詢資源信息，而POST一般用于更新資源信息。

通過fiddler抓包可以看到如下請求信息:

我們看看GET和POST的區(qū)別:

我們可以看到GET請求消息體為空，POST請求帶有消息體。
GET提交的數(shù)據(jù)會放在URL之后，以?分割URL和傳輸數(shù)據(jù)，參數(shù)之間以&相連，如EditPosts.aspx?name=test1&id=123456。POST方法是把提交的數(shù)據(jù)放在HTTP包的body中。
GET提交的數(shù)據(jù)大小有限制（因為瀏覽器對URL的長度有限制），而POST方法提交的數(shù)據(jù)沒有限制。
GET方式提交數(shù)據(jù)，會帶來安全問題，比如一個登錄頁面，通過GET方式提交數(shù)據(jù)時，用戶名和密碼將出現(xiàn)在URL上，如果頁面可以被緩存或者其他人可以訪問這臺機器，就可以從歷史記錄獲得該用戶的賬號和密碼。

HTTP響應包（服務器信息）

我們再來看看HTTP的response包，他的結構如下：

HTTP/1.1 200 OK						//狀態(tài)行
Server: nginx/1.0.8					//服務器使用的WEB軟件名及版本
Date:Date: Tue, 30 Oct 2012 04:14:25 GMT		//發(fā)送時間
Content-Type: text/html				//服務器發(fā)送信息的類型
Transfer-Encoding: chunked			//表示發(fā)送HTTP包是分段發(fā)的
Connection: keep-alive				//保持連接狀態(tài)
Content-Length: 90					//主體內(nèi)容長度
//空行 用來分割消息頭和主體
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"... //消息體

Response包中的第一行叫做狀態(tài)行，由HTTP協(xié)議版本號，狀態(tài)碼，狀態(tài)消息三部分組成。

狀態(tài)碼用來告訴HTTP客戶端,HTTP服務器是否產(chǎn)生了預期的Response。HTTP/1.1協(xié)議中定義了5類狀態(tài)碼，狀態(tài)碼由三位數(shù)字組成，第一個數(shù)字定義了響應的類別

1XX 提示信息 - 表示請求已被成功接收，繼續(xù)處理
2XX 成功 - 表示請求已被成功接收，理解，接受
3XX 重定向 - 要完成請求必須進行更進一步的處理
4XX 客戶端錯誤 - 請求有語法錯誤或請求無法實現(xiàn)
5XX 服務器端錯誤 - 服務器未能實現(xiàn)合法的請求

我們看下面這個圖展示了詳細的返回信息，左邊可以看到有很多的資源返回碼，200是常用的，表示正常信息，302表示跳轉。response header里面展示了詳細的信息。

HTTP協(xié)議是無狀態(tài)的和Connection: keep-alive的區(qū)別

無狀態(tài)是指協(xié)議對于事務處理沒有記憶能力，服務器不知道客戶端是什么狀態(tài)。從另一方面講，打開一個服務器上的網(wǎng)頁和你之前打開這個服務器上的網(wǎng)頁之間沒有任何聯(lián)系。

HTTP是一個無狀態(tài)的面向連接的協(xié)議，無狀態(tài)不代表HTTP不能保持TCP連接，更不能代表HTTP使用的是UDP協(xié)議（面對無連接）。

從HTTP/1.1起，默認都開啟了Keep-Alive保持連接特性，簡單地說，當一個網(wǎng)頁打開完成后，客戶端和服務器之間用于傳輸HTTP數(shù)據(jù)的TCP連接不會關閉，如果客戶端再次訪問這個服務器上的網(wǎng)頁，會繼續(xù)使用這一條已經(jīng)建立的TCP連接。

Keep-Alive不會永久保持連接，它有一個保持時間，可以在不同服務器軟件（如Apache）中設置這個時間。

請求實例

上面這張圖我們可以了解到整個的通訊過程，同時細心的讀者是否注意到了一點，一個URL請求但是左邊欄里面為什么會有那么多的資源請求(這些都是靜態(tài)文件，go對于靜態(tài)文件有專門的處理方式)。

這個就是瀏覽器的一個功能，第一次請求url，服務器端返回的是html頁面，然后瀏覽器開始渲染HTML：當解析到HTML DOM里面的圖片連接，css腳本和js腳本的鏈接，瀏覽器就會自動發(fā)起一個請求靜態(tài)資源的HTTP請求，獲取相對應的靜態(tài)資源，然后瀏覽器就會渲染出來，最終將所有資源整合、渲染，完整展現(xiàn)在我們面前的屏幕上。