不論是物理機還是虛擬機,大部分的程序代碼從開始編譯到最終轉化成物理機的目標代碼或虛擬機能執(zhí)行的指令集之前,都會按照如下圖所示的各個步驟進行:
其中綠色的模塊可以選擇性實現(xiàn)。很容易看出,上圖中間的那條分支是解釋執(zhí)行的過程(即一條字節(jié)碼一條字節(jié)碼地解釋執(zhí)行,如 JavaScript),而下面的那條分支就是傳統(tǒng)編譯原理中從源代碼到目標機器代碼的生成過程。
如今,基于物理機、虛擬機等的語言,大多都遵循這種基于現(xiàn)代經典編譯原理的思路,在執(zhí)行前先對程序源碼進行詞法解析和語法解析處理,把源碼轉化為抽象語法樹。對于一門具體語言的實現(xiàn)來說,詞法和語法分析乃至后面的優(yōu)化器和目標代碼生成器都可以選擇獨立于執(zhí)行引擎,形成一個完整意義的編譯器去實現(xiàn),這類代表是 C/C++語言。也可以把抽象語法樹或指令流之前的步驟實現(xiàn)一個半獨立的編譯器,這類代表是 Java 語言。又或者可以把這些步驟和執(zhí)行引擎全部集中在一起實現(xiàn),如大多數(shù)的 JavaScript 執(zhí)行器。
在 Java 中提到“編譯”,自然很容易想到 javac 編譯器將*.java
文件編譯成為*.class
文件的過程,這里的 javac 編譯器稱為前端編譯器,其他的前端編譯器還有諸如 Eclipse JDT 中的增量式編譯器 ECJ 等。相對應的還有后端編譯器,它在程序運行期間將字節(jié)碼轉變成機器碼(現(xiàn)在的 Java 程序在運行時基本都是解釋執(zhí)行加編譯執(zhí)行),如 HotSpot 虛擬機自帶的 JIT(Just In Time Compiler)編譯器(分 Client 端和 Server 端)。另外,有時候還有可能會碰到靜態(tài)提前編譯器(AOT,Ahead Of Time Compiler)直接把*.java
文件編譯成本地機器代碼,如 GCJ、Excelsior JET 等,這類編譯器我們應該比較少遇到。
下面簡要說下 javac 編譯(前端編譯)的過程。
詞法分析是將源代碼的字符流轉變?yōu)闃擞洠═oken)集合。單個字符是程序編寫過程中的的最小元素,而標記則是編譯過程的最小元素,關鍵字、變量名、字面量、運算符等都可以成為標記,比如整型標志 int 由三個字符構成,但是它只是一個標記,不可拆分。
語法分析是根據(jù)Token序列來構造抽象語法樹的過程。抽象語法樹是一種用來描述程序代碼語法結構的樹形表示方式,語法樹的每一個節(jié)點都代表著程序代碼中的一個語法結構,如 bao、類型、修飾符、運算符等。經過這個步驟后,編譯器就基本不會再對源碼文件進行操作了,后續(xù)的操作都建立在抽象語法樹之上。
完成了語法分析和詞法分析之后,下一步就是填充符號表的過程。符號表是由一組符號地址和符號信息構成的表格。符號表中所登記的信息在編譯的不同階段都要用到,在語義分析(后面的步驟)中,符號表所登記的內容將用于語義檢查和產生中間代碼,在目標代碼生成階段,黨對符號名進行地址分配時,符號表是地址分配的依據(jù)。
語法樹能表示一個結構正確的源程序的抽象,但無法保證源程序是符合邏輯的。而語義分析的主要任務是讀結構上正確的源程序進行上下文有關性質的審查。語義分析過程分為標注檢查和數(shù)據(jù)及控制流分析兩個步驟:
字節(jié)碼生成是 javac 編譯過程的最后一個階段。字節(jié)碼生成階段不僅僅是把前面各個步驟所生成的信息轉化成字節(jié)碼寫到磁盤中,編譯器還進行了少量的代碼添加和轉換工作。 實例構造器()方法和類構造器()方法就是在這個階段添加到語法樹之中的(這里的實例構造器并不是指默認的構造函數(shù),而是指我們自己重載的構造函數(shù),如果用戶代碼中沒有提供任何構造函數(shù),那編譯器會自動添加一個沒有參數(shù)、訪問權限與當前類一致的默認構造函數(shù),這個工作在填充符號表階段就已經完成了)。
Java 程序最初是僅僅通過解釋器解釋執(zhí)行的,即對字節(jié)碼逐條解釋執(zhí)行,這種方式的執(zhí)行速度相對會比較慢,尤其當某個方法或代碼塊運行的特別頻繁時,這種方式的執(zhí)行效率就顯得很低。于是后來在虛擬機中引入了 JIT 編譯器(即時編譯器),當虛擬機發(fā)現(xiàn)某個方法或代碼塊運行特別頻繁時,就會把這些代碼認定為“Hot Spot Code”(熱點代碼),為了提高熱點代碼的執(zhí)行效率,在運行時,虛擬機將會把這些代碼編譯成與本地平臺相關的機器碼,并進行各層次的優(yōu)化,完成這項任務的正是 JIT 編譯器。
現(xiàn)在主流的商用虛擬機(如Sun HotSpot、IBM J9)中幾乎都同時包含解釋器和編譯器(三大商用虛擬機之一的 JRockit 是個例外,它內部沒有解釋器,因此會有啟動相應時間長之類的缺點,但它主要是面向服務端的應用,這類應用一般不會重點關注啟動時間)。二者各有優(yōu)勢:當程序需要迅速啟動和執(zhí)行時,解釋器可以首先發(fā)揮作用,省去編譯的時間,立即執(zhí)行;當程序運行后,隨著時間的推移,編譯器逐漸會返回作用,把越來越多的代碼編譯成本地代碼后,可以獲取更高的執(zhí)行效率。解釋執(zhí)行可以節(jié)約內存,而編譯執(zhí)行可以提升效率。
HotSpot 虛擬機中內置了兩個JIT編譯器:Client Complier 和 Server Complier,分別用在客戶端和服務端,目前主流的 HotSpot 虛擬機中默認是采用解釋器與其中一個編譯器直接配合的方式工作。
運行過程中會被即時編譯器編譯的“熱點代碼”有兩類:
兩種情況,編譯器都是以整個方法作為編譯對象,這種編譯也是虛擬機中標準的編譯方式。要知道一段代碼或方法是不是熱點代碼,是不是需要觸發(fā)即時編譯,需要進行 Hot Spot Detection(熱點探測)。目前主要的熱點 判定方式有以下兩種:
在 HotSpot 虛擬機中使用的是第二種——基于計數(shù)器的熱點探測方法,因此它為每個方法準備了兩個計數(shù)器:方法調用計數(shù)器和回邊計數(shù)器。
方法調用計數(shù)器用來統(tǒng)計方法調用的次數(shù),在默認設置下,方法調用計數(shù)器統(tǒng)計的并不是方法被調用的絕對次數(shù),而是一個相對的執(zhí)行頻率,即一段時間內方法被調用的次數(shù)。
回邊計數(shù)器用于統(tǒng)計一個方法中循環(huán)體代碼執(zhí)行的次數(shù)(準確地說,應該是回邊的次數(shù),因為并非所有的循環(huán)都是回邊),在字節(jié)碼中遇到控制流向后跳轉的指令就稱為“回邊”。
在確定虛擬機運行參數(shù)的前提下,這兩個計數(shù)器都有一個確定的閥值,當計數(shù)器的值超過了閥值,就會觸發(fā)JIT編譯。觸發(fā)了 JIT 編譯后,在默認設置下,執(zhí)行引擎并不會同步等待編譯請求完成,而是繼續(xù)進入解釋器按照解釋方式執(zhí)行字節(jié)碼,直到提交的請求被編譯器編譯完成為止(編譯工作在后臺線程中進行)。當編譯工作完成后,下一次調用該方法或代碼時,就會使用已編譯的版本。
由于方法計數(shù)器觸發(fā)即時編譯的過程與回邊計數(shù)器觸發(fā)即時編譯的過程類似,因此這里僅給出方法調用計數(shù)器觸發(fā)即時編譯的流程:
javac 字節(jié)碼編譯器與虛擬機內的 JIT 編譯器的執(zhí)行過程合起來其實就等同于一個傳統(tǒng)的編譯器所執(zhí)行的編譯過程。
更多建議: