Vitalik：提升效率和安全性的新構想——膠合和協處理器架構

2024年9月03日 17:35

原標題：Glueandcoprocessorarchitectures

作者：Vitalik，Ethereum創始人；編譯：鄧通，金色財經

特別感謝JustinDrake、GeorgiosKonstantopoulos、AndrejKarpathy、MichaelGao、TarunChitra和各種Flashbots貢獻者提供的反饋和評論。

如果你以中等程度的細節分析現代世界中正在進行的任何資源密集型計算，你會一次又一次發現的一個特點是，計算可以分為兩個部分：

相對少量的復雜但計算量不大的“業務邏輯”；

大量密集但高度結構化的“昂貴工作”。

這兩種計算形式最好用不同的方式處理：前者，其架構可能效率較低但需要具有非常高的通用性；后者，其架構可能具有較低的通用性，但需要具有非常高的效率。實踐中這種不同方式的例子有哪些？

首先，讓我們了解一下我最熟悉的環境：Ethereum虛擬機(EVM)。這是我最近進行的Ethereum交易的geth調試跟蹤：在ENS上更新我的博客的IPFS哈希。該交易總共消耗了46924gas，可以按以下方式分類：

基本成本：21,000

調用數據：1,556

EVM執行：24,368

SLOAD操作碼：6,400

SSTORE操作碼：10,100

LOG操作碼：2,149

其他：6,719

變壓器模型的一個塊的前向傳遞

我們在這里看到了什么？我們看到了用Python編寫的相對少量的“業務邏輯”，它描述了正在執行的操作的結構。在實際應用中，還會有另一種類型的業務邏輯，它決定了諸如如何獲取輸入以及對輸出執行的操作等細節。但是，如果我們深入研究每個單獨的操作本身（self.norm、torch.cat、+、*、self.attn內部的各個步驟……），我們會看到矢量化計算：相同的操作并行計算大量值。與第一個示例類似，一小部分計算用于業務邏輯，大部分計算用于執行大型結構化矩陣和向量運算——事實上，大多數只是矩陣乘法。

就像在EVM示例中一樣，這兩種類型的工作以兩種不同的方式處理。高級業務邏輯代碼是用Python編寫的，這是一種高度通用和靈活的語言，但也非常慢，我們只是接受低效率，因為它只涉及總計算成本的一小部分。同時，密集型操作是用高度優化的代碼編寫的，通常是在GPU上運行的CUDA代碼。我們甚至越來越多地開始看到LLM推理在ASIC上進行。

現代可編程密碼學，如SNARK，在兩個層面上再次遵循類似的模式。首先，證明器可以用高級語言編寫，其中繁重的工作是通過矢量化操作完成的，就像上面的AI示例一樣。我在這里的圓形STARK代碼展示了這一點。其次，在密碼學內部執行的程序本身可以以一種在通用業務邏輯和高度結構化的昂貴工作之間進行劃分的方式編寫。

要了解其工作原理，我們可以看看STARK證明的最新趨勢之一。為了通用且易于使用，團隊越來越多地為廣泛采用的最小虛擬機（如RISC-V）構建STARK證明器。任何需要證明執行情況的程序都可以編譯成RISC-V，然后證明者可以證明該代碼的RISC-V執行情況。

這是一種簡化：在實踐中，效率和通用性之間的權衡曲線幾乎總是有兩個以上的層次。GPU和其他在行業中通常被稱為“協處理器”的芯片不如CPU通用，但比ASIC通用。專業化程度的權衡很復雜，這取決于對算法的哪些部分在五年后仍將保持不變，哪些部分在六個月后會發生變化的預測和直覺。在ZK證明架構中，我們經常看到類似的多層專業化。但對于廣泛的思維模型，考慮兩個層次就足夠了。在許多計算領域都有類似的情況：

從上述例子來看，計算當然可以以這種方式分割，這似乎是一種自然法則。事實上，你可以找到幾十年來計算專業化的例子。然而，我認為這種分離正在增加。我認為這是有原因的：

我們最近才達到CPU時鐘速度提升的極限，因此只有通過并行化才能獲得進一步的收益。但是，并行化很難推理，因此對于開發人員來說，繼續按順序推理并讓并行化在后端發生往往更為實際，并包裝在為特定操作構建的專用模塊中。

計算速度最近才變得如此之快，以至于業務邏輯的計算成本已經變得真正可以忽略不計。在這個世界中，優化業務邏輯運行的VM以達到計算效率以外的目標也是有意義的：開發人員友好性、熟悉性、安全性和其他類似目標。同時，專用的“協處理器”模塊可以繼續為效率而設計，并從它們與粘合劑的相對簡單的“接口”中獲得其安全性和開發人員友好性。

最重要的昂貴操作是什么變得越來越清晰。這在密碼學中最為明顯，其中最有可能使用哪些類型的特定昂貴操作：模數運算、橢圓曲線線性組合（又稱多標量乘法）、快速傅里葉變換等等。在人工智能中，這種情況也變得越來越明顯，二十多年來，大部分計算都是“主要是矩陣乘法”（盡管精度水平不同）。其他領域也出現了類似的趨勢。與20年前相比，（計算密集型）計算中的未知未知數要少得多。這意味著什么？

一個關鍵點是，膠合器（Glue）應優化以成為好的膠合器（Glue），而協處理器（coprocessor）也應優化以成為好的協處理器（coprocessor）。我們可以在幾個關鍵領域探索這一點的含義。EVM

Blockchain虛擬機（例如EVM）不需要高效，只需要熟悉即可。只需添加正確的協處理器（又稱“預編譯”），低效VM中的計算實際上可以與本機高效VM中的計算一樣高效。例如，EVM的256位寄存器所產生的開銷相對較小，而EVM的熟悉度和現有開發者生態系統帶來的好處是巨大且持久的。優化EVM的開發團隊甚至發現，缺乏并行化通常不是可擴展性的主要障礙。

改進EVM的最佳方法可能只是(i)添加更好的預編譯或專用操作碼，例如EVM-MAX和SIMD的某種組合可能是合理的，以及(ii)改進存儲布局，例如，Verkle樹的更改作為副作用，大大降低了訪問彼此相鄰的存儲槽的成本。

運行Debian的RISC-V筆記本電腦

然而，效率仍然是一個問題。上述鏈接文章的作者寫道：

RISC-V等較新的開源芯片設計不可能與已經存在并經過數十年改進的處理器技術相媲美。進步總有一個起點。

更偏執的想法，比如這種在FPGA上構建RISC-V計算機的設計，面臨著更大的開銷。但是，如果膠合和協處理器架構意味著這種開銷實際上并不重要，那會怎樣？如果我們接受開放和安全芯片將比專有芯片慢，如果需要甚至放棄推測執行和分支預測等常見優化，但試圖通過添加（如果需要，專有）ASIC模塊來彌補這一點，這些模塊用于最密集的特定類型的計算，那會怎樣？敏感計算可以在“主芯片”中完成，該芯片將針對安全性、開源設計和側信道阻力進行優化。更密集的計算（例如ZK證明、AI）將在ASIC模塊中完成，這將了解有關正在執行的計算的更少信息（可能，通過加密盲化，在某些情況下甚至可能為零信息）。密碼學

另一個關鍵點是，這一切都對密碼學，尤其是可編程密碼學成為主流非常樂觀。我們已經在SNARK、MPC和其他設置中看到了一些特定的高度結構化計算的超優化實現：某些哈希函數的開銷僅比直接運行計算貴幾百倍，而且人工智能（主要是矩陣乘法）的開銷也非常低。GKR等進一步的改進可能會進一步降低這一水平。完全通用的VM執行，特別是在RISC-V解釋器中執行時，可能會繼續產生大約一萬倍的開銷，但出于本文中描述的原因，這并不重要：只要使用高效的專用技術分別處理計算中最密集的部分，總開銷就是可控的。

矩陣乘法專用MPC的簡化圖，這是AI模型推理中最大的組件。請參閱本文了解更多詳細信息，包括如何保持模型和輸入的私密性。

“膠合層只需要熟悉，不需要高效”這一想法的一個例外是延遲，以及在較小程度上的數據帶寬。如果計算涉及對同一數據進行數十次重復的繁重操作（就像密碼學和人工智能一樣），那么由低效膠合層導致的任何延遲都可能成為運行時間的主要瓶頸。因此，膠合層也有效率要求，盡管這些要求更為具體。結論

總體而言，我認為上述趨勢從多個角度來看都是非常積極的發展。首先，這是在保持開發人員友好性的同時最大化計算效率的合理方法，能夠同時獲得更多兩者對每個人都有好處。特別是，通過在客戶端實現專業化以提高效率，它提高了我們在用戶硬件本地運行敏感且性能要求高的計算（例如ZK證明、LLM推理）的能力。其次，它創造了一個巨大的機會之窗，以確保對效率的追求不會損害其他價值，最明顯的是安全性、開放性和簡單性：計算機硬件中的側通道安全性和開放性、降低ZK-SNARK中的電路復雜性以及降低虛擬機中的復雜性。從歷史上看，對效率的追求導致這些其他因素退居次要地位。有了膠合和協處理器架構，它不再需要。機器的一部分優化效率，另一部分優化通用性和其他價值，兩者協同工作。

這一趨勢對密碼學也非常有利，因為密碼學本身就是“昂貴的結構化計算”的一個主要例子，而這一趨勢加速了這一趨勢的發展。這為提高安全性又增加了一個機會。在Blockchain世界中，安全性的提高也成為可能：我們可以少擔心虛擬機的優化，而更多地關注優化預編譯和與虛擬機共存的其他功能。

第三，這一趨勢為規模較小、較新的參與者提供了參與的機會。如果計算變得不那么單一，而更加模塊化，這將大大降低進入門檻。即使使用一種類型的計算的ASIC，也有可能有所作為。在ZK證明領域和EVM優化中也是如此。編寫具有近乎前沿水平效率的代碼變得更加容易和易于訪問。審計和形式化驗證此類代碼變得更加容易和易于訪問。最后，由于這些非常不同的計算領域正在趨同于一些共同模式，因此它們之間有更多的協作和學習空間。

日韩精品无码视频一区二区蜜桃-成人午夜高潮a∨猛片-亚洲欧美精品伊人久久-黑人入室粗暴人妻中出-丰满人妻被黑人中出849