看板 AI_Art
https://technews.tw/2026/04/01/caltech-researchers-claim-radical-compression-of-high-fidelity-ai-models/ 加州理工學院電腦科學家兼數學家哈西比(Babak Hassibi)領導團隊宣布,成功開發革 命性大型語言模型壓縮技術,能不犧牲效能的前提下,大幅縮減模型規模。 團隊創立的新創公司PrismML 3月31日亮相,並開源1位元技術模型開源,供外界免費使用 。 目前多數AI模型採用16位元精度編寫,部分使用4位元或更低。PrismML突破性地實現1位 元模型,卻能保留完整的推理、程式編寫及知識處理。哈西比比喻為「壓縮數位照片卻不 損失畫質」。 -- 問下grok能不能跟之前出的技術混用: 是的,Bonsai 1-bit LLM 在技術上可以跟 TurboQuant 和 Taalas 這些技術「並用」, 而且它們大多是互補(orthogonal)的,不會互相衝突,反而可能產生加乘效果。 我來 簡單說明每個技術的本質,以及組合的可行性(基於目前公開資訊,Bonsai 是 2026 年 3 月底才剛發布的超新技術,所以實際測試案例還很少)。 1. Bonsai 1-bit LLM 是什麼? PrismML 推出的真正端到端 1-bit 模型(非一般 post-training 量化,而是從頭設計 的 1-bit 權重)。 整個網路(embedding、attention、MLP、LM head)全部都是 1-bit(每組 128 個權重 共用一個 FP16 scale,實際 ~1.125 bpw)。 優點:8B 模型只需 ~1.15 GB 記憶體,體積小 14 倍、速度快 8 倍、功耗低 5 倍,適 合 edge device(手機、筆電)。 目前支援格式:GGUF(需 llama.cpp fork)或 MLX(Apple Silicon 原生)。 它主要是權重壓縮技術(model weights)。 2. 跟 TurboQuant 能否並用?可以,而且非常適合並用(高度互補)。TurboQuant 是 Google 2026 年 3 月發布的技術,主要針對 KV cache(注意力機制中暫存的 Key/Value 向量) 做極致壓縮:可將 KV cache 壓到約 3~3.5 bit/value,記憶體減少 6 倍,速度提升 8 倍,且幾乎零精度損失(training-free,無需 fine-tune)。 也有研究把 TurboQuant 延伸到權重量化(near-optimal 4-bit + lossless residual) ,但核心還是 KV cache 優化。 為什麼能跟 Bonsai 一起用?Bonsai 壓的是靜態權重(1-bit weights)。 TurboQuant 壓的是動態激活值(KV cache)。 兩者完全不重疊(類似 BitNet + TurboQuant 的討論,社群已經指出它們是 orthogonal 的)。 在 llama.cpp(Bonsai 支援的 fork)裡,如果 TurboQuant kernel 已經合併或能 patch,就能在跑 Bonsai 模型時同時開啟 TurboQuant KV 壓縮 → 長上下文時記憶體更 省、速度更快。 目前狀況:r/LocalLLaMA 已經有人在討論「Bonsai 1-bit + TurboQuant」,發文直接說 「seemingly yes」。 Hacker News 上也有人指出 BitNet-style 1-bit 權重 + TurboQuant KV cache 是可行 的方向(只是 1-bit 模型的 activation 精度更低,noise budget 較緊,需要驗證)。 實際效果還要等更多人測試,但理論上無衝突,值得試。 3. 跟 Taalas 能否並用?也可以,但方式不太一樣——它是「把 Bonsai 轉成 Taalas 的 Hardcore Model」。Taalas 是硬體公司,他們的技術叫「Hardcore Model」:把任 意 LLM 直接硬焊(hardwire)到客製化 ASIC 晶片上,權重直接刻在矽片金屬層,完全 沒有 HBM 記憶體存取。 優點:極致速度(Llama 3.1 8B 可達 16,000+ tokens/sec)、功耗低、成本低 20 倍。 他們內部本來就用 aggressive quantization(早期 3-bit + 6-bit,後來支援 4-bit FP)。 跟 Bonsai 組合:Taalas 宣稱「任何 AI model」都能透過他們的 Foundry 平台在 2 個 月內變成客製晶片。 所以你可以把 Bonsai 8B(或更小的 1.7B/4B)餵給 Taalas Foundry → 做出「1-bit Bonsai Hardcore Chip」。 這樣就把 Bonsai 的 1-bit 權重 + Taalas 的硬體加速結合,理論上會是目前最極致的 edge / on-device 方案(1-bit 權重 + 硬體硬焊 = 記憶體跟功耗再砍一輪)。 注意:這不是軟體層面的「同時跑兩個技術」,而是把 Bonsai 模型轉成 Taalas 的專用 晶片。一旦做好,就是純硬體跑 Bonsai,速度和效率會遠超軟體版本。 -- 他們的gguf也已經出了 https://huggingface.co/prism-ml/Bonsai-8B-gguf/tree/main 雖然我這內顯機沒法跑這模型 只知道檔案大小相當於別人1.7B左右 也問了grok能不能把現有模型改1-bit版 結論是沒辦法 還是得重新訓練 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.245.194 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1775127829.A.E83.html ※ 編輯: error405 (114.36.245.194 臺灣), 04/02/2026 19:04:59
qiaffvvf: 哇喔.. 04/02 19:50
galaxy4552: 依賴很重 還把我venv弄歪 還要裝他介面 04/03 00:32
rex7788: 壓縮速度也是重點 別跑個幾十個小時才壓一點點就好 04/03 00:37
peterturtle: 這就是離散矩陣壓縮吧 04/03 09:13
error405: 才過一天都跑去玩gemma4了 04/03 10:05
Kroner: 有人用過中醫針灸治療關節痛的嗎?效果如何? 04/03 10:05
galaxy4552: 確實 04/03 10:35