Hogyan futtathatjuk a Qwen 397B modellt helyi gépen az Apple "LLM in a Flash" technológiájával

Az Apple "LLM in a Flash" technológiájának köszönhetően mostantól lehetőség van arra, hogy a Qwen 397B modellt helyi gépen fussunk. Dan Woods, aki ezt a lehetőséget megragadta, és sikerrel futtatta a Qwen 3.5-397B-A17B modellt egy 48GB MacBook Pro M3 Maxen.

A Qwen3.5-397B-A17B modell egy Mixture-of-Experts (MoE) modell, ami azt jelenti, hogy minden tokenhez csak egy részhalmazát kell használni a teljes modell súlyainak. Ezek a szakértői súlyok beolvasásra kerülnek a memóriába az SSD-ről, ami megtakarítja, hogy mindet egyszerre a RAM-ban tartsuk.

Dan az Apple 2023-as tanulmányát használta fel, amelyben a „LLM in a flash: Efficient Large Language Model Inference with Limited Memory” című dolgozatban leírt technológiát alkalmazta. Ennek lényege, hogy a modell paramétereit a flash memóriában tároljuk, de igény szerint beolvasásra kerülnek a DRAM-ba.

Dan a Claude Code-ot használta, és az Andrej Karpathy által kidolgozott autoresearch mintát követve, 90 kísérletet futtatott, és MLX Objective-C és Metal kódot hozott létre, amely a modellt a lehető legHatékonyabban futtatja.

A danveloper/flash-moe repozitóriumban található a kapott kód, valamint egy PDF dokumentum, amely a kísérletet részletesen leírja. A végső modellhez a szakértőket 2 bitre kvantizálták, de a modell nem szakértői részei, mint például a beágyazási tábla és az útválasztási mátrixok, eredeti pontosságukat megtartották, ami összesen 5,5 GB-ot tesz ki, ami a modell futása alatt a memóriában marad.

A Qwen 3.5 általában 10 szakértőt használ tokenenként, de ez a beállítás ezt 4-re csökkentette, és azt állítja, hogy a legnagyobb minőségromlás 3-nál történt.

Nem világos, hogy a modell eredményeinek minősége mennyire érintett. A Claude szerint a „2 bites kimenet minősége nem különbözik a 4 bites értékektől ezeknél a kiértékeléseknek”, de a kiértékelések leírása elég vékony.