Úvod do umělé inteligence (AI): Díl 3. Ladíme rychlost LLM na vašem počítači QWEN-2.5 32B

Bymirra

Dub 17, 2025 #AI, #fine tuning, #jakou grafiku na AI, #jakou grafiku pro AI, #LLM, #QWEN

screenshot z LM studio, kde jdou vidět jednotlivé enginy pro běh AI na vašem hardwaru. Buď zvolíte běh cuda na cpu, nebo nvidia kartách, nebo na kartách s podporou vulkan API, tedy na radeonech či intel kartách

V minulém dílu jsme si ukázali, jak LLM na vašem počítači vůbec zprovoznit. Dnes si ukážeme, jak upravit nejrůznější parametry použití načteného modelu tak, aby bylo využito 100% výkonu vašich zdrojů. Dále si zodpovíme některé otázky, které by vás mohly zaujmout z předchozího dílu. Pokud se Qwen-2.5 32B nevleze do vaší grafické karty, použijte menší modely 3B, 7B, 13B atd… 32B vám pojede na RTX 3090 24GB, 7B model použijte pro vaši 8GB grafickou kartu, 3B zkuste pro 6GB nebo 4GB jazykové modely.

Nastavení načteného modelu a využití hardwaru na maximum, který již máte k dispozici

Na tomto obrázku vidíme, že GPU offload byl někde na cca 48, vytáhl jsem to na 64 a CPU thread Pool Size (využití jader procesoru) bylo na 12, posunul jsem na 16. Výsledek pak u tohoto modelu s RTX 3090 24GB, 32GB DDR4 a Ryzenem 5950x je, že to generovalo odpovědi okolo 25 – 27 tokenů za vteřinu místo nějakých původních 3,3 tokenů za vteřinu, jak jste mohli vidět v předchozím díle.

Další nastavení

Mám AMD Radeon kartu, poběží mi to?

Ano, poběží, díky Vulkan accelerated llama.cpp enginu, viz screenshot níže.

Ladíme další nastavení

Prvně jak se k tomu doklikat. Vpravo nahoře v LM studio viz následující obrázek. A tam už máte vcelku široké a pokročilé možnosti dalšího nastavení, kterými můžete ovlivnit kontext, temperature a spoustu dalších hodnot, jejichž popisu a případných best practicies bych věnoval spíš další články, v tomto článku vám chci jen otevřít dveře, ať si s tím začnete hrát a třeba se v komentářích objeví užitečná diskuse.

Krátký průzkum grafických karet pro LLM

Radeony RX 7900 XT s 20GB videopamětí se na AI za uvedenou cenu nevyplatí, protože za stejnou cenu lze pořídit z druhé ruky RTX 3090 s 24GB grafické paměti, což vám umožní načíst modely, které by se do 20GB nemusely vlézt.

V případě Radeonů RX 7900XTX s 24GB videopamětí už se situace rapidně mění a pokud nebudete mít k dispozici grafickou kartu s větší videopamětí, chcete ji novou, tak tento model je v roce 2025 vaší volbou #1. Nvidie s 24 GB videopamětí začínají mnohem dráž (pokud je nevezmete z druhé ruky z bazaru).

Stačí vám 16GB videokarta na LLM?

Pokud ano, tak to můžete buď mít nový intel Arc A770Titan OC 16GB GDDR6 za 8534,- z polského Allegra, anebo za 9045 a výš z českých obchodů. Pokud chcete novou kartu na AI, za tuhle cenu v roce 2025 to stojí za zvážení. O trošku dražší jsou nejlevnější modely Sapphire Radeon RX 7600 XT PULSE 16GB GDDR6 od 9399,- . Na aukru seženete i RX 6800 16GB verzi za podobné peníze z druhé ruky. Intel Arc A770 má TDP 225W, RX 6800 16GB má TDP 250W, RX 7600XT 16GB má TDP 190Wattů. V éře velmi drahé elektřiny proto má smysl zvážit RX 7600XT 16GB s TDP 190 Wattů a měli byste novou kartu. Pokud LLM budete protáčet jen pár hodin denně, tak byste možná uvítali vyšší výkon s RX 6800 16GB z druhé ruky.
Do grafiky se vám nenačtou větší modely, než o velikosti 16GB, což je trošku škoda, když spousta modelů zejména Qwen 32B spotřebuje něco přes 20,4GB videopaměti. Takže na 20GB videopaměti je to 50 na 50, jestli se vám model načte, u 24 GB videopaměti tam máte ještě nějakou rezervu navíc.

Je mi ještě k něčemu v roce 2025 grafická karta s 8GB videopaměti?

Ano, kromě na hraní her ve full hd rozlišení či nižší s nižšími detaily, pro vás může být použití grafických karet s videopamětí o velikosti 8GB na 7B modely. Tedy na nějaké generování textů pro emaily, jednoduchý chatbot, nějaké jednoduché úpravy gramatiky a práci s textem by to stačit mohlo. Na generování zdrojových kódů bych to určitě neviděl, protože se domnívám, že úspěšnost modelu bude nižší, než klasické chatGPT, ale získáte tím soukromí, protože model běžící ve vašem počítači určitě nebude nic posílat nikam do cloudu.
8GB videopaměti je takový hodně entry level pro práci s jazykovými modely. Věřím, že z druhé ruky seženete i grafické karty pod 1500,- korun, nejhůře pod 2000 korun s 8GB videopaměti na provoz jazykových modelů. Takže ideální pro nějaký herní PC. Pokud máte děti, tak přes den hrají na počítači, večer až dáte děti spát, na tom můžete protáčet LLM.

Co kompromisy 10GB a 12GB grafických karet?

Uvažoval bych nad 10GB nebo 12GB variantou jen tehdy, pokud budou takové varianty levnější, nebo srovnatelně drahé, jako jsou 8GB modely, jinak velký skok kupředu pro vás bude přechod z 8GB videokarty na 16GB a potom přechod z 16GB na 24GB nebo 32GB a modely s větší grafickou pamětí.

Co grafické karty AMD Pro, Firepro anebo Nvidie Tesla?

Tam hrozně záleží na architektuře karty. Různé tesly M10, P40, M40, které nemusí např. umět floating point 16 operace, mohou být na spoustu jazykových modelů zcela nepoužitelné, očekávejte, že budou topit a budou násobně pomalejší, než dnešní grafické karty s 16GB či 24 GB videopaměti. Viděl jsem ale některé menší modely, umožňující běh na starších teslách, podporujících jen int-8 operace. U Radeon Pro karet, nebo Firepro karet záleží na tom, jestli umí a podporují Vulkan. Pokud ano a budou podporovat všechny typy matematických operací, které LLM vyžaduje, tak pak už vás jen bude odrazovat cena a uvědomění, že takové karty nepoužijete opravdu na nic jiného, než jen na LLM. Zatímco běžnou grafickou kartu prodáte zase hráčovi (nebo těžařovi, o čemž však v kontextu dnešních drahých energií pochybuji), tak tyto Tesly, jakmile pozbydou svou užitnou hodnotu, tak se stávají téměř neprodejnými. Občas vídáme video, kde se někomu podaří zprovoznit tyto grafické karty bez výstupu (nemají výstupní porty na monitor, tedy žádný monitor do nich nezapojíte) ve spolupráci buď s integrovanou grafickou kartou, takže máte skutečně nativní výkon, jen to chce trošku snahy a řešení problémů s kompatibilitou. Anebo druhá varianta, kdy někdo udělá virtuální počítač pomocí Proxmox VE, do něj postne hardware grafické karty pomocí pci-passthrough a uživatel, který se pak připojí vzdáleně k počítači, nebo použije nějaké streamování na Steamu, tak používá defakto grafický výkon těchto tesel a je schopen na tom pak následně hrát hry. Ale jak vidíte jen z popsaného postupu, tak to není úplně nejsnadnější, nebo rozhodně to není tak snadné, jako do stejného počítače jen vložit standardní grafickou kartu a hrát na tom. Další problém Tesel je, že budou mít patrně vyšší TDP, vyšší spotřebu elektřiny s nižším výkonem. Takže na běžné hraní to úplně nedává smysl, krátkodobě to smysl dává, pokud najdete nějaký případ užití, na který vám to např. doma bude dávat smysl.

4GB videokarty

Ty úplně nejmenší modely se dají zprovoznit na 2GB i 4GB videokartách. Ale očekávejte, že to už bude takový polofunkční model, kde třeba angličtinu to ještě možná bude zvládat použitelně, ale např. čeština už tam bude fakt špatná, jako když píše text s chybami, špatným slovosledem student základní školy. Ale na ten wow efekt, že jste to dokázali zprovoznit to rozhodně stačit bude. Pro výukové účely to taky stačit bude.

Gemma v3 není vůbec marná

Svět AI se vyvíjí tak extrémně rychle, že zatímco před pár měsíci bych vám ještě doporučoval Deepseek R1 lokální jazykový model, tak dnes si tím už tak jistý nejsem a možná bych zvolil gemma3, nebo nějaký mistral, či cokoliv dalšího. Konkurence je vysoká a uživatel z toho v zásadě jen profituje.

By mirra

Hardwaru a počítačům se věnuji již od roku 2003. Za tu dobu jsem poskládal stovky počítačů, opravil tisíce počítačů a vyřešil nespočetně problémů, vad a chyb, se kterými se setkávali uživatelé. Od roku 2005 se zabývám servery, zejména těmi herními, v roce 2007 jsem se začal věnovat Valve Source SDK level designu, který šel od roku 2009 k ledu kvůli studiu Informatiky na univerzitě. Podílel jsem se chvíli i na provozu síťové laboratoře MENDELU, dnes spravuji v jedné osobě cca 100 serverů/diskových polí na univerzitě, řeším IT v malých a středních firmách tak, aby firmy ušetřily nemalé částky při zlepšení kvality a soustředím se na snižování nákladů na IT od licencí až po hardware, software, provádím konsolidace a audity platnosti licencí, které firmám šetří rovněž nemalé peníze. Z velkých firem jsem měl příležitost s dalšími kolegy řešit správu 8000 serverů po celé západní Evropě s vysokou mírou automatizace a poznávání nejrůznějších evropských pracovních mentalit. Dále jsem řešil hybridní cloud ve velké firmě, orientované na trhy střední a východní Evropy. Posledních několik let se věnuji Devops pro velké zákazníky v Azure cloudu, spravuji kubernetes (AKS), Gitlab.

Úvod do umělé inteligence (AI): Díl 2. (LLM na vašem počítači) QWEN-2.5 do 20 minut

Led 30, 2025 mirra

Úvod do umělé inteligence (AI): Díl 1.

Lis 14, 2024 mirra

kvalitninavody.cz

Úvod do umělé inteligence (AI): Díl 3. Ladíme rychlost LLM na vašem počítači QWEN-2.5 32B

Bymirra

Nastavení načteného modelu a využití hardwaru na maximum, který již máte k dispozici

Další nastavení

Mám AMD Radeon kartu, poběží mi to?

Ladíme další nastavení

Krátký průzkum grafických karet pro LLM

Stačí vám 16GB videokarta na LLM?

Je mi ještě k něčemu v roce 2025 grafická karta s 8GB videopaměti?

Co kompromisy 10GB a 12GB grafických karet?

Co grafické karty AMD Pro, Firepro anebo Nvidie Tesla?

4GB videokarty

Gemma v3 není vůbec marná

By mirra

Related Post

Úvod do umělé inteligence (AI): Díl 2. (LLM na vašem počítači) QWEN-2.5 do 20 minut

Úvod do umělé inteligence (AI): Díl 1.

Napsat komentář Zrušit odpověď na komentář

You missed

Úvod do umělé inteligence (AI): Díl 3. Ladíme rychlost LLM na vašem počítači QWEN-2.5 32B

mount(2) system call failed: No route to host.dmesg(1) may have more information after failed mount system call.

Epicky zaseknutý Proxmox VE – jak ho restartovat, když nejde restartovat

Dell Perc H700 a rozběh MegaCLI utility na ubuntu-server 22.04 LTS