V minulém dílu jsme si ukázali, jak LLM na vašem počítači vůbec zprovoznit. Dnes si ukážeme, jak upravit nejrůznější parametry použití načteného modelu tak, aby bylo využito 100% výkonu vašich zdrojů. Dále si zodpovíme některé otázky, které by vás mohly zaujmout z předchozího dílu. Pokud se Qwen-2.5 32B nevleze do vaší grafické karty, použijte menší modely 3B, 7B, 13B atd… 32B vám pojede na RTX 3090 24GB, 7B model použijte pro vaši 8GB grafickou kartu, 3B zkuste pro 6GB nebo 4GB jazykové modely.
Nastavení načteného modelu a využití hardwaru na maximum, který již máte k dispozici

Další nastavení
Mám AMD Radeon kartu, poběží mi to?
Ano, poběží, díky Vulkan accelerated llama.cpp enginu, viz screenshot níže.

Ladíme další nastavení
Prvně jak se k tomu doklikat. Vpravo nahoře v LM studio viz následující obrázek. A tam už máte vcelku široké a pokročilé možnosti dalšího nastavení, kterými můžete ovlivnit kontext, temperature a spoustu dalších hodnot, jejichž popisu a případných best practicies bych věnoval spíš další články, v tomto článku vám chci jen otevřít dveře, ať si s tím začnete hrát a třeba se v komentářích objeví užitečná diskuse.
Krátký průzkum grafických karet pro LLM
Radeony RX 7900 XT s 20GB videopamětí se na AI za uvedenou cenu nevyplatí, protože za stejnou cenu lze pořídit z druhé ruky RTX 3090 s 24GB grafické paměti, což vám umožní načíst modely, které by se do 20GB nemusely vlézt.
V případě Radeonů RX 7900XTX s 24GB videopamětí už se situace rapidně mění a pokud nebudete mít k dispozici grafickou kartu s větší videopamětí, chcete ji novou, tak tento model je v roce 2025 vaší volbou #1. Nvidie s 24 GB videopamětí začínají mnohem dráž (pokud je nevezmete z druhé ruky z bazaru).
Stačí vám 16GB videokarta na LLM?
Pokud ano, tak to můžete buď mít nový intel Arc A770Titan OC 16GB GDDR6 za 8534,- z polského Allegra, anebo za 9045 a výš z českých obchodů. Pokud chcete novou kartu na AI, za tuhle cenu v roce 2025 to stojí za zvážení. O trošku dražší jsou nejlevnější modely Sapphire Radeon RX 7600 XT PULSE 16GB GDDR6 od 9399,- . Na aukru seženete i RX 6800 16GB verzi za podobné peníze z druhé ruky. Intel Arc A770 má TDP 225W, RX 6800 16GB má TDP 250W, RX 7600XT 16GB má TDP 190Wattů. V éře velmi drahé elektřiny proto má smysl zvážit RX 7600XT 16GB s TDP 190 Wattů a měli byste novou kartu. Pokud LLM budete protáčet jen pár hodin denně, tak byste možná uvítali vyšší výkon s RX 6800 16GB z druhé ruky.
Do grafiky se vám nenačtou větší modely, než o velikosti 16GB, což je trošku škoda, když spousta modelů zejména Qwen 32B spotřebuje něco přes 20,4GB videopaměti. Takže na 20GB videopaměti je to 50 na 50, jestli se vám model načte, u 24 GB videopaměti tam máte ještě nějakou rezervu navíc.
Je mi ještě k něčemu v roce 2025 grafická karta s 8GB videopaměti?
Ano, kromě na hraní her ve full hd rozlišení či nižší s nižšími detaily, pro vás může být použití grafických karet s videopamětí o velikosti 8GB na 7B modely. Tedy na nějaké generování textů pro emaily, jednoduchý chatbot, nějaké jednoduché úpravy gramatiky a práci s textem by to stačit mohlo. Na generování zdrojových kódů bych to určitě neviděl, protože se domnívám, že úspěšnost modelu bude nižší, než klasické chatGPT, ale získáte tím soukromí, protože model běžící ve vašem počítači určitě nebude nic posílat nikam do cloudu.
8GB videopaměti je takový hodně entry level pro práci s jazykovými modely. Věřím, že z druhé ruky seženete i grafické karty pod 1500,- korun, nejhůře pod 2000 korun s 8GB videopaměti na provoz jazykových modelů. Takže ideální pro nějaký herní PC. Pokud máte děti, tak přes den hrají na počítači, večer až dáte děti spát, na tom můžete protáčet LLM.
Co kompromisy 10GB a 12GB grafických karet?
Uvažoval bych nad 10GB nebo 12GB variantou jen tehdy, pokud budou takové varianty levnější, nebo srovnatelně drahé, jako jsou 8GB modely, jinak velký skok kupředu pro vás bude přechod z 8GB videokarty na 16GB a potom přechod z 16GB na 24GB nebo 32GB a modely s větší grafickou pamětí.
Co grafické karty AMD Pro, Firepro anebo Nvidie Tesla?
Tam hrozně záleží na architektuře karty. Různé tesly M10, P40, M40, které nemusí např. umět floating point 16 operace, mohou být na spoustu jazykových modelů zcela nepoužitelné, očekávejte, že budou topit a budou násobně pomalejší, než dnešní grafické karty s 16GB či 24 GB videopaměti. Viděl jsem ale některé menší modely, umožňující běh na starších teslách, podporujících jen int-8 operace. U Radeon Pro karet, nebo Firepro karet záleží na tom, jestli umí a podporují Vulkan. Pokud ano a budou podporovat všechny typy matematických operací, které LLM vyžaduje, tak pak už vás jen bude odrazovat cena a uvědomění, že takové karty nepoužijete opravdu na nic jiného, než jen na LLM. Zatímco běžnou grafickou kartu prodáte zase hráčovi (nebo těžařovi, o čemž však v kontextu dnešních drahých energií pochybuji), tak tyto Tesly, jakmile pozbydou svou užitnou hodnotu, tak se stávají téměř neprodejnými. Občas vídáme video, kde se někomu podaří zprovoznit tyto grafické karty bez výstupu (nemají výstupní porty na monitor, tedy žádný monitor do nich nezapojíte) ve spolupráci buď s integrovanou grafickou kartou, takže máte skutečně nativní výkon, jen to chce trošku snahy a řešení problémů s kompatibilitou. Anebo druhá varianta, kdy někdo udělá virtuální počítač pomocí Proxmox VE, do něj postne hardware grafické karty pomocí pci-passthrough a uživatel, který se pak připojí vzdáleně k počítači, nebo použije nějaké streamování na Steamu, tak používá defakto grafický výkon těchto tesel a je schopen na tom pak následně hrát hry. Ale jak vidíte jen z popsaného postupu, tak to není úplně nejsnadnější, nebo rozhodně to není tak snadné, jako do stejného počítače jen vložit standardní grafickou kartu a hrát na tom. Další problém Tesel je, že budou mít patrně vyšší TDP, vyšší spotřebu elektřiny s nižším výkonem. Takže na běžné hraní to úplně nedává smysl, krátkodobě to smysl dává, pokud najdete nějaký případ užití, na který vám to např. doma bude dávat smysl.
4GB videokarty
Ty úplně nejmenší modely se dají zprovoznit na 2GB i 4GB videokartách. Ale očekávejte, že to už bude takový polofunkční model, kde třeba angličtinu to ještě možná bude zvládat použitelně, ale např. čeština už tam bude fakt špatná, jako když píše text s chybami, špatným slovosledem student základní školy. Ale na ten wow efekt, že jste to dokázali zprovoznit to rozhodně stačit bude. Pro výukové účely to taky stačit bude.
Gemma v3 není vůbec marná
Svět AI se vyvíjí tak extrémně rychle, že zatímco před pár měsíci bych vám ještě doporučoval Deepseek R1 lokální jazykový model, tak dnes si tím už tak jistý nejsem a možná bych zvolil gemma3, nebo nějaký mistral, či cokoliv dalšího. Konkurence je vysoká a uživatel z toho v zásadě jen profituje.