Mistral 3'ü Yerel Olarak Nasıl Çalıştırılır

Mistral 3, Mistral AI’nin 2025 sonu model ailesinin başlıca sürümüdür. Yerel/uç dağıtım için tasarlanmış kompakt, hızlı modeller ile, ölçek ve bağlam uzunluğunda son teknolojiyi zorlayan çok büyük ve seyrek bir amiral gemisini bir araya getirir. Bu makale Mistral 3’ün ne olduğunu, nasıl inşa edildiğini, neden yerelde çalıştırmak isteyebileceğinizi ve kendi bilgisayarınızda veya özel sunucunuzda çalıştırmanın üç pratik yolunu — Ollama’nın “tıkla-çalıştır” kolaylığından vLLM/TGI ile üretim GPU sunumuna, GGUF + llama.cpp kullanarak küçük cihazlarda CPU çıkarımına — açıklar.

Mistral 3 nedir?

Mistral 3, Mistral AI’nin açık ağırlıklı modellerinin en son neslidir. Aile, devasa Mistral Large 3’ü (seyrek Uzman Karışımı — MoE — modeli) ve talimat izleme ile çok kipli (metin+görsel) görevler için ayarlanmış çeşitli uç/“Ministral” varyantlarını (3B, 8B, 14B) içerir. Mistral, bu sürümü geniş ölçüde kullanılabilir olacak şekilde konumlandırdı: yüksek performanslı veri merkezi çıkarımı (özelleştirilmiş, optimize kontrol noktalarıyla) ile, nicemlenmiş biçimler ve daha küçük varyantlar aracılığıyla uç ve dizüstü kullanım.

Başlıca pratik özellikler :

Large 3 varyantında Uzman Karışımı (MoE) mimarisi: çok büyük “toplam” parametre sayısı sağlar, ancak token başına yalnızca uzmanların bir alt kümesini etkinleştirir — bu, ölçek açısından verimliliği artırır.
Uç ve yerel kullanım için tasarlanmış Ministral 3 model ailesi (3B / 8B / 14B), talimat-ayar ve çok kipli varyantlarla.
vLLM ve NVIDIA platformları gibi hızlandırılmış çalışma süreleri için resmi kontrol noktaları ve optimize kontrol noktaları (NVFP4/FP8).
Çok kipli + çok dillilik + uzun bağlam — Ministral ve Large varyantlar, görsel+metin anlayışını ve geniş dil kapsamını vurgular. Görseller + uzun belgeleri karıştıran uygulamalar için bu önemlidir.

GPQA Diamond veri setinde (katı bir bilimsel akıl yürütme testi), çeşitli Ministral 3 varyantları, artan çıktı token sayılarıyla bile yüksek doğruluğu korur. Örneğin, Ministral 3B Instruct modeli, 20.000 token’a kadar işlerken %35-40 doğruluğu korur; daha az kaynak kullanırken Gemma 2 9B gibi daha büyük modellere benzer şekilde.

Mistral 3'ü Yerel Olarak Nasıl Çalıştırılır

Mistral 3’ün mimarisi nedir?

Mistral 3 tek bir mimariden ziyade bir ailedir; ancak anlamanız gereken iki mimari desen şunlardır:

Yoğun küçük modeller (Ministral 3)

Standart dönüştürücü (transformer) yığınları, verimlilik ve uç çıkarım için optimize edilmiştir.
Birden fazla boyutta sunulur (3B/8B/14B) ve farklı ince ayarlı varyantlarda: base, instruct ve reasoning; birçok varyant yerel çok kipli (görsel + metin) desteği ve uzun bağlam çalışmasını içerir. Ministral modeller, bazı dağıtımlarda sıkılık için optimize FP8 ağırlıklarla yayımlanır.

Seyrek Uzman Karışımı (Mistral Large 3)

MoE mimarisi: modelde çok sayıda uzman vardır (muazzam toplam parametre sayısı), ancak token başına yalnızca yönlendirme ile seçilen bir alt küme değerlendirilir — bu, hesaplama-ölçek dengelerini iyileştirir.
Mistral Large 3, çıkarım sırasında etkin ~41B parametre ile toplam ~675B parametre bildirir; bu MoE tasarımını yansıtır. Model, modern NVIDIA donanımı üzerinde eğitilmiş ve verimli düşük hassasiyet yürütme (NVFP4/TensorRT/Büyük çekirdek optimizasyonları) için optimize edilmiştir.

Yerelde çalıştırırken önemli teknik özellikler:

Uzun bağlam: bazı Mistral 3 varyantları çok uzun bağlamları destekler (vLLM belgeleri ve Mistral belgeleri, belirli varyantlar için devasa bağlam pencereleri belirtir; ör. bazı Ministral varyantlarda 256k). Bu, bellek ve sunum desenlerini etkiler.
Ağırlık biçimleri ve nicemleme: Mistral, sıkıştırılmış/optimize biçimlerde (FP8, NVFP4) ağırlıklar sağlar ve pratik yerel çıkarım için modern nicemleme araç zincirleriyle (BitsAndBytes, GPTQ, tedarikçi araç zincirleri) çalışır.

Neden Mistral 3’ü yerelde çalıştırırsınız?

Yerel LLM çalıştırma artık niş bir hobi değil — şu konulara önem veren ekipler ve bireyler için pratik bir seçenektir:

Veri gizliliği ve uyumluluk. Yerel barındırma, hassas girdileri altyapınız içinde tutar (finans, sağlık, hukuk için önemlidir). Reuters, Mistral modellerini kendi başına barındırmayı seçen yüksek profilli müşterileri bildirdi.
Gecikme ve maliyet kontrolü. Sıkı gecikme SLO’ları ve öngörülebilir maliyetler için, yerel veya özel küme çıkarımı bulut API şok faturalarından daha iyi olabilir. Daha küçük Ministral varyantlar ve nicemlenmiş biçimler bunu pratik hale getirir.
Özelleştirme ve ince ayar. Özel davranış, fonksiyon çağırma veya yeni kipler gerektiğinde, yerel kontrol özel ince ayar ve veri işleme sağlar. Hugging Face ve vLLM entegrasyonu bunu daha da hazır hale getirir.

Bu nedenler önceliklerinizle — gizlilik, kontrol, maliyet öngörülebilirliği veya araştırma — örtüşüyorsa, yerel dağıtım düşünmeye değer.

Mistral 3’ü yerelde nasıl çalıştırabilirsiniz (üç pratik yöntem)?

Mistral 3’ü yerelde çalıştırmanın birçok yolu vardır. En yaygın kullanıcı senaryolarını kapsayan üç yaklaşımı ele alacağım:

Ollama (sıfır yapılandırmalı masaüstü / yerel sunucu, çoğu kullanıcı için en kolay)
Hugging Face Transformers + PyTorch / vLLM (tam kontrol, GPU kümeleri)
llama.cpp / ggml / GGUF nicemlenmiş CPU çıkarımı (hafif, dizüstü/CPU’da çalışır)

Her yöntem için ne zaman mantıklı olduğuna, ön koşullara, adım adım komutlara ve küçük kod örneklerine yer vereceğim.

1) Mistral 3’ü Ollama ile nasıl çalıştırırsınız (en hızlı yol)?

Ne zaman kullanılmalı: sürtünmesiz bir yerel deneyim (macOS/Linux/Windows), erişilebilir bir CLI veya GUI ve mevcut olduğunda otomatik indirmeler/nicemlenmiş yapıtlar istiyorsunuz. Ollama’nın, Ministral 3 ve Mistral ailesinin diğer üyeleri için model girdileri vardır.

Ön koşullar

Ollama kurulu (ollama.com’daki yükleyiciyi izleyin). Ollama kitaplığı, bazı Ministral sürümleri için belirli asgari sürümleri belirtir.
Model yapıtlarını depolamak için yeterli disk alanı (model boyutları farklıdır — nicemlenmiş Ministral 3B sürümleri birkaç GB olabilir; daha büyük BF16 varyantlar onlarca GB’dir).

Adımlar (örnek)

Ollama’yı yükleyin (macOS örneği — platforma göre değiştirin):

# macOS (Homebrew) example — see ollama.com for platform-specific installersbrew install ollama

Bir ministral modeli çalıştırın:

# Pull and run the model interactivelyollama run ministral-3

Yerelde (API) sunun ve koddan çağırın:

# Run Ollama server (default port shown in docs)ollama serve# Then curl against it (example)curl -s -X POST "http://localhost:11434/api/v1/generate" \  -H "Content-Type: application/json" \  -d '{"model":"ministral-3","prompt":"Summarize Mistral 3 in one sentence."}'

Notlar ve ipuçları

Ollama, model indirmelerini ve (mevcut olduğunda) yerel nicemlenmiş varyantları yönetir — modelleri hızlıca denemek için çok kullanışlıdır.
Modeli çok eşzamanlı isteklerle üretimde kullanmayı planlıyorsanız, Ollama prototipleme için harikadır; ancak kalıcı yük için ölçekleme ve kaynak orkestrasyonunu değerlendirin.

2) Mistral 3’ü Hugging Face Transformers ile nasıl çalıştırırsınız (GPU / vLLM entegrasyonu)?

Ne zaman kullanılmalı: araştırma veya üretim için programatik kontrol istiyor, ince ayar yapmak istiyor veya GPU kümelerinde vLLM gibi hızlandırılmış çıkarım yığınlarını kullanmak istiyorsunuz. Hugging Face, Transformers desteği sağlar ve Mistral, vLLM/NVIDIA için optimize kontrol noktaları sunar.

Ön koşullar

Yeterli belleğe sahip GPU (modele ve hassasiyete göre değişir). Küçük Ministral 3 (3B/8B) modelleri nicemlendiğinde tek bir orta seviye GPU’da çalışabilir; daha büyük varyantlar birden çok H100/A100 veya vLLM için optimize NVFP4 kontrol noktaları gerektirir. NVIDIA ve Mistral belgeleri, büyük modeller için belirli düğüm boyutlarını önerir.
Python, PyTorch, transformers, accelerate (veya vLLM sunucu istiyorsanız).

Python örneği — temel Hugging Face pipeline (3B instruct varyantı, GPU):

# Example: CPU/GPU inference with transformers pipeline# Assumes you have CUDA and a compatible PyTorch build.import torchfrom transformers import pipelinemodel_name = "mistralai/Ministral-3-3B-Instruct-2512-BF16"  # example HF model idgenerator = pipeline(    "text-generation",    model=model_name,    device_map="auto",    torch_dtype=torch.bfloat16,  # use bfloat16 if your hardware supports it)prompt = "Explain how attention helps transformers, in 3 sentences."out = generator(prompt, max_new_tokens=120, do_sample=False)print(out[0]["generated_text"])

Üretim GPU çıkarımı için vLLM kullanma

vLLM, büyük modelleri verimli şekilde sunmak üzere tasarlanmıştır, Mistral 3 ailesini destekler ve Mistral, bellek ayak izini azaltmak ve hızı artırmak için vLLM/NVIDIA donanımına optimize edilmiş kontrol noktalarını (NVFP4/FP8) yayımlamıştır. Bir vLLM sunucusu başlatmak, düşük gecikmeli, toplu çıkarım uç noktası sağlar. Model yolları ve önerilen bayraklar için vLLM tariflerine ve Mistral yönlendirmesine bakın.

Notlar ve ipuçları

Üretimde, optimize kontrol noktalarını (NVFP4/FP8) tercih edin ve önerilen GPU’larda (ör. H100/A100) çalıştırın veya tensör/model paralelizmini destekleyen bir orkestrasyon katmanı kullanın. Mistral ve NVIDIA, optimize çalışma süreleri hakkında belgeler ve blog yazıları sağlar.
Yeniden üretilebilir sonuçlar ve sessiz model güncellemelerini önlemek için diskteki tam model kontrol noktasını (veya yeniden üretilebilir bir HF anlık görüntüsü) her zaman sabitleyin.

3) Mistral 3’ü CPU üzerinde llama.cpp / GGUF nicemlenmiş modellerle nasıl çalıştırırsınız?

Ne zaman kullanılmalı: CPU’da (örn. geliştirici dizüstü bilgisayarı, güvenli hava boşluklu ortam) yerel, çevrimdışı çıkarıma ihtiyacınız var ve çalışma süresi ile bellek verimliliği için belirli ölçüde kalite kaybını kabul ediyorsunuz. Bu yöntem ggml/llama.cpp ve GGUF nicemlenmiş ağırlıkları (q4/q5/vb.) kullanır.

Ön koşullar

Bir Ministral modelinin GGUF nicemlenmiş derlemesi (birçok topluluk üyesi GGUF nicemlemelerini Hugging Face üzerinde yayımlar veya BF16 ağırlıkları yerelde GGUF’ye dönüştürür). Ministral-3-3B-Instruct GGUF varyantlarını arayın.
Derlenmiş llama.cpp ikilisi (projenin README’sini izleyin).

Nicemleme (orijinal ağırlıklar sizdeyse) — örnek (kavramsal)

# Example: quantize from an FP16/BF16 model to a GGUF q4_K_M (syntax depends on llama.cpp version)./quantize /path/to/original/model.bin /path/to/out.gguf q4_k_m

llama.cpp ile bir GGUF çalıştırma

# run interactive inference with a quantized GGUF model./main -m /path/to/ministral-3-3b-instruct.gguf -t 8 -c 2048 --interactive# -t sets threads, -c sets context (tokens) if supported

Python istemci örneği (yerel llama.cpp sunucusu veya alt işlem)

llama.cpp’yi bir alt işlem olarak başlatabilir ve istemleri besleyebilir veya küçük bir sarmalayıcı istemci kullanabilirsiniz. Birçok topluluk projesi, yerel uygulama entegrasyonu için llama.cpp etrafında basit bir HTTP sunucu sarmalayıcı sunar.

Notlar ve değiş-tokuşlar

Nicemleme, VRAM’i azaltır ve CPU çıkarımını mümkün kılar; ancak kaliteyi düşürebilir (nicem biçimine bağlı olarak hafif ile orta derecede). q4_K_M veya q5 varyantları gibi biçimler, CPU kullanımı için yaygın uzlaşmalardır. Japonca ve teknik gönderiler, Q4/Q5 türlerini ve GGUF dönüşümlerini ayrıntılı olarak açıklar.
Küçükten orta ölçekli yükler için GGUF + llama.cpp, yerel LLM çalıştırmanın çoğu zaman en ucuz ve en taşınabilir yoludur.

Donanım ve bellekle ilgili hangi hususlar önemlidir?

Kısa, pratik rehberlik:

3B modeller: nicemlenerek genellikle makul bir dizüstü bilgisayar CPU’sunda veya hassasiyet/nicemlemeye bağlı olarak 8–16 GB VRAM’li tek bir GPU’da çalıştırılabilir. GGUF q4 varyantları birçok modern CPU’da çalışır.
8B ve 14B Ministral’ler: tipik olarak orta sınıf bir GPU’ya ihtiyaç duyar (örn. hassasiyet ve aktivasyon önbelleğine bağlı olarak 24–80 GB) veya birden çok aygıt arasında nicemleme.
Mistral Large 3 (675B toplam, 41B etkin): veri merkezi dağıtımı için tasarlanmıştır ve genellikle çoklu GPU düğümleriyle (örn. 8×A100 veya H100) ve vLLM için uzmanlaşmış biçimlerle (NVFP4/FP8) en iyi şekilde çalışır. Mistral, bu tür dağıtımları mümkün kılmak için açıkça optimize kontrol noktaları yayımladı.

Önceliğiniz yerel dizüstü kullanım ise, Ministral 3B nicemlenmiş GGUF + llama.cpp yolunu hedefleyin. Önceliğiniz üretim verimi ise, GPU’larda vLLM + NVFP4 kontrol noktalarına bakın. Deney kolaylığı istiyorsanız, başlamak için en hızlı yol Ollama’dır.

Nicemleme ve hassasiyeti nasıl seçmelisiniz?

Nicemleme bir dengedir: bellek ve hız, ham model kalitesine karşı. Yaygın seçimler:

q4_0 / q4_1 / q4_K_M: CPU çıkarımında kullanılan popüler 4-bit seçenekler; q4_K_M (k-ortalamalar varyantı) genellikle daha iyi kalite/performans dengesi sunar.
q5 / q8 / imatrix varyantları: daha fazla sadakati, boyut pahasına koruyabilen ara biçimler.
FP16 / BF16 / FP8 / NVFP4: GPU hassasiyetleri — BF16 ve FP16, modern GPU’larda eğitim/çıkarım için yaygındır; FP8/NVFP4, çok büyük modeller için belleği tasarruf eder ve optimize çalışma süreleri ile Mistral’in kontrol noktası yayımları tarafından desteklenir.

Genel kural: yerel CPU çalıştırmaları için q4_K_M veya benzeri biçimleri seçin; yüksek sadakatli GPU çıkarımı için donanım/yürütme tarafından desteklenen BF16/FP16 veya satıcıya özgü FP8/NVFP4 kullanın.

Sonuç — Mistral 3’ü yerelde çalıştırmalı mısınız?

Eğer gizlilik, düşük gecikme veya özelleştirme gerekiyorsa, evet: Mistral 3 ailesi size geniş bir palet sunar — uç CPU için küçücük modeller, tek bir GPU veya mütevazı küme için orta boy modeller ve veri merkezi ölçeği için büyük bir MoE tat — ve ekosistem (Ollama, Hugging Face, vLLM, llama.cpp) zaten pratik yerel ve özel dağıtım desenlerini destekliyor. Mistral ayrıca NVIDIA ve vLLM ile birlikte, yüksek verim ve azaltılmış bellek ayak izi için optimize kontrol noktaları sağladı; bu, üretim öz-barındırmayı eskisinden daha gerçekçi kılar.

Başlamak için, Gemini 3 Pro gibi daha fazla modelin yeteneklerini Playground’da keşfedin ve ayrıntılı talimatlar için API Kılavuzu’na başvurun. Erişmeden önce, lütfen CometAPI’ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun. CometAPI entegrasyonunuza yardımcı olmak için resmi fiyattan çok daha düşük bir fiyat sunar.

Hazır mısınız?→ CometAPI’ye bugün kaydolun !

Mistral 3 nedir?

Mistral 3’ün mimarisi nedir?

Yoğun küçük modeller (Ministral 3)

Seyrek Uzman Karışımı (Mistral Large 3)

Neden Mistral 3’ü yerelde çalıştırırsınız?

Mistral 3’ü yerelde nasıl çalıştırabilirsiniz (üç pratik yöntem)?

1) Mistral 3’ü Ollama ile nasıl çalıştırırsınız (en hızlı yol)?

Ön koşullar

Adımlar (örnek)

2) Mistral 3’ü Hugging Face Transformers ile nasıl çalıştırırsınız (GPU / vLLM entegrasyonu)?

Ön koşullar

Python örneği — temel Hugging Face pipeline (3B instruct varyantı, GPU):

Üretim GPU çıkarımı için vLLM kullanma

Notlar ve ipuçları

3) Mistral 3’ü CPU üzerinde llama.cpp / GGUF nicemlenmiş modellerle nasıl çalıştırırsınız?

Ön koşullar

Nicemleme (orijinal ağırlıklar sizdeyse) — örnek (kavramsal)

llama.cpp ile bir GGUF çalıştırma

Python istemci örneği (yerel llama.cpp sunucusu veya alt işlem)

Notlar ve değiş-tokuşlar

Donanım ve bellekle ilgili hangi hususlar önemlidir?

Nicemleme ve hassasiyeti nasıl seçmelisiniz?

Sonuç — Mistral 3’ü yerelde çalıştırmalı mısınız?

Yapay zeka geliştirme maliyetlerinizi %20 azaltmaya hazır mısınız?

Devamını Oku