光宇
24.33M · 2026-03-31
很多人在本地跑 llama.cpp 时,不是卡在编译,而是卡在“版本选错、DLL 缺失、参数不清、模型来源混乱”。这篇只聚焦 GitHub Releases 免编译路径,并补齐 模型检索下载:Windows 各版本下载链接、CUDA DLL 配置、llama-server.exe 与 llama-bench.exe 实测参数、Hugging Face / hf-mirror 下载与校验、验证方式和报错处理。你看完可以当天完成:下载即用、接口可调、性能可测、问题可回溯。
先说清楚:这篇不是否定 Ollama,而是讲它在工程落地里的常见痛点,以及为什么我建议先跑通 llama.cpp 免编译链路。
Ollama 常见痛点(工程视角)
-ngl/-b/-c/-t 这类底层调优在 llama.cpp 更直观。本文价值(你能直接拿去复用)
a. 问题现象
b. 产生原因 架构(x64/arm64)或后端(CPU/CUDA/Vulkan/SYCL/HIP)选错,或者漏下 CUDA 运行库压缩包。
c. 操作步骤(按机器直接选)
Windows x64 (CPU) github.com/ggml-org/ll…
Windows arm64 (CPU) github.com/ggml-org/ll…
Windows x64 (CUDA 12) github.com/ggml-org/ll… CUDA 12.4 DLLs github.com/ggml-org/ll…
Windows x64 (CUDA 13) github.com/ggml-org/ll… CUDA 13.1 DLLs github.com/ggml-org/ll…
Windows x64 (Vulkan) github.com/ggml-org/ll…
Windows x64 (SYCL) github.com/ggml-org/ll…
Windows x64 (HIP / Radeon) github.com/ggml-org/ll…
下载太慢可以使用代理( 如: gh-proxy.com/ [github releases])
gh-proxy.com/…
建议选择规则
cudart 压缩包。d. 结果验证
cd D:llmllama
.llama-cli.exe --version
能输出版本号即通过第一步。
a. 检索入口
b. 检索关键词建议
Qwen2.5 GGUFLlama 3.1 GGUF.gguf,再选量化规格(如 Q4_K_M、Q5_K_M)。c. 下载步骤(PowerShell / 直接hf官网下载gguf 模型)
# 1) 安装命令行工具
pip install -U huggingface_hub
# 2) 官方源下载(示例)
huggingface-cli download unsloth/Qwen3.5-9B-GGUF Qwen3.5-9B-Q4_K_M.gguf --local-dir D:llmmodels
# 3) 国内网络可切镜像
$env:HF_ENDPOINT="https://hf-mirror.com"
huggingface-cli download unsloth/Qwen3.5-9B-GGUF Qwen3.5-9B-Q4_K_M.gguf --local-dir D:llmmodels
# 4) 直接下载
d. 结果验证
Get-Item D:llmmodelsQwen3.5-9B-Q4_K_M.gguf | Select-Object Name,Length
Get-FileHash D:llmmodelsQwen3.5-9B-Q4_K_M.gguf -Algorithm SHA256
mkdir D:llmllama -Force | Out-Null
mkdir D:llmmodels -Force | Out-Null
# 1) 解压 llama 主包到 D:llmllama
# 2) CUDA 场景把 cudart zip 内容解压到同目录
# 3) 确保 llama-server.exe 与 cudart*.dll 同目录,或 DLL 目录已入 PATH
cd D:llmllama
.llama-cli.exe --version
Get-ChildItem .cudart*.dll
验证标准
--version 正常输出cd D:llmllama
.llama-cli.exe `
-m D:llmmodelsQwen3.5-9B-Q4_K_M.gguf `
-ngl 35 `
-c 4096 `
-n 128 `
-p "用三点说明本地部署大模型的关键检查项"
关键参数
-m 模型路径(GGUF)-ngl GPU 卸载层数(0=CPU)-c 上下文长度-n 最大生成 token-p 提示词验证
llama-server.execd D:llmllama
.llama-server.exe `
-m D:llmmodelsQwen3.5-9B-Q4_K_M.gguf `
--host 0.0.0.0 `
--port 8080 `
-ngl 35 `
-c 8192 `
-b 1024 `
-t 8
浏览器访问:
接口验证:
curl.exe `
-H "Content-Type: application/json" `
-d "{`"model`":`"local-gguf`",`"messages`":[{`"role`":`"user`",`"content`":`"解释一下ngl参数作用`"}],`"temperature`":0.2}"
验证标准
choicesllama-bench.exe 建基线cd D:llmllama
.llama-bench.exe `
-m D:llmmodelsQwen3.5-9B-Q4_K_M.gguf `
-ngl 35 `
-c 4096 `
-t 8
建议至少三组:
-ngl 0-ngl 20-ngl 35记录表头统一为:
ngl | c | t | b | tok/s | 首token(ms) | 显存(GB) | 稳定性
cudart64_xxx.dll was not found
cudart 压缩包,解压到 llama-server.exe 同目录。is not a valid Win32 application
failed to load model
.gguf、路径无特殊字符、文件未损坏。Hugging Face 下载慢或失败
HF_ENDPOINT= 后重试。模型仓库受限(403)
huggingface-cli login。cudart DLL 已就位huggingface.co 或 hf-mirror.com 成功下载llama-cli 最小推理已通过llama-server API 可稳定返回llama-bench 三组对比已完成先用 CPU 包把链路跑通,再切 CUDA 包做同模型对比。 模型下载后先记哈希,再进参数调优。 这样你拿到的不只是“跑起来”,而是一套可复现、可回溯、可协作的本地推理基线。
回应产业呼唤,具身智能机器人加速落地垂直场景——2026具身智能机器人工业场景应用研讨会在沪成功举办
漫蛙在线网页打不开最新可用入口在此-漫蛙在线安装包下载官方入口真实有效
2026-03-31
2026-03-31