基于 Windows 11 + AMD 8060S(统一内存 128GB)环境的llama.cpp 使用指南
AI

基于 Windows 11 + AMD 8060S(统一内存 128GB)环境的llama.cpp 使用指南

TomHanck4
2026-02-22 / 0 评论 / 3 阅读 / 正在检测是否收录...

llama.cpp 使用指南

基于 Windows 11 + AMD 8060S(统一内存 128GB)环境整理。


文件下载

llama.cpp 程序(含 llama-cli、llama-server)

  • 官方 Releases 页面(推荐从这里选对应平台压缩包):
    https://github.com/ggml-org/llama.cpp/releases
  • Windows 常用构建(在当页的 Assets 里找):

    • Vulkan(AMD 显卡推荐)llama-*-bin-win-vulkan-x64.zip
    • 仅 CPUllama-*-bin-win-cpu-x64.zip
    • CUDA(NVIDIA)llama-*-bin-win-cuda-*.zip
      不要用 rocm / hip 的 Windows 包,在 Win 上易报错。
  • 官网说明
    https://llama-cpp.com/

GGUF 模型

解压 llama.cpp 的 zip 后,将 llama-cli.exellama-server.exe 等与模型路径配置好即可使用(见下文)。


1. 基本运行

1.1 命令行(llama-cli)

# 指定模型路径(分片模型只需指定第一个文件,会自动加载其余分片)
./llama-cli.exe -m "E:\models\Qwen3-Coder-Next\Qwen3-Coder-Next\Qwen3-Coder-Next-REAM-MXFP4_MOE.gguf"

1.2 强制 CPU(GPU 报错时)

./llama-cli.exe -m "你的模型路径.gguf" -ngl 0

-ngl 0 表示不加载任何层到 GPU,全部用 CPU。


2. Windows 下 GPU 后端说明

后端说明
ROCm/HIP主要为 Linux 设计,在 Windows 上对新卡(如 gfx1151)支持差,易出现 ROCm error: unspecified launch failure
VulkanAMD 在 Windows 上推荐,需使用带 Vulkan 的 llama.cpp 发行版。
CPU-ngl 0,最稳定。

若下载的是「Vulkan 版」但日志里仍出现 ROCm/ggml-hip,说明同目录下存在 HIP 相关 DLL 被优先加载。可临时重命名禁用:

Rename-Item ggml-hip.dll ggml-hip.dll.bak
Rename-Item hipblas.dll hipblas.dll.bak
Rename-Item libhipblaslt.dll libhipblaslt.dll.bak

然后重新运行,程序会使用 Vulkan。
注意:若本身是 ROCm 专用构建(如路径含 llamacpp-rocm),需从官方 releases 重新下载 Vulkan 或 MSVC 版本,而不是仅改 DLL。


3. llama-server 部署

3.1 基础启动

./llama-server.exe -m "模型路径.gguf" --port 8080 --host 0.0.0.0

启动后访问:http://localhost:8080

3.2 常用参数速查

参数含义示例
-m模型路径必填
-c / --ctx-size上下文长度(token 数)-c 2048--ctx-size 32768
-ngl放到 GPU 的层数,0=全 CPU-ngl 99 全 GPU,-ngl 0 全 CPU
--portHTTP 端口--port 8080
--host监听地址,0.0.0.0 允许外网访问--host 0.0.0.0
--threadsCPU 线程数--threads 8
--batch-size批大小,影响显存/内存512256128
--ubatch-size微批大小25612864
--cache-type-kK cache 数据类型,用于省显存f16q8_0q4_1
--cache-type-vV cache 数据类型同上
--flash-attn使用 Flash Attention(若已编译)可省显存
--alias模型别名(便于识别)--alias "Qwen3-Coder-Next"

4. 显存/内存优化

模型体积远小于「显存占用」是正常现象:除了权重,还有 KV cache 和推理时的中间结果。

4.1 显存不足(例如 8GB 独显)

  • 减小上下文:-c 512-c 1024
  • 减少 GPU 层数:-ngl 10-ngl 0(纯 CPU)
  • 减小批处理:--batch-size 128 --ubatch-size 64

示例(低显存):

./llama-server.exe -m "模型路径.gguf" -c 512 -ngl 10 --port 8080 --threads 6 --batch-size 128 --ubatch-size 64

4.2 统一内存(如 8060S + 128GB 系统内存)

可用较大上下文并尽量用 GPU,同时控制 KV cache 类型以控制总内存占用:

  • 使用 f16 KV cache(相对 f32 约减半):
    --cache-type-k f16 --cache-type-v f16
  • 更激进:--cache-type-k q8_0 --cache-type-v q8_0q4_1
  • 按需限制上下文:-c 4096-c 2048

示例(统一内存 + 控制占用):

./llama-server.exe -m "模型路径.gguf" -c 4096 -ngl 99 --port 8080 --threads 8 --batch-size 512 --ubatch-size 256 --cache-type-k f16 --cache-type-v f16

若仍占用过高,可把上下文改为 -c 2048,并把 cache 改为 q4_1

./llama-server.exe -m "模型路径.gguf" -c 2048 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k q4_1 --cache-type-v q4_1

5. Qwen3-Coder-Next 推荐参数(官方风格)

可与上面任意 server 命令组合使用:

参数推荐值说明
--temp1.0采样温度
--top-p0.95nucleus sampling
--top-k40top-k 采样
--min-p0.01注意:llama.cpp 默认常为 0.05,Qwen 推荐 0.01
--repeat-penalty1.0禁用重复惩罚

示例(Qwen 推荐 + 内存优化):

./llama-server.exe -m "E:\models\Qwen3-Coder-Next\Qwen3-Coder-Next\Qwen3-Coder-Next-REAM-MXFP4_MOE.gguf" --alias "Qwen3-Coder-Next" --ctx-size 32768 --temp 1.0 --top-p 0.95 --top-k 40 --min-p 0.01 --repeat-penalty 1.0 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k q4_1

若仍觉内存/显存占用高,可把 --ctx-size 改为 163848192


6. 故障排查简表

现象处理方向
ROCm 报错、hipMemGetInfo 失败使用 -ngl 0 或换 Vulkan 版本;在 Windows 避免用 ROCm 专用构建。
想用 Vulkan 却仍加载 HIP检查同目录 ggml-hip.dll 等,临时重命名或使用纯 Vulkan 发行版。
显存/内存占用远大于模型大小降低 -c、减小 --batch-size/--ubatch-size,使用 --cache-type-k/--cache-type-v(如 q4_1、q8_0、f16)。
大模型在小显存卡上跑不动减小 -ngl(或 -ngl 0),或换更小量化/更小参数量模型。

7. 参考命令汇总

纯 CPU、省内存:

./llama-server.exe -m "模型路径.gguf" -c 1024 -ngl 0 --port 8080 --threads 8 --batch-size 256

Vulkan GPU + 控制占用(统一内存):

./llama-server.exe -m "模型路径.gguf" -c 4096 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k q4_1 --cache-type-v q4_1

Qwen3-Coder-Next 推荐 + 32K 上下文:

./llama-server.exe -m "E:\models\Qwen3-Coder-Next\Qwen3-Coder-Next\Qwen3-Coder-Next-REAM-MXFP4_MOE.gguf" --alias "Qwen3-Coder-Next" --ctx-size 32768 --temp 1.0 --top-p 0.95 --top-k 40 --min-p 0.01 --repeat-penalty 1.0 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k q4_1 --host 0.0.0.0

按实际显存/内存和需求,调整 -c-ngl--batch-size--cache-type-* 即可。


8. Qwen3-Next-80B-A3B-Thinking(Thinking 推理模型)

模型说明见 unsloth/Qwen3-Next-80B-A3B-Thinking。仅思维模式,需较长输出空间做推理;官方推荐采样:Temperature=0.6, TopP=0.95, TopK=20, MinP=0;常规请求建议 max 输出 32K token,复杂推理可设更大。

推荐启动命令(统一内存 / 大内存):

./llama-server.exe -m "E:\models\Qwen3-Next-80B-A3B\MXFP4_MOE\Qwen3-Next-80B-A3B-Thinking-MXFP4_MOE-00001-of-00003.gguf" --alias "Qwen3-Next-80B-A3B-Thinking" --ctx-size 32768 -n 32768 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0 -ngl 99 --port 8080 --threads 8 --batch-size 512 --ubatch-size 256 --cache-type-k f16 --cache-type-v f16 --host 0.0.0.0
参数取值说明
-m分片第一文件路径自动加载 00002、00003
--alias服务里显示的模型名客户端选模型时用
--ctx-size32768上下文长度,可改为 65536/131072(更吃内存)
-n32768单次最大生成 token,thinking 需足够长
--temp0.6官方推荐
--top-p0.95官方推荐
--top-k20官方推荐
--min-p0官方推荐
-ngl99GPU 层数,显存不够可减小或 -ngl 0 纯 CPU
--cache-type-k/vf16省内存,可改为 q4_1 进一步省

省内存版(减小上下文与批大小):

./llama-server.exe -m "E:\models\Qwen3-Next-80B-A3B\MXFP4_MOE\Qwen3-Next-80B-A3B-Thinking-MXFP4_MOE-00001-of-00003.gguf" --alias "Qwen3-Next-80B-A3B-Thinking" --ctx-size 16384 -n 16384 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0 -ngl 99 --port 8080 --threads 8 --batch-size 256 --ubatch-size 128 --cache-type-k q4_1 --cache-type-v q4_1

9. Youtu-VL-4B-Instruct-GGUF(腾讯优图视觉语言模型)

  • 模型页
    https://www.modelscope.cn/models/Tencent-YouTu-Research/Youtu-VL-4B-Instruct-GGUF/summary
  • 说明:腾讯优图 4B 视觉语言模型(VLM),支持图像 + 文本输入,需 带多模态支持的 llama.cpp
  • 本地路径示例E:\models\Youtu-VL-4B-Instruct\F16\Youtu-VL-4B-Instruct-F16.gguf
    若该模型需 mmproj(多模态投影),将 mmproj-*.gguf 与主模型放同目录,启动时加 --mmproj "同目录\mmproj-xxx.gguf"

推荐启动命令(本地 F16 模型,含 mmproj):

./llama-server.exe -m "E:\models\Youtu-VL-4B-Instruct\F16\Youtu-VL-4B-Instruct-F16.gguf" --mmproj "E:\models\Youtu-VL-4B-Instruct\F16\mmproj-Youtu-VL-4b-Instruct-BF16.gguf" --port 8080 --image-max-tokens 2048 --temp 0.1 --top-p 0.001 --repeat-penalty 1.05 -n 12280 --host 0.0.0.0
参数取值说明
-m主模型 .gguf 路径必填
--mmprojmmproj-*.gguf 路径多模态视觉编码投影,与主模型同目录时按实际文件名填写
--port8080HTTP 端口
--image-max-tokens2048图像编码最大 token 数
--temp0.1低温度,输出更稳定
--top-p0.001nucleus 采样
--repeat-penalty1.05抑制重复
-n12280单次最大生成 token 数
--host0.0.0.0允许外网访问

按需可加:-ngl 99(GPU 层数)、--alias "Youtu-VL-4B"-c 4096(上下文长度)。若显存/内存紧张,可减小 -n-c--image-max-tokens


10. GLM-4.7-Flash(MXFP4_MOE / Claude Opus 4.5 推理蒸馏版)

  • 模型页
    https://huggingface.co/TeichAI/GLM-4.7-Flash-Claude-Opus-4.5-High-Reasoning-Distill
  • 本地路径示例E:\models\GLM-4.7-Flash\MXFP4_MOE\GLM-4.7-Flash-Claude-4.5-Opus-i1-MXFP4_MOE_XL-exp.gguf
  • 说明:智谱 GLM-4.7-Flash 经 Claude Opus 4.5 High Reasoning 蒸馏的 MXFP4 MOE 量化版(Coding / Science / Deep Research)。单文件 GGUF;若为分片,-m 只填第一个文件即可。官方建议 llama.cpp 使用 --min-p 0.01(默认 0.05)。

推荐启动命令(含官方采样参数):

./llama-server.exe -m "E:\models\GLM-4.7-Flash\MXFP4_MOE\GLM-4.7-Flash-Claude-4.5-Opus-i1-MXFP4_MOE_XL-exp.gguf" --alias "GLM-4.7-Flash" --ctx-size 32768 --temp 1.0 --top-p 0.95 --min-p 0.01 --repeat-penalty 1.0 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k f16 --cache-type-v f16 --host 0.0.0.0
参数取值说明
-m模型 .gguf 路径必填;分片时填第一个文件
--alias服务中显示的模型名客户端选模型用
--ctx-size32768上下文长度,可按需改为 16384 等
--temp1.0通用任务;工具调用/基准可用 0.7
--top-p0.95通用;工具调用可改为 1.0
--min-p0.01官方建议(llama.cpp 默认 0.05)
--repeat-penalty1.0关闭或 1.0
-ngl99GPU 层数,显存不足可减小或 -ngl 0 纯 CPU
--port8080HTTP 端口
--cache-type-k/vf16省内存,可改为 q4_1 进一步省

显存/内存紧张时可将 --ctx-size 改为 16384--batch-size 改为 256,或加 --cache-type-k q4_1 --cache-type-v q4_1。若效果不佳,可尝试 --temp 0.50.6

0

评论 (0)

取消