标签 AI 下的文章 - TomHouse

登录

标签搜索

TomHanck4

累计撰写 35 篇文章
累计收到 6 条评论

搜索到 2 篇与的结果

2026-02-23
Cherry Studio 在 WSL 中的安装说明 Cherry Studio 在 WSL 中的安装说明环境WSL2（Ubuntu Noble / 24.04）使用 WSLg 显示图形界面（Windows 11）1. 安装 deb 包cd "/mnt/c/users/12828/desktop/新建文件夹" sudo dpkg -i Cherry-Studio-1.7.19-amd64.deb若出现依赖错误，执行：sudo apt-get update sudo apt-get install -f仍有缺失依赖时可手动安装：sudo apt-get install libnotify4 libnss3 libxss1 xdg-utils libsecret-1-0然后再次执行：sudo dpkg -i Cherry-Studio-1.7.19-amd64.deb2. 声音库（解决 libasound.so.2）Ubuntu 24 中包名为 libasound2t64：sudo apt-get install libasound2t643. 启动方式可执行文件位于 /opt/Cherry Studio/，未加入 PATH，需用完整路径：/opt/Cherry\ Studio/CherryStudio可选：创建软链接，之后可直接用 cherrystudio 命令：sudo ln -sf "/opt/Cherry Studio/CherryStudio" /usr/local/bin/cherrystudio然后：cherrystudio4. 中文显示修复（方框 □□□□）安装中文字体：sudo apt-get install fonts-noto-cjk可选备用：sudo apt-get install fonts-wqy-zenhei安装后关闭并重新打开 Cherry Studio。5. Emoji 显示修复安装 emoji 字体并刷新字体缓存：sudo apt-get install fonts-noto-color-emoji fc-cache -fv可选：sudo apt-get install fonts-emojione fc-cache -fv安装后关闭并重新打开 Cherry Studio。6. 一键安装依赖（可选）若在新 WSL 或新系统上重装，可先执行以下命令再装 deb：sudo apt-get update sudo apt-get install -f libasound2t64 fonts-noto-cjk fonts-noto-color-emoji fc-cache -fv然后再执行本文第 1 步的 dpkg -i。7. 注意事项WSLg：需 Windows 11，WSL 2，图形会直接显示在 Windows 桌面。Windows 10：需在 Windows 安装 X 服务器（如 VcXsrv），并在 WSL 中设置 export DISPLAY=... 后再运行 Cherry Studio。每次修改字体或安装新字体后，建议重启 Cherry Studio 以生效。
- 2026年02月23日
- 0 阅读
- 0 评论
- 0 点赞
2026-02-22
基于 Windows 11 + AMD 8060S（统一内存 128GB）环境的llama.cpp 使用指南 llama.cpp 使用指南基于 Windows 11 + AMD 8060S（统一内存 128GB）环境整理。文件下载llama.cpp 程序（含 llama-cli、llama-server）官方 Releases 页面（推荐从这里选对应平台压缩包）： https://github.com/ggml-org/llama.cpp/releasesWindows 常用构建（在当页的 Assets 里找）：Vulkan（AMD 显卡推荐）：llama-*-bin-win-vulkan-x64.zip仅 CPU：llama-*-bin-win-cpu-x64.zipCUDA（NVIDIA）：llama-*-bin-win-cuda-*.zip 不要用 rocm / hip 的 Windows 包，在 Win 上易报错。官网说明： https://llama-cpp.com/GGUF 模型Hugging Face（搜索模型名 + GGUF）： https://huggingface.co/models?search=ggufQwen 官方（如 Qwen3-Coder-Next）： https://huggingface.co/Qwen 在模型页的 "Files and versions" 中选 .gguf 文件或分片包下载。ModelScope 魔搭（国内访问较稳，可搜 GGUF）： https://www.modelscope.cn 模型库中搜索模型名或「GGUF」，在模型页下载 .gguf 或分片。Youtu-VL-4B-Instruct-GGUF（腾讯优图 4B 视觉语言模型）： https://www.modelscope.cn/models/Tencent-YouTu-Research/Youtu-VL-4B-Instruct-GGUF/summary 在模型页「Files」中下载主模型 .gguf；若提供 mmproj-*.gguf 等多模态投影文件，需一并下载并与主模型同目录或按说明指定。Unsloth（预量化 GGUF，含 Dynamic 2.0 等）： https://huggingface.co/unsloth 在 Unsloth 组织下按模型名选仓库，在 "Files and versions" 中下载 GGUF；说明见 https://docs.unsloth.ai。解压 llama.cpp 的 zip 后，将 llama-cli.exe、llama-server.exe 等与模型路径配置好即可使用（见下文）。1. 基本运行1.1 命令行（llama-cli）# 指定模型路径（分片模型只需指定第一个文件，会自动加载其余分片） ./llama-cli.exe -m "E:\models\Qwen3-Coder-Next\Qwen3-Coder-Next\Qwen3-Coder-Next-REAM-MXFP4_MOE.gguf"1.2 强制 CPU（GPU 报错时）./llama-cli.exe -m "你的模型路径.gguf" -ngl 0-ngl 0 表示不加载任何层到 GPU，全部用 CPU。2. Windows 下 GPU 后端说明后端说明ROCm/HIP主要为 Linux 设计，在 Windows 上对新卡（如 gfx1151）支持差，易出现 ROCm error: unspecified launch failure。VulkanAMD 在 Windows 上推荐，需使用带 Vulkan 的 llama.cpp 发行版。CPU-ngl 0，最稳定。若下载的是「Vulkan 版」但日志里仍出现 ROCm/ggml-hip，说明同目录下存在 HIP 相关 DLL 被优先加载。可临时重命名禁用：Rename-Item ggml-hip.dll ggml-hip.dll.bak Rename-Item hipblas.dll hipblas.dll.bak Rename-Item libhipblaslt.dll libhipblaslt.dll.bak然后重新运行，程序会使用 Vulkan。注意：若本身是 ROCm 专用构建（如路径含 llamacpp-rocm），需从官方 releases 重新下载 Vulkan 或 MSVC 版本，而不是仅改 DLL。3. llama-server 部署3.1 基础启动./llama-server.exe -m "模型路径.gguf" --port 8080 --host 0.0.0.0启动后访问：http://localhost:8080。3.2 常用参数速查参数含义示例-m模型路径必填-c / --ctx-size上下文长度（token 数）-c 2048 或 --ctx-size 32768-ngl放到 GPU 的层数，0=全 CPU-ngl 99 全 GPU，-ngl 0 全 CPU--portHTTP 端口--port 8080--host监听地址，0.0.0.0 允许外网访问--host 0.0.0.0--threadsCPU 线程数--threads 8--batch-size批大小，影响显存/内存512、256、128--ubatch-size微批大小256、128、64--cache-type-kK cache 数据类型，用于省显存f16、q8_0、q4_1--cache-type-vV cache 数据类型同上--flash-attn使用 Flash Attention（若已编译）可省显存--alias模型别名（便于识别）--alias "Qwen3-Coder-Next"4. 显存/内存优化模型体积远小于「显存占用」是正常现象：除了权重，还有 KV cache 和推理时的中间结果。4.1 显存不足（例如 8GB 独显）减小上下文：-c 512 或 -c 1024减少 GPU 层数：-ngl 10 或 -ngl 0（纯 CPU）减小批处理：--batch-size 128 --ubatch-size 64示例（低显存）：./llama-server.exe -m "模型路径.gguf" -c 512 -ngl 10 --port 8080 --threads 6 --batch-size 128 --ubatch-size 644.2 统一内存（如 8060S + 128GB 系统内存）可用较大上下文并尽量用 GPU，同时控制 KV cache 类型以控制总内存占用：使用 f16 KV cache（相对 f32 约减半）：--cache-type-k f16 --cache-type-v f16更激进：--cache-type-k q8_0 --cache-type-v q8_0 或 q4_1按需限制上下文：-c 4096 或 -c 2048示例（统一内存 + 控制占用）：./llama-server.exe -m "模型路径.gguf" -c 4096 -ngl 99 --port 8080 --threads 8 --batch-size 512 --ubatch-size 256 --cache-type-k f16 --cache-type-v f16若仍占用过高，可把上下文改为 -c 2048，并把 cache 改为 q4_1：./llama-server.exe -m "模型路径.gguf" -c 2048 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k q4_1 --cache-type-v q4_15. Qwen3-Coder-Next 推荐参数（官方风格）可与上面任意 server 命令组合使用：参数推荐值说明--temp1.0采样温度--top-p0.95nucleus sampling--top-k40top-k 采样--min-p0.01注意：llama.cpp 默认常为 0.05，Qwen 推荐 0.01--repeat-penalty1.0禁用重复惩罚示例（Qwen 推荐 + 内存优化）：./llama-server.exe -m "E:\models\Qwen3-Coder-Next\Qwen3-Coder-Next\Qwen3-Coder-Next-REAM-MXFP4_MOE.gguf" --alias "Qwen3-Coder-Next" --ctx-size 32768 --temp 1.0 --top-p 0.95 --top-k 40 --min-p 0.01 --repeat-penalty 1.0 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k q4_1若仍觉内存/显存占用高，可把 --ctx-size 改为 16384 或 8192。6. 故障排查简表现象处理方向ROCm 报错、hipMemGetInfo 失败使用 -ngl 0 或换 Vulkan 版本；在 Windows 避免用 ROCm 专用构建。想用 Vulkan 却仍加载 HIP检查同目录 ggml-hip.dll 等，临时重命名或使用纯 Vulkan 发行版。显存/内存占用远大于模型大小降低 -c、减小 --batch-size/--ubatch-size，使用 --cache-type-k/--cache-type-v（如 q4_1、q8_0、f16）。大模型在小显存卡上跑不动减小 -ngl（或 -ngl 0），或换更小量化/更小参数量模型。7. 参考命令汇总纯 CPU、省内存：./llama-server.exe -m "模型路径.gguf" -c 1024 -ngl 0 --port 8080 --threads 8 --batch-size 256Vulkan GPU + 控制占用（统一内存）：./llama-server.exe -m "模型路径.gguf" -c 4096 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k q4_1 --cache-type-v q4_1Qwen3-Coder-Next 推荐 + 32K 上下文：./llama-server.exe -m "E:\models\Qwen3-Coder-Next\Qwen3-Coder-Next\Qwen3-Coder-Next-REAM-MXFP4_MOE.gguf" --alias "Qwen3-Coder-Next" --ctx-size 32768 --temp 1.0 --top-p 0.95 --top-k 40 --min-p 0.01 --repeat-penalty 1.0 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k q4_1 --host 0.0.0.0按实际显存/内存和需求，调整 -c、-ngl、--batch-size 和 --cache-type-* 即可。8. Qwen3-Next-80B-A3B-Thinking（Thinking 推理模型）模型说明见 unsloth/Qwen3-Next-80B-A3B-Thinking。仅思维模式，需较长输出空间做推理；官方推荐采样：Temperature=0.6, TopP=0.95, TopK=20, MinP=0；常规请求建议 max 输出 32K token，复杂推理可设更大。推荐启动命令（统一内存 / 大内存）：./llama-server.exe -m "E:\models\Qwen3-Next-80B-A3B\MXFP4_MOE\Qwen3-Next-80B-A3B-Thinking-MXFP4_MOE-00001-of-00003.gguf" --alias "Qwen3-Next-80B-A3B-Thinking" --ctx-size 32768 -n 32768 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0 -ngl 99 --port 8080 --threads 8 --batch-size 512 --ubatch-size 256 --cache-type-k f16 --cache-type-v f16 --host 0.0.0.0参数取值说明-m分片第一文件路径自动加载 00002、00003--alias服务里显示的模型名客户端选模型时用--ctx-size32768上下文长度，可改为 65536/131072（更吃内存）-n32768单次最大生成 token，thinking 需足够长--temp0.6官方推荐--top-p0.95官方推荐--top-k20官方推荐--min-p0官方推荐-ngl99GPU 层数，显存不够可减小或 -ngl 0 纯 CPU--cache-type-k/vf16省内存，可改为 q4_1 进一步省省内存版（减小上下文与批大小）：./llama-server.exe -m "E:\models\Qwen3-Next-80B-A3B\MXFP4_MOE\Qwen3-Next-80B-A3B-Thinking-MXFP4_MOE-00001-of-00003.gguf" --alias "Qwen3-Next-80B-A3B-Thinking" --ctx-size 16384 -n 16384 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0 -ngl 99 --port 8080 --threads 8 --batch-size 256 --ubatch-size 128 --cache-type-k q4_1 --cache-type-v q4_19. Youtu-VL-4B-Instruct-GGUF（腾讯优图视觉语言模型）模型页： https://www.modelscope.cn/models/Tencent-YouTu-Research/Youtu-VL-4B-Instruct-GGUF/summary说明：腾讯优图 4B 视觉语言模型（VLM），支持图像 + 文本输入，需带多模态支持的 llama.cpp。本地路径示例：E:\models\Youtu-VL-4B-Instruct\F16\Youtu-VL-4B-Instruct-F16.gguf 若该模型需 mmproj（多模态投影），将 mmproj-*.gguf 与主模型放同目录，启动时加 --mmproj "同目录\mmproj-xxx.gguf"。推荐启动命令（本地 F16 模型，含 mmproj）：./llama-server.exe -m "E:\models\Youtu-VL-4B-Instruct\F16\Youtu-VL-4B-Instruct-F16.gguf" --mmproj "E:\models\Youtu-VL-4B-Instruct\F16\mmproj-Youtu-VL-4b-Instruct-BF16.gguf" --port 8080 --image-max-tokens 2048 --temp 0.1 --top-p 0.001 --repeat-penalty 1.05 -n 12280 --host 0.0.0.0参数取值说明-m主模型 .gguf 路径必填--mmprojmmproj-*.gguf 路径多模态视觉编码投影，与主模型同目录时按实际文件名填写--port8080HTTP 端口--image-max-tokens2048图像编码最大 token 数--temp0.1低温度，输出更稳定--top-p0.001nucleus 采样--repeat-penalty1.05抑制重复-n12280单次最大生成 token 数--host0.0.0.0允许外网访问按需可加：-ngl 99（GPU 层数）、--alias "Youtu-VL-4B"、-c 4096（上下文长度）。若显存/内存紧张，可减小 -n、-c 或 --image-max-tokens。10. GLM-4.7-Flash（MXFP4_MOE / Claude Opus 4.5 推理蒸馏版）模型页： https://huggingface.co/TeichAI/GLM-4.7-Flash-Claude-Opus-4.5-High-Reasoning-Distill本地路径示例：E:\models\GLM-4.7-Flash\MXFP4_MOE\GLM-4.7-Flash-Claude-4.5-Opus-i1-MXFP4_MOE_XL-exp.gguf说明：智谱 GLM-4.7-Flash 经 Claude Opus 4.5 High Reasoning 蒸馏的 MXFP4 MOE 量化版（Coding / Science / Deep Research）。单文件 GGUF；若为分片，-m 只填第一个文件即可。官方建议 llama.cpp 使用 --min-p 0.01（默认 0.05）。推荐启动命令（含官方采样参数）：./llama-server.exe -m "E:\models\GLM-4.7-Flash\MXFP4_MOE\GLM-4.7-Flash-Claude-4.5-Opus-i1-MXFP4_MOE_XL-exp.gguf" --alias "GLM-4.7-Flash" --ctx-size 32768 --temp 1.0 --top-p 0.95 --min-p 0.01 --repeat-penalty 1.0 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k f16 --cache-type-v f16 --host 0.0.0.0参数取值说明-m模型 .gguf 路径必填；分片时填第一个文件--alias服务中显示的模型名客户端选模型用--ctx-size32768上下文长度，可按需改为 16384 等--temp1.0通用任务；工具调用/基准可用 0.7--top-p0.95通用；工具调用可改为 1.0--min-p0.01官方建议（llama.cpp 默认 0.05）--repeat-penalty1.0关闭或 1.0-ngl99GPU 层数，显存不足可减小或 -ngl 0 纯 CPU--port8080HTTP 端口--cache-type-k/vf16省内存，可改为 q4_1 进一步省显存/内存紧张时可将 --ctx-size 改为 16384，--batch-size 改为 256，或加 --cache-type-k q4_1 --cache-type-v q4_1。若效果不佳，可尝试 --temp 0.5 或 0.6。
- 2026年02月22日
- 3 阅读
- 0 评论
- 0 点赞