首页
关于
文章打赏记录
Search
1
项目一:Revit电缆自动布置
50 阅读
2
如何使用 LoRA 微调 DeepSeek R1
11 阅读
3
revit二次开发入门
9 阅读
4
Dynamo 连缀属性
4 阅读
5
第十四章结课考试
4 阅读
linux
AI
Dynamo
Python
C#编程技术基础
C#实战项目
随笔
登录
Search
标签搜索
CSharp
基础知识
Dynamo
数据应用
AI
BIM管理
TomHanck4
累计撰写
35
篇文章
累计收到
6
条评论
首页
栏目
linux
AI
Dynamo
Python
C#编程技术基础
C#实战项目
随笔
页面
关于
文章打赏记录
搜索到
2
篇与
的结果
2026-02-23
Cherry Studio 在 WSL 中的安装说明
Cherry Studio 在 WSL 中的安装说明环境WSL2(Ubuntu Noble / 24.04)使用 WSLg 显示图形界面(Windows 11)1. 安装 deb 包cd "/mnt/c/users/12828/desktop/新建文件夹" sudo dpkg -i Cherry-Studio-1.7.19-amd64.deb若出现依赖错误,执行:sudo apt-get update sudo apt-get install -f仍有缺失依赖时可手动安装:sudo apt-get install libnotify4 libnss3 libxss1 xdg-utils libsecret-1-0然后再次执行:sudo dpkg -i Cherry-Studio-1.7.19-amd64.deb2. 声音库(解决 libasound.so.2)Ubuntu 24 中包名为 libasound2t64:sudo apt-get install libasound2t643. 启动方式可执行文件位于 /opt/Cherry Studio/,未加入 PATH,需用完整路径:/opt/Cherry\ Studio/CherryStudio可选:创建软链接,之后可直接用 cherrystudio 命令:sudo ln -sf "/opt/Cherry Studio/CherryStudio" /usr/local/bin/cherrystudio然后:cherrystudio4. 中文显示修复(方框 □□□□)安装中文字体:sudo apt-get install fonts-noto-cjk可选备用:sudo apt-get install fonts-wqy-zenhei安装后关闭并重新打开 Cherry Studio。5. Emoji 显示修复安装 emoji 字体并刷新字体缓存:sudo apt-get install fonts-noto-color-emoji fc-cache -fv可选:sudo apt-get install fonts-emojione fc-cache -fv安装后关闭并重新打开 Cherry Studio。6. 一键安装依赖(可选)若在新 WSL 或新系统上重装,可先执行以下命令再装 deb:sudo apt-get update sudo apt-get install -f libasound2t64 fonts-noto-cjk fonts-noto-color-emoji fc-cache -fv然后再执行本文第 1 步的 dpkg -i。7. 注意事项WSLg:需 Windows 11,WSL 2,图形会直接显示在 Windows 桌面。Windows 10:需在 Windows 安装 X 服务器(如 VcXsrv),并在 WSL 中设置 export DISPLAY=... 后再运行 Cherry Studio。每次修改字体或安装新字体后,建议重启 Cherry Studio 以生效。
2026年02月23日
0 阅读
0 评论
0 点赞
2026-02-22
基于 Windows 11 + AMD 8060S(统一内存 128GB)环境的llama.cpp 使用指南
llama.cpp 使用指南基于 Windows 11 + AMD 8060S(统一内存 128GB)环境整理。文件下载llama.cpp 程序(含 llama-cli、llama-server)官方 Releases 页面(推荐从这里选对应平台压缩包): https://github.com/ggml-org/llama.cpp/releasesWindows 常用构建(在当页的 Assets 里找):Vulkan(AMD 显卡推荐):llama-*-bin-win-vulkan-x64.zip仅 CPU:llama-*-bin-win-cpu-x64.zipCUDA(NVIDIA):llama-*-bin-win-cuda-*.zip 不要用 rocm / hip 的 Windows 包,在 Win 上易报错。官网说明: https://llama-cpp.com/GGUF 模型Hugging Face(搜索模型名 + GGUF): https://huggingface.co/models?search=ggufQwen 官方(如 Qwen3-Coder-Next): https://huggingface.co/Qwen 在模型页的 "Files and versions" 中选 .gguf 文件或分片包下载。ModelScope 魔搭(国内访问较稳,可搜 GGUF): https://www.modelscope.cn 模型库中搜索模型名或「GGUF」,在模型页下载 .gguf 或分片。Youtu-VL-4B-Instruct-GGUF(腾讯优图 4B 视觉语言模型): https://www.modelscope.cn/models/Tencent-YouTu-Research/Youtu-VL-4B-Instruct-GGUF/summary 在模型页「Files」中下载主模型 .gguf;若提供 mmproj-*.gguf 等多模态投影文件,需一并下载并与主模型同目录或按说明指定。Unsloth(预量化 GGUF,含 Dynamic 2.0 等): https://huggingface.co/unsloth 在 Unsloth 组织下按模型名选仓库,在 "Files and versions" 中下载 GGUF;说明见 https://docs.unsloth.ai。解压 llama.cpp 的 zip 后,将 llama-cli.exe、llama-server.exe 等与模型路径配置好即可使用(见下文)。1. 基本运行1.1 命令行(llama-cli)# 指定模型路径(分片模型只需指定第一个文件,会自动加载其余分片) ./llama-cli.exe -m "E:\models\Qwen3-Coder-Next\Qwen3-Coder-Next\Qwen3-Coder-Next-REAM-MXFP4_MOE.gguf"1.2 强制 CPU(GPU 报错时)./llama-cli.exe -m "你的模型路径.gguf" -ngl 0-ngl 0 表示不加载任何层到 GPU,全部用 CPU。2. Windows 下 GPU 后端说明后端说明ROCm/HIP主要为 Linux 设计,在 Windows 上对新卡(如 gfx1151)支持差,易出现 ROCm error: unspecified launch failure。VulkanAMD 在 Windows 上推荐,需使用带 Vulkan 的 llama.cpp 发行版。CPU-ngl 0,最稳定。若下载的是「Vulkan 版」但日志里仍出现 ROCm/ggml-hip,说明同目录下存在 HIP 相关 DLL 被优先加载。可临时重命名禁用:Rename-Item ggml-hip.dll ggml-hip.dll.bak Rename-Item hipblas.dll hipblas.dll.bak Rename-Item libhipblaslt.dll libhipblaslt.dll.bak然后重新运行,程序会使用 Vulkan。 注意:若本身是 ROCm 专用构建(如路径含 llamacpp-rocm),需从官方 releases 重新下载 Vulkan 或 MSVC 版本,而不是仅改 DLL。3. llama-server 部署3.1 基础启动./llama-server.exe -m "模型路径.gguf" --port 8080 --host 0.0.0.0启动后访问:http://localhost:8080。3.2 常用参数速查参数含义示例-m模型路径必填-c / --ctx-size上下文长度(token 数)-c 2048 或 --ctx-size 32768-ngl放到 GPU 的层数,0=全 CPU-ngl 99 全 GPU,-ngl 0 全 CPU--portHTTP 端口--port 8080--host监听地址,0.0.0.0 允许外网访问--host 0.0.0.0--threadsCPU 线程数--threads 8--batch-size批大小,影响显存/内存512、256、128--ubatch-size微批大小256、128、64--cache-type-kK cache 数据类型,用于省显存f16、q8_0、q4_1--cache-type-vV cache 数据类型同上--flash-attn使用 Flash Attention(若已编译)可省显存--alias模型别名(便于识别)--alias "Qwen3-Coder-Next"4. 显存/内存优化模型体积远小于「显存占用」是正常现象:除了权重,还有 KV cache 和推理时的中间结果。4.1 显存不足(例如 8GB 独显)减小上下文:-c 512 或 -c 1024减少 GPU 层数:-ngl 10 或 -ngl 0(纯 CPU)减小批处理:--batch-size 128 --ubatch-size 64示例(低显存):./llama-server.exe -m "模型路径.gguf" -c 512 -ngl 10 --port 8080 --threads 6 --batch-size 128 --ubatch-size 644.2 统一内存(如 8060S + 128GB 系统内存)可用较大上下文并尽量用 GPU,同时控制 KV cache 类型以控制总内存占用:使用 f16 KV cache(相对 f32 约减半):--cache-type-k f16 --cache-type-v f16更激进:--cache-type-k q8_0 --cache-type-v q8_0 或 q4_1按需限制上下文:-c 4096 或 -c 2048示例(统一内存 + 控制占用):./llama-server.exe -m "模型路径.gguf" -c 4096 -ngl 99 --port 8080 --threads 8 --batch-size 512 --ubatch-size 256 --cache-type-k f16 --cache-type-v f16若仍占用过高,可把上下文改为 -c 2048,并把 cache 改为 q4_1:./llama-server.exe -m "模型路径.gguf" -c 2048 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k q4_1 --cache-type-v q4_15. Qwen3-Coder-Next 推荐参数(官方风格)可与上面任意 server 命令组合使用:参数推荐值说明--temp1.0采样温度--top-p0.95nucleus sampling--top-k40top-k 采样--min-p0.01注意:llama.cpp 默认常为 0.05,Qwen 推荐 0.01--repeat-penalty1.0禁用重复惩罚示例(Qwen 推荐 + 内存优化):./llama-server.exe -m "E:\models\Qwen3-Coder-Next\Qwen3-Coder-Next\Qwen3-Coder-Next-REAM-MXFP4_MOE.gguf" --alias "Qwen3-Coder-Next" --ctx-size 32768 --temp 1.0 --top-p 0.95 --top-k 40 --min-p 0.01 --repeat-penalty 1.0 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k q4_1若仍觉内存/显存占用高,可把 --ctx-size 改为 16384 或 8192。6. 故障排查简表现象处理方向ROCm 报错、hipMemGetInfo 失败使用 -ngl 0 或换 Vulkan 版本;在 Windows 避免用 ROCm 专用构建。想用 Vulkan 却仍加载 HIP检查同目录 ggml-hip.dll 等,临时重命名或使用纯 Vulkan 发行版。显存/内存占用远大于模型大小降低 -c、减小 --batch-size/--ubatch-size,使用 --cache-type-k/--cache-type-v(如 q4_1、q8_0、f16)。大模型在小显存卡上跑不动减小 -ngl(或 -ngl 0),或换更小量化/更小参数量模型。7. 参考命令汇总纯 CPU、省内存:./llama-server.exe -m "模型路径.gguf" -c 1024 -ngl 0 --port 8080 --threads 8 --batch-size 256Vulkan GPU + 控制占用(统一内存):./llama-server.exe -m "模型路径.gguf" -c 4096 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k q4_1 --cache-type-v q4_1Qwen3-Coder-Next 推荐 + 32K 上下文:./llama-server.exe -m "E:\models\Qwen3-Coder-Next\Qwen3-Coder-Next\Qwen3-Coder-Next-REAM-MXFP4_MOE.gguf" --alias "Qwen3-Coder-Next" --ctx-size 32768 --temp 1.0 --top-p 0.95 --top-k 40 --min-p 0.01 --repeat-penalty 1.0 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k q4_1 --host 0.0.0.0按实际显存/内存和需求,调整 -c、-ngl、--batch-size 和 --cache-type-* 即可。8. Qwen3-Next-80B-A3B-Thinking(Thinking 推理模型)模型说明见 unsloth/Qwen3-Next-80B-A3B-Thinking。仅思维模式,需较长输出空间做推理;官方推荐采样:Temperature=0.6, TopP=0.95, TopK=20, MinP=0;常规请求建议 max 输出 32K token,复杂推理可设更大。推荐启动命令(统一内存 / 大内存):./llama-server.exe -m "E:\models\Qwen3-Next-80B-A3B\MXFP4_MOE\Qwen3-Next-80B-A3B-Thinking-MXFP4_MOE-00001-of-00003.gguf" --alias "Qwen3-Next-80B-A3B-Thinking" --ctx-size 32768 -n 32768 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0 -ngl 99 --port 8080 --threads 8 --batch-size 512 --ubatch-size 256 --cache-type-k f16 --cache-type-v f16 --host 0.0.0.0参数取值说明-m分片第一文件路径自动加载 00002、00003--alias服务里显示的模型名客户端选模型时用--ctx-size32768上下文长度,可改为 65536/131072(更吃内存)-n32768单次最大生成 token,thinking 需足够长--temp0.6官方推荐--top-p0.95官方推荐--top-k20官方推荐--min-p0官方推荐-ngl99GPU 层数,显存不够可减小或 -ngl 0 纯 CPU--cache-type-k/vf16省内存,可改为 q4_1 进一步省省内存版(减小上下文与批大小):./llama-server.exe -m "E:\models\Qwen3-Next-80B-A3B\MXFP4_MOE\Qwen3-Next-80B-A3B-Thinking-MXFP4_MOE-00001-of-00003.gguf" --alias "Qwen3-Next-80B-A3B-Thinking" --ctx-size 16384 -n 16384 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0 -ngl 99 --port 8080 --threads 8 --batch-size 256 --ubatch-size 128 --cache-type-k q4_1 --cache-type-v q4_19. Youtu-VL-4B-Instruct-GGUF(腾讯优图视觉语言模型)模型页: https://www.modelscope.cn/models/Tencent-YouTu-Research/Youtu-VL-4B-Instruct-GGUF/summary说明:腾讯优图 4B 视觉语言模型(VLM),支持图像 + 文本输入,需 带多模态支持的 llama.cpp。本地路径示例:E:\models\Youtu-VL-4B-Instruct\F16\Youtu-VL-4B-Instruct-F16.gguf 若该模型需 mmproj(多模态投影),将 mmproj-*.gguf 与主模型放同目录,启动时加 --mmproj "同目录\mmproj-xxx.gguf"。推荐启动命令(本地 F16 模型,含 mmproj):./llama-server.exe -m "E:\models\Youtu-VL-4B-Instruct\F16\Youtu-VL-4B-Instruct-F16.gguf" --mmproj "E:\models\Youtu-VL-4B-Instruct\F16\mmproj-Youtu-VL-4b-Instruct-BF16.gguf" --port 8080 --image-max-tokens 2048 --temp 0.1 --top-p 0.001 --repeat-penalty 1.05 -n 12280 --host 0.0.0.0参数取值说明-m主模型 .gguf 路径必填--mmprojmmproj-*.gguf 路径多模态视觉编码投影,与主模型同目录时按实际文件名填写--port8080HTTP 端口--image-max-tokens2048图像编码最大 token 数--temp0.1低温度,输出更稳定--top-p0.001nucleus 采样--repeat-penalty1.05抑制重复-n12280单次最大生成 token 数--host0.0.0.0允许外网访问按需可加:-ngl 99(GPU 层数)、--alias "Youtu-VL-4B"、-c 4096(上下文长度)。若显存/内存紧张,可减小 -n、-c 或 --image-max-tokens。10. GLM-4.7-Flash(MXFP4_MOE / Claude Opus 4.5 推理蒸馏版)模型页: https://huggingface.co/TeichAI/GLM-4.7-Flash-Claude-Opus-4.5-High-Reasoning-Distill本地路径示例:E:\models\GLM-4.7-Flash\MXFP4_MOE\GLM-4.7-Flash-Claude-4.5-Opus-i1-MXFP4_MOE_XL-exp.gguf说明:智谱 GLM-4.7-Flash 经 Claude Opus 4.5 High Reasoning 蒸馏的 MXFP4 MOE 量化版(Coding / Science / Deep Research)。单文件 GGUF;若为分片,-m 只填第一个文件即可。官方建议 llama.cpp 使用 --min-p 0.01(默认 0.05)。推荐启动命令(含官方采样参数):./llama-server.exe -m "E:\models\GLM-4.7-Flash\MXFP4_MOE\GLM-4.7-Flash-Claude-4.5-Opus-i1-MXFP4_MOE_XL-exp.gguf" --alias "GLM-4.7-Flash" --ctx-size 32768 --temp 1.0 --top-p 0.95 --min-p 0.01 --repeat-penalty 1.0 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k f16 --cache-type-v f16 --host 0.0.0.0参数取值说明-m模型 .gguf 路径必填;分片时填第一个文件--alias服务中显示的模型名客户端选模型用--ctx-size32768上下文长度,可按需改为 16384 等--temp1.0通用任务;工具调用/基准可用 0.7--top-p0.95通用;工具调用可改为 1.0--min-p0.01官方建议(llama.cpp 默认 0.05)--repeat-penalty1.0关闭或 1.0-ngl99GPU 层数,显存不足可减小或 -ngl 0 纯 CPU--port8080HTTP 端口--cache-type-k/vf16省内存,可改为 q4_1 进一步省显存/内存紧张时可将 --ctx-size 改为 16384,--batch-size 改为 256,或加 --cache-type-k q4_1 --cache-type-v q4_1。若效果不佳,可尝试 --temp 0.5 或 0.6。
2026年02月22日
3 阅读
0 评论
0 点赞