首页
关于
文章打赏记录
Search
1
项目一:Revit电缆自动布置
50 阅读
2
如何使用 LoRA 微调 DeepSeek R1
11 阅读
3
revit二次开发入门
9 阅读
4
Dynamo 连缀属性
4 阅读
5
第十四章结课考试
4 阅读
linux
AI
Dynamo
Python
C#编程技术基础
C#实战项目
随笔
登录
Search
标签搜索
CSharp
基础知识
Dynamo
数据应用
AI
BIM管理
TomHanck4
累计撰写
35
篇文章
累计收到
6
条评论
首页
栏目
linux
AI
Dynamo
Python
C#编程技术基础
C#实战项目
随笔
页面
关于
文章打赏记录
搜索到
6
篇与
的结果
2026-02-26
如何在 Linux 中设置 SSH 免密码登录
第一步:在A中生成密钥在A进入~/.ssh文件夹,执行以下命令:ssh-keygen -t rsa一路回车后,在~/.ssh下会生成 id_rsa,和 id_rsa.pub,其中id_rsa是密钥,id_rsa.pub是公钥。第二步:把在 A 机生成的 id_rsa.pub 拷贝到 B 机上。怎么跨主机复制文件呢,下面的命令可以做到:(假设放在 B 的 tmp 目录中)scp id_rsa.pub root@B:/tmp //scp -r是拷贝文件夹 # 举个例子:将服务器的/www/api/ 复制到本地的~/www(在本地执行) scp -r root@101.200.52.143:/www/api/ ~/www 第三步:将刚才拷贝的 id_rsa.pub 公钥文件拷贝到 B 的 authorized_keys 目录中(没有就创建,注意权限不能是777,可以设置成700或者400):cd ~/.ssh cat /tmp/id_rsa.pub>>authorized_keys
2026年02月26日
0 阅读
0 评论
0 点赞
2026-02-24
vLLM双卡配置说明
双卡配置说明(3080 Ti 20G + 1070 8G)重要结论vLLM 不支持 GTX 1070:需要 Compute Capability 7.0+,1070 为 6.1,无法用 vLLM 跑推理或放 KV cache。推荐用法:仅用 3080 Ti 跑 vLLM,通过 CUDA_VISIBLE_DEVICES=0 指定(假设 3080 Ti 为 0 号卡)。1070:可留给 Ollama / 其他支持老显卡的推理、或桌面/显示用;当前方案下不参与 vLLM。指定使用 3080 Ti先确认哪张是 3080 Ti(通常 20G 的那张):nvidia-smi --query-gpu=index,name,memory.total --format=csv假设 3080 Ti 是 0,则所有 vLLM 命令前加:export CUDA_VISIBLE_DEVICES=0 # 然后正常启动 vllm serve ...或在 Python 里(在 import vllm 之前):import os os.environ["CUDA_VISIBLE_DEVICES"] = "0"16G 内存注意vLLM 主要吃 显存,16G 系统内存一般够用。避免同时开太多占内存的应用(浏览器、多个大模型服务等),否则易 OOM 或卡顿。推荐本地 Agent 模型(20G 显存)模型显存约说明Qwen2.5-7B-Instruct~16GB FP16通用、工具调用/agent 支持好Qwen2.5-14B-Instruct~28GB FP16 → ~18GB 量化能力更强,需 AWQ/GPTQ 等 4bitDeepSeek-R1-7B~16GB推理/思考链、agent 向Qwen2.5-1.5B/3B-Instruct很低轻量 agent/路由建议:主 agent 用 Qwen2.5-7B-Instruct 或 DeepSeek-R1-7B,20G 可轻松跑;若上 14B,需量化(如 TheBloke/Qwen2.5-14B-Instruct-AWQ)。再「挂一个 DeepSeek」若指再跑一个 DeepSeek(如 R1/CoT 等):同卡 3080 Ti:两个模型不能同时加载进 20G,可起两个 vLLM 服务不同端口、按需启停,或一个 vLLM + 一个用 API 调远程。1070:不能用 vLLM;可用 Ollama 在 1070 上跑小模型(如 qwen2.5:3b),与 3080 Ti 上的 vLLM 分工。一键只让 vLLM 用 3080 Ti 的示例# 仅用 0 号卡(请按 nvidia-smi 确认 3080 Ti 的 index) export CUDA_VISIBLE_DEVICES=0 source /home/fsy/Desktop/VLLM/.venv/bin/activate vllm serve Qwen/Qwen2.5-7B-Instruct --trust-remote-code --port 8000#!/usr/bin/env python3 """vLLM 本地离线推理示例。首次运行会从 HuggingFace 拉取模型。""" # 仅用 3080 Ti 时,在 import vllm 前设置(或在终端 export CUDA_VISIBLE_DEVICES=0) # import os; os.environ["CUDA_VISIBLE_DEVICES"] = "0" from vllm import LLM from vllm.sampling_params import SamplingParams # Agent 推荐(20G):Qwen/Qwen2.5-7B-Instruct、deepseek-ai/DeepSeek-R1-7B # 14B 需量化:如 TheBloke/Qwen2.5-14B-Instruct-AWQ MODEL = "Qwen/Qwen2.5-7B-Instruct" def main(): # 初始化引擎(首次会加载模型到 GPU) llm = LLM(model=MODEL, trust_remote_code=True) sampling_params = SamplingParams(temperature=0.7, max_tokens=256) prompts = ["你好,请用一句话介绍你自己。", "1+1=?"] outputs = llm.generate(prompts, sampling_params) for out in outputs: print("输入:", out.prompt) print("输出:", out.outputs[0].text) print("-" * 40) if __name__ == "__main__": main()#!/bin/bash # 仅用 3080 Ti(0 号卡)启动 vLLM,供 agent 使用 # 先运行: nvidia-smi 确认 3080 Ti 是 0 还是 1,再改下面 CUDA_VISIBLE_DEVICES export CUDA_VISIBLE_DEVICES=0 cd /home/fsy/Desktop/VLLM source .venv/bin/activate # 主 agent 模型:Qwen2.5-7B(可换成 DeepSeek-R1-7B 等) MODEL="${VLLM_MODEL:-Qwen/Qwen2.5-7B-Instruct}" PORT="${VLLM_PORT:-8000}" echo "Using GPU 0 only (3080 Ti). Model: $MODEL, port: $PORT" exec vllm serve "$MODEL" --trust-remote-code --port "$PORT" "$@"# 建议环境变量(GLM-4.7-Flash MoE 相关) export VLLM_USE_DEEP_GEMM=0 export VLLM_USE_FLASHINFER_MOE_FP16=1 export VLLM_USE_FLASHINFER_SAMPLER=0 export OMP_NUM_THREADS=4‵‵‵bash从 ModelScope 或 Hugging Face 下载到本地后,指向该路径vllm serve /path/to/cyankiwi/GLM-4.7-Flash-AWQ-4bit \ --max-model-len 65536 \ --gpu-memory-utilization 0.9 \ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --trust-remote-code \ --host 0.0.0.0 \ --port 8000
2026年02月24日
1 阅读
0 评论
0 点赞
2026-02-24
GLM-4.7 部署 + llama.cpp 双卡
GLM-4.7 部署 + llama.cpp 双卡(3080 Ti 推理 / 1070 cache)一、GLM-4.7 有没有能部署的版本?有。GLM-4.7-Flash 已开源,适合本地部署:架构:30B MoE,约 3B 活跃参数,推理显存约等于 3B 级显存:4-bit 量化约 16–18GB,3080 Ti 20G 足够能力:200K 上下文、工具调用、思考链,适合 agent获取 GGUF(给 llama.cpp 用):lmstudio-community/GLM-4.7-Flash-GGUF:Q4_K_M / Q6_K / Q8_0bartowski/zai-org_GLM-4.7-Flash-GGUF:更多量化(Q2_K~Q8_0、IQ 系列等)推荐 20G 显存用 Q4_K_M 或 Q5_K_M。二、用 llama.cpp 实现「3080 Ti 推理 + 1070 做 cache」llama.cpp 支持多卡时:-ts / --tensor-split:按比例把模型层分到多张卡(如 -ts 1,0 = 全部在 GPU0)--main-gpu / -mg:指定哪张卡放 KV cache 和小张量(中间结果)因此可以:模型权重全部放在 3080 Ti(推理算力在这张卡)KV cache 和小张量放在 1070(--main-gpu 指向 1070)前提:3080 Ti 建议为 GPU 0,1070 为 GPU 1(用 nvidia-smi 看顺序,必要时在 BIOS/系统里调)。下面按 0=3080Ti、1=1070 写。1. llama.cpp 编译(CUDA)克隆与基础编译:git clone https://github.com/ggml-org/llama.cpp cd llama.cpp mkdir build && cd build cmake .. -DGGML_CUDA=ON cmake --build . --config Release -j可执行文件在 build/bin/,例如 llama-cli、server。若编译时出现 nvcc: Terminated / Compilation terminated,多为内存不足,改用少并行数:cmake --build . --config Release -j2 # 或 -j1若 CMake 报 CUDA Toolkit not found / Could not find nvcc,按下面处理。1.1 确认本机是否有 nvccwhich nvcc # 或 ls /usr/local/cuda*/bin/nvcc 2>/dev/null || ls /usr/bin/nvcc 2>/dev/null有输出则记下该路径的上一级目录(如 /usr/local/cuda 或 /usr/local/cuda-12.6),用作下面的 CUDAToolkit_ROOT。1.2 有 nvcc:指定 CUDAToolkit_ROOT 再配置cd ~/Desktop/llama.cpp/build rm -rf * # 把 /usr/local/cuda 换成你本机 CUDA 实际路径 cmake .. -DGGML_CUDA=ON -DCUDAToolkit_ROOT=/usr/local/cuda cmake --build . --config Release -j2若 CUDA 在其它路径,例如 /usr/local/cuda-12.6:cmake .. -DGGML_CUDA=ON -DCUDAToolkit_ROOT=/usr/local/cuda-12.61.3 没有 nvcc:安装 CUDA Toolkit# 先看驱动支持的 CUDA 版本 nvidia-smi # 右上角 "CUDA Version: 12.x" 表示驱动支持到该版本 # Ubuntu 安装 CUDA 12(按你系统选对应 repo) wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb sudo dpkg -i cuda-keyring_1.1-1_all.deb sudo apt-get update sudo apt-get -y install cuda-toolkit-12-6装好后可设置环境变量(可写入 ~/.bashrc):export PATH=/usr/local/cuda/bin:$PATH export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH再回到 llama.cpp/build 执行:cd ~/Desktop/llama.cpp/build rm -rf * cmake .. -DGGML_CUDA=ON -DCUDAToolkit_ROOT=/usr/local/cuda cmake --build . --config Release -j21.4 使用 conda 里的 CUDA若 nvcc 来自 conda 环境:which nvcc # 若类似 /home/xxx/miniconda3/bin/nvcc,则 CUDAToolkit_ROOT 设为上一级 cmake .. -DGGML_CUDA=ON -DCUDAToolkit_ROOT=/home/xxx/miniconda32. 双卡启动(3080 Ti 推理,1070 做 cache)适用:GPU 0 = 20G 主卡(推理)、GPU 1 = 1070(8G,做 cache)。用 nvidia-smi 确认顺序。内容放在哪张卡参数模型权重GPU 0(3080 Ti)-ts 1,0(1 份在 0,0 份在 1)KV cache / 小张量GPU 1(1070)--main-gpu 1命令行示例(按本机路径改 -m、-c):# 交互 ./llama-cli -m /path/to/GLM-4.7-Flash-xxx-Q4_K_M.gguf \ -ts 1,0 \ --main-gpu 1 \ -c 8192 \ -p "你好"Server 模式(OpenAI 兼容 API):./server -m /path/to/GLM-4.7-Flash-xxx-Q4_K_M.gguf \ -ts 1,0 \ --main-gpu 1 \ -c 8192 \ --host 0.0.0.0 \ --port 8080-ts 1,0:模型全在 GPU 0,GPU 1 不占权重--main-gpu 1:KV cache 和临时缓冲在 GPU 1(1070)-c 8192:上下文长度,显存够可改为 32768 等结果:3080 Ti 负责算力,1070 负责 cache,适合 20G+8G 双卡。3. 若 1070 是 0 号、3080 Ti 是 1 号把「推理」放在 3080 Ti 上更合理,则:用环境变量把「逻辑 GPU 0」映射到物理 3080 Ti,例如先只暴露 3080 Ti:CUDA_VISIBLE_DEVICES=1 ./server -m model.gguf ...这样只用到 3080 Ti,1070 不参与。若坚持双卡且 1070=0、3080Ti=1,则:模型放 3080 Ti:-ts 0,1(0 份在 0,1 份在 1)cache 放 1070:--main-gpu 04. 1070 与 llama.cppllama.cpp 对老显卡(如 1070,Compute 6.1)的支持比 vLLM 宽松,一般可以跑;若遇到不兼容再考虑只用 3080 Ti(CUDA_VISIBLE_DEVICES=0 或 1 单卡)。三、GLM-4.7-Flash 快速用上(单卡 3080 Ti)若先不折腾双卡,只验证 GLM-4.7 + 3080 Ti:下载 GGUF(任选其一)lmstudio-community/GLM-4.7-Flash-GGUFbartowski/zai-org_GLM-4.7-Flash-GGUF单卡运行(仅 3080 Ti,假设为 0 号卡)CUDA_VISIBLE_DEVICES=0 ./server -m GLM-4.7-Flash-xxx-Q4_K_M.gguf -c 8192 --port 8080用 vLLM 跑 GLM-4.7-Flash 若你更习惯 vLLM,也可用 vLLM 加载 HF 格式的 zai-org/GLM-4.7-Flash(需 20G 左右显存,3080 Ti 单卡可行),但此时无法把 1070 当 cache 用(vLLM 不支持 1070)。四、小结需求方案部署 GLM-4.7用 GLM-4.7-Flash 的 GGUF(Q4_K_M 约 16–18GB)3080 Ti 推理 + 1070 做 cache用 llama.cpp:-ts 1,0 + --main-gpu 1(0=3080Ti,1=1070)仅 3080 Ti、最简单vLLM 或 llama.cpp 单卡均可;GGUF 用 llama.cpp,HF 用 vLLM把上面命令里的 -m、-c、端口和 GPU 顺序按你本机改一下即可直接用。
2026年02月24日
1 阅读
0 评论
0 点赞
2026-02-24
通过 frp + SSH 远程操作本系统
通过 frp + SSH 远程操作本系统1. 前置本机已安装 frp 客户端 frpc,且服务端 vc.fangsiyuan.top:10070 已部署 frps 并允许你的 token。本机 SSH 服务 已安装并监听 22 端口(sudo systemctl status ssh)。2. 配置文件客户端配置:frp/frpc.toml(放在 frp 客户端目录中)当前包含:ssh — TCP 代理,服务端端口 10022 → 本机 127.0.0.1:22若本机 SSH 不在本机 22,或 NAS 的 IP/端口不同,在 frpc.toml 里改对应 localIP/localPort。3. 启动 frp 客户端# 前台运行(调试用) frpc -c /usr/local/bin/frpc.toml建议用 systemd 常驻(见下节)。4. 远程 SSH 连接frpc 正常连上服务端后,在任意一台能访问 vc.fangsiyuan.top 的电脑上执行:ssh -p 10022 你的本机用户名@vc.fangsiyuan.top例如本机用户名为 fsy:ssh -p 10022 fsy@vc.fangsiyuan.top即通过 frp 的 10022 端口连到本机 22,实现远程操作本系统。5. systemd 常驻(可选)若 frpc 安装在 PATH 中,可建服务:sudo tee /etc/systemd/system/frpc.service << 'EOF' [Unit] Description=frp client After=network.target [Service] Type=simple ExecStart=/usr/local/bin/frpc -c /usr/local/bin/frpc.toml Restart=on-failure RestartSec=5 [Install] WantedBy=multi-user.target EOF sudo systemctl daemon-reload sudo systemctl enable --now frpc sudo systemctl status frpc若 frpc 不在 /usr/bin/frpc,把 ExecStart 里的路径改成 which frpc 的结果。6. 注意服务端需在 frps 中开放 10022(或你用的 remotePort),否则 SSH 隧道不通。token 和端口仅作示例,实际部署注意安全与权限。
2026年02月24日
2 阅读
0 评论
0 点赞
2026-02-22
基于 Windows 11 + AMD 8060S(统一内存 128GB)环境的llama.cpp 使用指南
llama.cpp 使用指南基于 Windows 11 + AMD 8060S(统一内存 128GB)环境整理。文件下载llama.cpp 程序(含 llama-cli、llama-server)官方 Releases 页面(推荐从这里选对应平台压缩包): https://github.com/ggml-org/llama.cpp/releasesWindows 常用构建(在当页的 Assets 里找):Vulkan(AMD 显卡推荐):llama-*-bin-win-vulkan-x64.zip仅 CPU:llama-*-bin-win-cpu-x64.zipCUDA(NVIDIA):llama-*-bin-win-cuda-*.zip 不要用 rocm / hip 的 Windows 包,在 Win 上易报错。官网说明: https://llama-cpp.com/GGUF 模型Hugging Face(搜索模型名 + GGUF): https://huggingface.co/models?search=ggufQwen 官方(如 Qwen3-Coder-Next): https://huggingface.co/Qwen 在模型页的 "Files and versions" 中选 .gguf 文件或分片包下载。ModelScope 魔搭(国内访问较稳,可搜 GGUF): https://www.modelscope.cn 模型库中搜索模型名或「GGUF」,在模型页下载 .gguf 或分片。Youtu-VL-4B-Instruct-GGUF(腾讯优图 4B 视觉语言模型): https://www.modelscope.cn/models/Tencent-YouTu-Research/Youtu-VL-4B-Instruct-GGUF/summary 在模型页「Files」中下载主模型 .gguf;若提供 mmproj-*.gguf 等多模态投影文件,需一并下载并与主模型同目录或按说明指定。Unsloth(预量化 GGUF,含 Dynamic 2.0 等): https://huggingface.co/unsloth 在 Unsloth 组织下按模型名选仓库,在 "Files and versions" 中下载 GGUF;说明见 https://docs.unsloth.ai。解压 llama.cpp 的 zip 后,将 llama-cli.exe、llama-server.exe 等与模型路径配置好即可使用(见下文)。1. 基本运行1.1 命令行(llama-cli)# 指定模型路径(分片模型只需指定第一个文件,会自动加载其余分片) ./llama-cli.exe -m "E:\models\Qwen3-Coder-Next\Qwen3-Coder-Next\Qwen3-Coder-Next-REAM-MXFP4_MOE.gguf"1.2 强制 CPU(GPU 报错时)./llama-cli.exe -m "你的模型路径.gguf" -ngl 0-ngl 0 表示不加载任何层到 GPU,全部用 CPU。2. Windows 下 GPU 后端说明后端说明ROCm/HIP主要为 Linux 设计,在 Windows 上对新卡(如 gfx1151)支持差,易出现 ROCm error: unspecified launch failure。VulkanAMD 在 Windows 上推荐,需使用带 Vulkan 的 llama.cpp 发行版。CPU-ngl 0,最稳定。若下载的是「Vulkan 版」但日志里仍出现 ROCm/ggml-hip,说明同目录下存在 HIP 相关 DLL 被优先加载。可临时重命名禁用:Rename-Item ggml-hip.dll ggml-hip.dll.bak Rename-Item hipblas.dll hipblas.dll.bak Rename-Item libhipblaslt.dll libhipblaslt.dll.bak然后重新运行,程序会使用 Vulkan。 注意:若本身是 ROCm 专用构建(如路径含 llamacpp-rocm),需从官方 releases 重新下载 Vulkan 或 MSVC 版本,而不是仅改 DLL。3. llama-server 部署3.1 基础启动./llama-server.exe -m "模型路径.gguf" --port 8080 --host 0.0.0.0启动后访问:http://localhost:8080。3.2 常用参数速查参数含义示例-m模型路径必填-c / --ctx-size上下文长度(token 数)-c 2048 或 --ctx-size 32768-ngl放到 GPU 的层数,0=全 CPU-ngl 99 全 GPU,-ngl 0 全 CPU--portHTTP 端口--port 8080--host监听地址,0.0.0.0 允许外网访问--host 0.0.0.0--threadsCPU 线程数--threads 8--batch-size批大小,影响显存/内存512、256、128--ubatch-size微批大小256、128、64--cache-type-kK cache 数据类型,用于省显存f16、q8_0、q4_1--cache-type-vV cache 数据类型同上--flash-attn使用 Flash Attention(若已编译)可省显存--alias模型别名(便于识别)--alias "Qwen3-Coder-Next"4. 显存/内存优化模型体积远小于「显存占用」是正常现象:除了权重,还有 KV cache 和推理时的中间结果。4.1 显存不足(例如 8GB 独显)减小上下文:-c 512 或 -c 1024减少 GPU 层数:-ngl 10 或 -ngl 0(纯 CPU)减小批处理:--batch-size 128 --ubatch-size 64示例(低显存):./llama-server.exe -m "模型路径.gguf" -c 512 -ngl 10 --port 8080 --threads 6 --batch-size 128 --ubatch-size 644.2 统一内存(如 8060S + 128GB 系统内存)可用较大上下文并尽量用 GPU,同时控制 KV cache 类型以控制总内存占用:使用 f16 KV cache(相对 f32 约减半):--cache-type-k f16 --cache-type-v f16更激进:--cache-type-k q8_0 --cache-type-v q8_0 或 q4_1按需限制上下文:-c 4096 或 -c 2048示例(统一内存 + 控制占用):./llama-server.exe -m "模型路径.gguf" -c 4096 -ngl 99 --port 8080 --threads 8 --batch-size 512 --ubatch-size 256 --cache-type-k f16 --cache-type-v f16若仍占用过高,可把上下文改为 -c 2048,并把 cache 改为 q4_1:./llama-server.exe -m "模型路径.gguf" -c 2048 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k q4_1 --cache-type-v q4_15. Qwen3-Coder-Next 推荐参数(官方风格)可与上面任意 server 命令组合使用:参数推荐值说明--temp1.0采样温度--top-p0.95nucleus sampling--top-k40top-k 采样--min-p0.01注意:llama.cpp 默认常为 0.05,Qwen 推荐 0.01--repeat-penalty1.0禁用重复惩罚示例(Qwen 推荐 + 内存优化):./llama-server.exe -m "E:\models\Qwen3-Coder-Next\Qwen3-Coder-Next\Qwen3-Coder-Next-REAM-MXFP4_MOE.gguf" --alias "Qwen3-Coder-Next" --ctx-size 32768 --temp 1.0 --top-p 0.95 --top-k 40 --min-p 0.01 --repeat-penalty 1.0 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k q4_1若仍觉内存/显存占用高,可把 --ctx-size 改为 16384 或 8192。6. 故障排查简表现象处理方向ROCm 报错、hipMemGetInfo 失败使用 -ngl 0 或换 Vulkan 版本;在 Windows 避免用 ROCm 专用构建。想用 Vulkan 却仍加载 HIP检查同目录 ggml-hip.dll 等,临时重命名或使用纯 Vulkan 发行版。显存/内存占用远大于模型大小降低 -c、减小 --batch-size/--ubatch-size,使用 --cache-type-k/--cache-type-v(如 q4_1、q8_0、f16)。大模型在小显存卡上跑不动减小 -ngl(或 -ngl 0),或换更小量化/更小参数量模型。7. 参考命令汇总纯 CPU、省内存:./llama-server.exe -m "模型路径.gguf" -c 1024 -ngl 0 --port 8080 --threads 8 --batch-size 256Vulkan GPU + 控制占用(统一内存):./llama-server.exe -m "模型路径.gguf" -c 4096 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k q4_1 --cache-type-v q4_1Qwen3-Coder-Next 推荐 + 32K 上下文:./llama-server.exe -m "E:\models\Qwen3-Coder-Next\Qwen3-Coder-Next\Qwen3-Coder-Next-REAM-MXFP4_MOE.gguf" --alias "Qwen3-Coder-Next" --ctx-size 32768 --temp 1.0 --top-p 0.95 --top-k 40 --min-p 0.01 --repeat-penalty 1.0 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k q4_1 --host 0.0.0.0按实际显存/内存和需求,调整 -c、-ngl、--batch-size 和 --cache-type-* 即可。8. Qwen3-Next-80B-A3B-Thinking(Thinking 推理模型)模型说明见 unsloth/Qwen3-Next-80B-A3B-Thinking。仅思维模式,需较长输出空间做推理;官方推荐采样:Temperature=0.6, TopP=0.95, TopK=20, MinP=0;常规请求建议 max 输出 32K token,复杂推理可设更大。推荐启动命令(统一内存 / 大内存):./llama-server.exe -m "E:\models\Qwen3-Next-80B-A3B\MXFP4_MOE\Qwen3-Next-80B-A3B-Thinking-MXFP4_MOE-00001-of-00003.gguf" --alias "Qwen3-Next-80B-A3B-Thinking" --ctx-size 32768 -n 32768 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0 -ngl 99 --port 8080 --threads 8 --batch-size 512 --ubatch-size 256 --cache-type-k f16 --cache-type-v f16 --host 0.0.0.0参数取值说明-m分片第一文件路径自动加载 00002、00003--alias服务里显示的模型名客户端选模型时用--ctx-size32768上下文长度,可改为 65536/131072(更吃内存)-n32768单次最大生成 token,thinking 需足够长--temp0.6官方推荐--top-p0.95官方推荐--top-k20官方推荐--min-p0官方推荐-ngl99GPU 层数,显存不够可减小或 -ngl 0 纯 CPU--cache-type-k/vf16省内存,可改为 q4_1 进一步省省内存版(减小上下文与批大小):./llama-server.exe -m "E:\models\Qwen3-Next-80B-A3B\MXFP4_MOE\Qwen3-Next-80B-A3B-Thinking-MXFP4_MOE-00001-of-00003.gguf" --alias "Qwen3-Next-80B-A3B-Thinking" --ctx-size 16384 -n 16384 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0 -ngl 99 --port 8080 --threads 8 --batch-size 256 --ubatch-size 128 --cache-type-k q4_1 --cache-type-v q4_19. Youtu-VL-4B-Instruct-GGUF(腾讯优图视觉语言模型)模型页: https://www.modelscope.cn/models/Tencent-YouTu-Research/Youtu-VL-4B-Instruct-GGUF/summary说明:腾讯优图 4B 视觉语言模型(VLM),支持图像 + 文本输入,需 带多模态支持的 llama.cpp。本地路径示例:E:\models\Youtu-VL-4B-Instruct\F16\Youtu-VL-4B-Instruct-F16.gguf 若该模型需 mmproj(多模态投影),将 mmproj-*.gguf 与主模型放同目录,启动时加 --mmproj "同目录\mmproj-xxx.gguf"。推荐启动命令(本地 F16 模型,含 mmproj):./llama-server.exe -m "E:\models\Youtu-VL-4B-Instruct\F16\Youtu-VL-4B-Instruct-F16.gguf" --mmproj "E:\models\Youtu-VL-4B-Instruct\F16\mmproj-Youtu-VL-4b-Instruct-BF16.gguf" --port 8080 --image-max-tokens 2048 --temp 0.1 --top-p 0.001 --repeat-penalty 1.05 -n 12280 --host 0.0.0.0参数取值说明-m主模型 .gguf 路径必填--mmprojmmproj-*.gguf 路径多模态视觉编码投影,与主模型同目录时按实际文件名填写--port8080HTTP 端口--image-max-tokens2048图像编码最大 token 数--temp0.1低温度,输出更稳定--top-p0.001nucleus 采样--repeat-penalty1.05抑制重复-n12280单次最大生成 token 数--host0.0.0.0允许外网访问按需可加:-ngl 99(GPU 层数)、--alias "Youtu-VL-4B"、-c 4096(上下文长度)。若显存/内存紧张,可减小 -n、-c 或 --image-max-tokens。10. GLM-4.7-Flash(MXFP4_MOE / Claude Opus 4.5 推理蒸馏版)模型页: https://huggingface.co/TeichAI/GLM-4.7-Flash-Claude-Opus-4.5-High-Reasoning-Distill本地路径示例:E:\models\GLM-4.7-Flash\MXFP4_MOE\GLM-4.7-Flash-Claude-4.5-Opus-i1-MXFP4_MOE_XL-exp.gguf说明:智谱 GLM-4.7-Flash 经 Claude Opus 4.5 High Reasoning 蒸馏的 MXFP4 MOE 量化版(Coding / Science / Deep Research)。单文件 GGUF;若为分片,-m 只填第一个文件即可。官方建议 llama.cpp 使用 --min-p 0.01(默认 0.05)。推荐启动命令(含官方采样参数):./llama-server.exe -m "E:\models\GLM-4.7-Flash\MXFP4_MOE\GLM-4.7-Flash-Claude-4.5-Opus-i1-MXFP4_MOE_XL-exp.gguf" --alias "GLM-4.7-Flash" --ctx-size 32768 --temp 1.0 --top-p 0.95 --min-p 0.01 --repeat-penalty 1.0 -ngl 99 --port 8080 --threads 8 --batch-size 512 --cache-type-k f16 --cache-type-v f16 --host 0.0.0.0参数取值说明-m模型 .gguf 路径必填;分片时填第一个文件--alias服务中显示的模型名客户端选模型用--ctx-size32768上下文长度,可按需改为 16384 等--temp1.0通用任务;工具调用/基准可用 0.7--top-p0.95通用;工具调用可改为 1.0--min-p0.01官方建议(llama.cpp 默认 0.05)--repeat-penalty1.0关闭或 1.0-ngl99GPU 层数,显存不足可减小或 -ngl 0 纯 CPU--port8080HTTP 端口--cache-type-k/vf16省内存,可改为 q4_1 进一步省显存/内存紧张时可将 --ctx-size 改为 16384,--batch-size 改为 256,或加 --cache-type-k q4_1 --cache-type-v q4_1。若效果不佳,可尝试 --temp 0.5 或 0.6。
2026年02月22日
3 阅读
0 评论
0 点赞
1
2