AI 大语言模型 (LLM)
Quant Picker
Quant Picker 帮助您根据硬件条件,在质量、上下文长度和速度之间取得平衡,为您的 LLM 选择最佳的 GGUF 量化方案。
Quant Picker
什么是 Quant Picker?
Quant Picker 是一个网络工具,根据给定的模型和硬件配置计算最佳的 GGUF 量化级别,提供文件大小、上下文预算和 token 生成速度估算。
如何使用 Quant Picker?
- 1输入模型名称(例如 Llama 3.1 70B)。
- 2选择硬件(GPU 和 VRAM)。
- 3设置所需的上下文长度。
- 4如果需要,调整 KV 缓存精度。
- 5查看推荐的量化方案、文件大小和最大上下文。
- 6复制提供的运行命令(适用于 llama.cpp 或 Ollama)。
Quant Picker 主要功能
- 推荐最佳 GGUF 量化方案
- 显示文件大小和内存需求
- 提供上下文预算分析
- 估算 token 生成速度
- 提供可复制的运行命令
- 比较不同量化级别的质量
Quant Picker 使用场景
- 在有限的 GPU 内存上为大型模型选择正确的量化方案
- 确定模型是否可以运行并保持足够的上下文
- 比较量化质量与资源使用之间的权衡
Quant Picker 价格与免费额度
Quant Picker 目前采用 免费 模式。
Quant Picker 优缺点
优点
- 基于硬件规格的准确推荐
- 易于理解的表格和解释
- 提供即用型命令
缺点
- 速度估算为理论值,可能无法反映实际性能
- 仅限 NVIDIA GPU 带宽数据用于速度上限
- 仅支持 GGUF 格式
Quant Picker 最适合哪些用途?
- 在本地运行模型的 LLM 爱好者
- 优化量化模型部署的开发者