Groq
Groq 提供极快的 AI 推理速度,专注于实时响应和低延迟应用。
支持的模型
Llama 3.1
- llama-3.1-405b-reasoning - 推理专用模型
- llama-3.1-70b-versatile - 通用模型
- llama-3.1-8b-instant - 快速响应模型
Llama 3
- llama-3-70b-8192 - 70B 模型
- llama-3-8b-8192 - 8B 模型
Mixtral
- mixtral-8x7b-32768 - Mixtral MoE 模型
其他模型
- gemma-7b-it - Google Gemma 模型
配置
基础配置
在 config.yaml 或 ~/.bytebuddy/config.yaml 中配置:
yaml
models:
- name: "groq-llama"
provider: "groq"
model: "llama-3.1-70b-versatile"
apiKey: "${GROQ_API_KEY}"
roles: ["chat", "edit"]
defaultCompletionOptions:
temperature: 0.7
maxTokens: 4096实时对话配置
yaml
models:
- name: "groq-instant"
provider: "groq"
model: "llama-3.1-8b-instant"
apiKey: "${GROQ_API_KEY}"
roles: ["chat", "autocomplete"]
defaultCompletionOptions:
temperature: 0.7
maxTokens: 2048多模型配置
yaml
models:
- name: "groq-instant"
provider: "groq"
model: "llama-3.1-8b-instant"
apiKey: "${GROQ_API_KEY}"
roles: ["autocomplete"]
defaultCompletionOptions:
temperature: 0.5
maxTokens: 1024
- name: "groq-versatile"
provider: "groq"
model: "llama-3.1-70b-versatile"
apiKey: "${GROQ_API_KEY}"
roles: ["chat", "edit"]
defaultCompletionOptions:
temperature: 0.7
maxTokens: 4096
- name: "groq-reasoning"
provider: "groq"
model: "llama-3.1-405b-reasoning"
apiKey: "${GROQ_API_KEY}"
roles: ["chat"]
defaultCompletionOptions:
temperature: 0.3
maxTokens: 8192配置字段
必需字段
- name: 模型配置的唯一标识符
- provider: 设置为
"groq" - model: 模型名称
- apiKey: Groq API 密钥
可选字段
- roles: 模型角色 [
chat,edit,apply,autocomplete] - defaultCompletionOptions:
temperature: 控制随机性 (0-2)maxTokens: 最大令牌数topP: 核采样参数frequencyPenalty: 频率惩罚presencePenalty: 存在惩罚stopSequences: 停止序列
环境变量
bash
# ~/.bashrc 或 ~/.zshrc
export GROQ_API_KEY="your-groq-api-key"获取 API 密钥
- 访问 Groq Console
- 注册账户并登录
- 导航到 API Keys 页面
- 创建新的 API 密钥
- 将密钥保存到环境变量
使用场景配置
实时聊天
yaml
models:
- name: "real-time-chat"
provider: "groq"
model: "llama-3.1-8b-instant"
apiKey: "${GROQ_API_KEY}"
roles: ["chat"]
defaultCompletionOptions:
temperature: 0.7
maxTokens: 2048代码生成
yaml
models:
- name: "code-gen"
provider: "groq"
model: "llama-3.1-70b-versatile"
apiKey: "${GROQ_API_KEY}"
roles: ["edit", "apply"]
defaultCompletionOptions:
temperature: 0.2
maxTokens: 4096复杂推理
yaml
models:
- name: "reasoning"
provider: "groq"
model: "llama-3.1-405b-reasoning"
apiKey: "${GROQ_API_KEY}"
roles: ["chat"]
defaultCompletionOptions:
temperature: 0.1
maxTokens: 16384代码补全
yaml
models:
- name: "autocomplete"
provider: "groq"
model: "llama-3.1-8b-instant"
apiKey: "${GROQ_API_KEY}"
roles: ["autocomplete"]
defaultCompletionOptions:
temperature: 0.3
maxTokens: 512速度优势
Groq 的 LPU(Language Processing Unit)技术提供了行业领先的推理速度:
- 实时响应: 毫秒级延迟
- 高吞吐量: 支持大量并发请求
- 稳定性能: 一致的速度表现
- 低成本: 快速推理降低成本
故障排除
常见错误
- 401 Unauthorized: 检查 API 密钥是否正确
- 429 Too Many Requests: 达到速率限制
- 模型不可用: 确认模型名称正确
- 上下文长度超限: 减少输入或 maxTokens
调试步骤
- 验证 API 密钥格式和有效性
- 检查速率限制
- 确认模型名称拼写
- 查看 Groq 状态页面
- 监控使用配额
速率限制
- 免费层: 每分钟 30 请求
- 付费层: 更高的速率限制,根据订阅计划
最佳实践
1. 模型选择
- 实时应用: 使用
llama-3.1-8b-instant - 复杂任务: 使用
llama-3.1-70b-versatile - 推理任务: 使用
llama-3.1-405b-reasoning - 代码补全: 使用 instant 模型配合低温度
2. 性能优化
- 利用 Groq 的速度优势启用流式响应
- 为不同任务选择合适的模型大小
- 设置合理的 maxTokens 限制
- 实现有效的缓存策略
3. 成本控制
- 监控 API 使用量
- 简单任务使用小模型
- 设置配额警报
- 优化提示词长度
4. 安全性
- 使用环境变量存储 API 密钥
- 定期轮换密钥
- 监控异常使用
适用场景
Groq 特别适合以下场景:
- 实时聊天应用 - 毫秒级响应时间
- 代码补全 - 快速即时建议
- 交互式教育 - 流畅的学习体验
- 游戏 AI - 实时决策和对话
- 客服机器人 - 即时响应客户