Skip to content

Groq

Groq 提供极快的 AI 推理速度,专注于实时响应和低延迟应用。

支持的模型

Llama 3.1

  • llama-3.1-405b-reasoning - 推理专用模型
  • llama-3.1-70b-versatile - 通用模型
  • llama-3.1-8b-instant - 快速响应模型

Llama 3

  • llama-3-70b-8192 - 70B 模型
  • llama-3-8b-8192 - 8B 模型

Mixtral

  • mixtral-8x7b-32768 - Mixtral MoE 模型

其他模型

  • gemma-7b-it - Google Gemma 模型

配置

基础配置

config.yaml~/.bytebuddy/config.yaml 中配置:

yaml
models:
  - name: "groq-llama"
    provider: "groq"
    model: "llama-3.1-70b-versatile"
    apiKey: "${GROQ_API_KEY}"
    roles: ["chat", "edit"]
    defaultCompletionOptions:
      temperature: 0.7
      maxTokens: 4096

实时对话配置

yaml
models:
  - name: "groq-instant"
    provider: "groq"
    model: "llama-3.1-8b-instant"
    apiKey: "${GROQ_API_KEY}"
    roles: ["chat", "autocomplete"]
    defaultCompletionOptions:
      temperature: 0.7
      maxTokens: 2048

多模型配置

yaml
models:
  - name: "groq-instant"
    provider: "groq"
    model: "llama-3.1-8b-instant"
    apiKey: "${GROQ_API_KEY}"
    roles: ["autocomplete"]
    defaultCompletionOptions:
      temperature: 0.5
      maxTokens: 1024

  - name: "groq-versatile"
    provider: "groq"
    model: "llama-3.1-70b-versatile"
    apiKey: "${GROQ_API_KEY}"
    roles: ["chat", "edit"]
    defaultCompletionOptions:
      temperature: 0.7
      maxTokens: 4096

  - name: "groq-reasoning"
    provider: "groq"
    model: "llama-3.1-405b-reasoning"
    apiKey: "${GROQ_API_KEY}"
    roles: ["chat"]
    defaultCompletionOptions:
      temperature: 0.3
      maxTokens: 8192

配置字段

必需字段

  • name: 模型配置的唯一标识符
  • provider: 设置为 "groq"
  • model: 模型名称
  • apiKey: Groq API 密钥

可选字段

  • roles: 模型角色 [chat, edit, apply, autocomplete]
  • defaultCompletionOptions:
    • temperature: 控制随机性 (0-2)
    • maxTokens: 最大令牌数
    • topP: 核采样参数
    • frequencyPenalty: 频率惩罚
    • presencePenalty: 存在惩罚
    • stopSequences: 停止序列

环境变量

bash
# ~/.bashrc 或 ~/.zshrc
export GROQ_API_KEY="your-groq-api-key"

获取 API 密钥

  1. 访问 Groq Console
  2. 注册账户并登录
  3. 导航到 API Keys 页面
  4. 创建新的 API 密钥
  5. 将密钥保存到环境变量

使用场景配置

实时聊天

yaml
models:
  - name: "real-time-chat"
    provider: "groq"
    model: "llama-3.1-8b-instant"
    apiKey: "${GROQ_API_KEY}"
    roles: ["chat"]
    defaultCompletionOptions:
      temperature: 0.7
      maxTokens: 2048

代码生成

yaml
models:
  - name: "code-gen"
    provider: "groq"
    model: "llama-3.1-70b-versatile"
    apiKey: "${GROQ_API_KEY}"
    roles: ["edit", "apply"]
    defaultCompletionOptions:
      temperature: 0.2
      maxTokens: 4096

复杂推理

yaml
models:
  - name: "reasoning"
    provider: "groq"
    model: "llama-3.1-405b-reasoning"
    apiKey: "${GROQ_API_KEY}"
    roles: ["chat"]
    defaultCompletionOptions:
      temperature: 0.1
      maxTokens: 16384

代码补全

yaml
models:
  - name: "autocomplete"
    provider: "groq"
    model: "llama-3.1-8b-instant"
    apiKey: "${GROQ_API_KEY}"
    roles: ["autocomplete"]
    defaultCompletionOptions:
      temperature: 0.3
      maxTokens: 512

速度优势

Groq 的 LPU(Language Processing Unit)技术提供了行业领先的推理速度:

  • 实时响应: 毫秒级延迟
  • 高吞吐量: 支持大量并发请求
  • 稳定性能: 一致的速度表现
  • 低成本: 快速推理降低成本

故障排除

常见错误

  1. 401 Unauthorized: 检查 API 密钥是否正确
  2. 429 Too Many Requests: 达到速率限制
  3. 模型不可用: 确认模型名称正确
  4. 上下文长度超限: 减少输入或 maxTokens

调试步骤

  1. 验证 API 密钥格式和有效性
  2. 检查速率限制
  3. 确认模型名称拼写
  4. 查看 Groq 状态页面
  5. 监控使用配额

速率限制

  • 免费层: 每分钟 30 请求
  • 付费层: 更高的速率限制,根据订阅计划

最佳实践

1. 模型选择

  • 实时应用: 使用 llama-3.1-8b-instant
  • 复杂任务: 使用 llama-3.1-70b-versatile
  • 推理任务: 使用 llama-3.1-405b-reasoning
  • 代码补全: 使用 instant 模型配合低温度

2. 性能优化

  • 利用 Groq 的速度优势启用流式响应
  • 为不同任务选择合适的模型大小
  • 设置合理的 maxTokens 限制
  • 实现有效的缓存策略

3. 成本控制

  • 监控 API 使用量
  • 简单任务使用小模型
  • 设置配额警报
  • 优化提示词长度

4. 安全性

  • 使用环境变量存储 API 密钥
  • 定期轮换密钥
  • 监控异常使用

适用场景

Groq 特别适合以下场景:

  • 实时聊天应用 - 毫秒级响应时间
  • 代码补全 - 快速即时建议
  • 交互式教育 - 流畅的学习体验
  • 游戏 AI - 实时决策和对话
  • 客服机器人 - 即时响应客户