Groq

Groq 提供极快的 AI 推理速度，专注于实时响应和低延迟应用。

支持的模型

Llama 3.1

llama-3.1-405b-reasoning - 推理专用模型
llama-3.1-70b-versatile - 通用模型
llama-3.1-8b-instant - 快速响应模型

Llama 3

llama-3-70b-8192 - 70B 模型
llama-3-8b-8192 - 8B 模型

Mixtral

mixtral-8x7b-32768 - Mixtral MoE 模型

其他模型

gemma-7b-it - Google Gemma 模型

配置

基础配置

在 config.yaml 或 ~/.bytebuddy/config.yaml 中配置：

yaml

models:
  - name: "groq-llama"
    provider: "groq"
    model: "llama-3.1-70b-versatile"
    apiKey: "${GROQ_API_KEY}"
    roles: ["chat", "edit"]
    defaultCompletionOptions:
      temperature: 0.7
      maxTokens: 4096

实时对话配置

yaml

models:
  - name: "groq-instant"
    provider: "groq"
    model: "llama-3.1-8b-instant"
    apiKey: "${GROQ_API_KEY}"
    roles: ["chat", "autocomplete"]
    defaultCompletionOptions:
      temperature: 0.7
      maxTokens: 2048

多模型配置

yaml

models:
  - name: "groq-instant"
    provider: "groq"
    model: "llama-3.1-8b-instant"
    apiKey: "${GROQ_API_KEY}"
    roles: ["autocomplete"]
    defaultCompletionOptions:
      temperature: 0.5
      maxTokens: 1024

  - name: "groq-versatile"
    provider: "groq"
    model: "llama-3.1-70b-versatile"
    apiKey: "${GROQ_API_KEY}"
    roles: ["chat", "edit"]
    defaultCompletionOptions:
      temperature: 0.7
      maxTokens: 4096

  - name: "groq-reasoning"
    provider: "groq"
    model: "llama-3.1-405b-reasoning"
    apiKey: "${GROQ_API_KEY}"
    roles: ["chat"]
    defaultCompletionOptions:
      temperature: 0.3
      maxTokens: 8192

配置字段

必需字段

name: 模型配置的唯一标识符
provider: 设置为 "groq"
model: 模型名称
apiKey: Groq API 密钥

可选字段

roles: 模型角色 [chat, edit, apply, autocomplete]
defaultCompletionOptions:
- temperature: 控制随机性 (0-2)
- maxTokens: 最大令牌数
- topP: 核采样参数
- frequencyPenalty: 频率惩罚
- presencePenalty: 存在惩罚
- stopSequences: 停止序列

环境变量

bash

# ~/.bashrc 或 ~/.zshrc
export GROQ_API_KEY="your-groq-api-key"

获取 API 密钥

访问 Groq Console
注册账户并登录
导航到 API Keys 页面
创建新的 API 密钥
将密钥保存到环境变量

使用场景配置

实时聊天

yaml

models:
  - name: "real-time-chat"
    provider: "groq"
    model: "llama-3.1-8b-instant"
    apiKey: "${GROQ_API_KEY}"
    roles: ["chat"]
    defaultCompletionOptions:
      temperature: 0.7
      maxTokens: 2048

代码生成

yaml

models:
  - name: "code-gen"
    provider: "groq"
    model: "llama-3.1-70b-versatile"
    apiKey: "${GROQ_API_KEY}"
    roles: ["edit", "apply"]
    defaultCompletionOptions:
      temperature: 0.2
      maxTokens: 4096

复杂推理

yaml

models:
  - name: "reasoning"
    provider: "groq"
    model: "llama-3.1-405b-reasoning"
    apiKey: "${GROQ_API_KEY}"
    roles: ["chat"]
    defaultCompletionOptions:
      temperature: 0.1
      maxTokens: 16384

代码补全

yaml

models:
  - name: "autocomplete"
    provider: "groq"
    model: "llama-3.1-8b-instant"
    apiKey: "${GROQ_API_KEY}"
    roles: ["autocomplete"]
    defaultCompletionOptions:
      temperature: 0.3
      maxTokens: 512

速度优势

Groq 的 LPU（Language Processing Unit）技术提供了行业领先的推理速度：

实时响应: 毫秒级延迟
高吞吐量: 支持大量并发请求
稳定性能: 一致的速度表现
低成本: 快速推理降低成本

故障排除

常见错误

401 Unauthorized: 检查 API 密钥是否正确
429 Too Many Requests: 达到速率限制
模型不可用: 确认模型名称正确
上下文长度超限: 减少输入或 maxTokens

调试步骤

验证 API 密钥格式和有效性
检查速率限制
确认模型名称拼写
查看 Groq 状态页面
监控使用配额

速率限制

免费层: 每分钟 30 请求
付费层: 更高的速率限制，根据订阅计划

最佳实践

1. 模型选择

实时应用: 使用 llama-3.1-8b-instant
复杂任务: 使用 llama-3.1-70b-versatile
推理任务: 使用 llama-3.1-405b-reasoning
代码补全: 使用 instant 模型配合低温度

2. 性能优化

利用 Groq 的速度优势启用流式响应
为不同任务选择合适的模型大小
设置合理的 maxTokens 限制
实现有效的缓存策略

3. 成本控制

监控 API 使用量
简单任务使用小模型
设置配额警报
优化提示词长度

4. 安全性

使用环境变量存储 API 密钥
定期轮换密钥
监控异常使用

适用场景

Groq 特别适合以下场景：

实时聊天应用 - 毫秒级响应时间
代码补全 - 快速即时建议
交互式教育 - 流畅的学习体验
游戏 AI - 实时决策和对话
客服机器人 - 即时响应客户

热门提供商

更多提供商

Groq

支持的模型

Llama 3.1

Llama 3

Mixtral

其他模型

配置

基础配置

实时对话配置

多模型配置

配置字段

必需字段

可选字段

环境变量

获取 API 密钥

使用场景配置

实时聊天

代码生成

复杂推理

代码补全

速度优势

故障排除

常见错误

调试步骤

速率限制

最佳实践

1. 模型选择

2. 性能优化

3. 成本控制

4. 安全性

适用场景

Groq ​

支持的模型 ​

Llama 3.1 ​

Llama 3 ​

Mixtral ​

其他模型 ​

配置 ​

基础配置 ​

实时对话配置 ​

多模型配置 ​

配置字段 ​

必需字段 ​

可选字段 ​

环境变量 ​

获取 API 密钥 ​

使用场景配置 ​

实时聊天 ​

代码生成 ​

复杂推理 ​

代码补全 ​

速度优势 ​

故障排除 ​

常见错误 ​

调试步骤 ​

速率限制 ​

最佳实践 ​

1. 模型选择 ​

2. 性能优化 ​

3. 成本控制 ​

4. 安全性 ​

适用场景 ​

Groq

支持的模型

Llama 3.1

Llama 3

Mixtral

其他模型

配置

基础配置

实时对话配置

多模型配置

配置字段

必需字段

可选字段

环境变量

获取 API 密钥

使用场景配置

实时聊天

代码生成

复杂推理

代码补全

速度优势

故障排除

常见错误

调试步骤

速率限制

最佳实践

1. 模型选择

2. 性能优化

3. 成本控制

4. 安全性

适用场景