Skip to content

DeepInfra

DeepInfra 提供高性能的 AI 模型推理服务,专注于快速响应和成本效益。

支持的模型

Meta Llama

  • meta-llama/Llama-2-70b-chat-hf - Llama 2 70B 对话模型
  • meta-llama/Llama-2-13b-chat-hf - Llama 2 13B 对话模型
  • meta-llama/Llama-2-7b-chat-hf - Llama 2 7B 对话模型

Mistral

  • mistralai/Mixtral-8x7B-Instruct-v0.1 - Mixtral MoE 模型
  • mistralai/Mistral-7B-Instruct-v0.2 - Mistral 7B 指令模型

其他模型

  • HuggingFaceH4/zephyr-7b-beta - Zephyr 模型
  • NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO - Nous Hermes 模型

配置

基础配置

config.yaml~/.bytebuddy/config.yaml 中配置:

yaml
models:
  - name: "deepinfra-llama"
    provider: "deepinfra"
    model: "meta-llama/Llama-2-70b-chat-hf"
    apiKey: "${DEEPINFRA_API_KEY}"
    roles: ["chat"]
    defaultCompletionOptions:
      temperature: 0.7
      maxTokens: 4096

高性能配置

yaml
models:
  - name: "deepinfra-mixtral"
    provider: "deepinfra"
    model: "mistralai/Mixtral-8x7B-Instruct-v0.1"
    apiKey: "${DEEPINFRA_API_KEY}"
    roles: ["chat", "edit"]
    defaultCompletionOptions:
      temperature: 0.6
      maxTokens: 8192

多模型配置

yaml
models:
  - name: "deepinfra-llama-70b"
    provider: "deepinfra"
    model: "meta-llama/Llama-2-70b-chat-hf"
    apiKey: "${DEEPINFRA_API_KEY}"
    roles: ["chat"]
    defaultCompletionOptions:
      temperature: 0.7
      maxTokens: 4096

  - name: "deepinfra-mistral"
    provider: "deepinfra"
    model: "mistralai/Mistral-7B-Instruct-v0.2"
    apiKey: "${DEEPINFRA_API_KEY}"
    roles: ["chat", "edit"]
    defaultCompletionOptions:
      temperature: 0.5
      maxTokens: 4096

配置字段

必需字段

  • name: 模型配置的唯一标识符
  • provider: 设置为 "deepinfra"
  • model: 模型标识符(格式:organization/model-name
  • apiKey: DeepInfra API 密钥

可选字段

  • roles: 模型角色 [chat, edit, apply, autocomplete]
  • defaultCompletionOptions:
    • temperature: 控制随机性 (0-2)
    • maxTokens: 最大令牌数
    • topP: 核采样参数
    • topK: 采样候选数量
    • repetitionPenalty: 重复惩罚

环境变量

bash
# ~/.bashrc 或 ~/.zshrc
export DEEPINFRA_API_KEY="your-deepinfra-api-key"

获取 API 密钥

  1. 访问 DeepInfra 网站
  2. 注册账户并登录
  3. 导航到 API 密钥页面
  4. 生成新的 API 密钥
  5. 将密钥保存到环境变量

使用场景配置

通用对话

yaml
models:
  - name: "chat-bot"
    provider: "deepinfra"
    model: "meta-llama/Llama-2-13b-chat-hf"
    apiKey: "${DEEPINFRA_API_KEY}"
    roles: ["chat"]
    defaultCompletionOptions:
      temperature: 0.7
      maxTokens: 2048

代码生成

yaml
models:
  - name: "code-gen"
    provider: "deepinfra"
    model: "mistralai/Mixtral-8x7B-Instruct-v0.1"
    apiKey: "${DEEPINFRA_API_KEY}"
    roles: ["chat", "edit"]
    defaultCompletionOptions:
      temperature: 0.2
      maxTokens: 4096

快速响应

yaml
models:
  - name: "fast-response"
    provider: "deepinfra"
    model: "meta-llama/Llama-2-7b-chat-hf"
    apiKey: "${DEEPINFRA_API_KEY}"
    roles: ["autocomplete"]
    defaultCompletionOptions:
      temperature: 0.5
      maxTokens: 1024

故障排除

常见错误

  1. 401 Unauthorized: 检查 API 密钥是否正确
  2. 429 Too Many Requests: 达到速率限制
  3. 模型不可用: 验证模型标识符格式
  4. 超时错误: 网络连接问题或模型加载时间过长

调试步骤

  1. 验证 API 密钥格式和有效性
  2. 检查模型标识符是否正确
  3. 确认网络连接正常
  4. 查看 DeepInfra 状态页面
  5. 检查速率限制和配额

最佳实践

1. 模型选择

  • 复杂任务: 使用 70B 或 Mixtral 8x7B 模型
  • 一般对话: 使用 13B 模型
  • 快速响应: 使用 7B 模型

2. 性能优化

  • 选择合适大小的模型平衡质量和速度
  • 设置合理的超时值
  • 实现请求缓存

3. 成本控制

  • 监控 API 使用量
  • 根据任务复杂度选择模型大小
  • 设置 maxTokens 限制

4. 安全性

  • 使用环境变量存储 API 密钥
  • 定期轮换密钥
  • 监控异常使用