DeepInfra
DeepInfra 提供高性能的 AI 模型推理服务,专注于快速响应和成本效益。
支持的模型
Meta Llama
- meta-llama/Llama-2-70b-chat-hf - Llama 2 70B 对话模型
- meta-llama/Llama-2-13b-chat-hf - Llama 2 13B 对话模型
- meta-llama/Llama-2-7b-chat-hf - Llama 2 7B 对话模型
Mistral
- mistralai/Mixtral-8x7B-Instruct-v0.1 - Mixtral MoE 模型
- mistralai/Mistral-7B-Instruct-v0.2 - Mistral 7B 指令模型
其他模型
- HuggingFaceH4/zephyr-7b-beta - Zephyr 模型
- NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO - Nous Hermes 模型
配置
基础配置
在 config.yaml 或 ~/.bytebuddy/config.yaml 中配置:
yaml
models:
- name: "deepinfra-llama"
provider: "deepinfra"
model: "meta-llama/Llama-2-70b-chat-hf"
apiKey: "${DEEPINFRA_API_KEY}"
roles: ["chat"]
defaultCompletionOptions:
temperature: 0.7
maxTokens: 4096高性能配置
yaml
models:
- name: "deepinfra-mixtral"
provider: "deepinfra"
model: "mistralai/Mixtral-8x7B-Instruct-v0.1"
apiKey: "${DEEPINFRA_API_KEY}"
roles: ["chat", "edit"]
defaultCompletionOptions:
temperature: 0.6
maxTokens: 8192多模型配置
yaml
models:
- name: "deepinfra-llama-70b"
provider: "deepinfra"
model: "meta-llama/Llama-2-70b-chat-hf"
apiKey: "${DEEPINFRA_API_KEY}"
roles: ["chat"]
defaultCompletionOptions:
temperature: 0.7
maxTokens: 4096
- name: "deepinfra-mistral"
provider: "deepinfra"
model: "mistralai/Mistral-7B-Instruct-v0.2"
apiKey: "${DEEPINFRA_API_KEY}"
roles: ["chat", "edit"]
defaultCompletionOptions:
temperature: 0.5
maxTokens: 4096配置字段
必需字段
- name: 模型配置的唯一标识符
- provider: 设置为
"deepinfra" - model: 模型标识符(格式:
organization/model-name) - apiKey: DeepInfra API 密钥
可选字段
- roles: 模型角色 [
chat,edit,apply,autocomplete] - defaultCompletionOptions:
temperature: 控制随机性 (0-2)maxTokens: 最大令牌数topP: 核采样参数topK: 采样候选数量repetitionPenalty: 重复惩罚
环境变量
bash
# ~/.bashrc 或 ~/.zshrc
export DEEPINFRA_API_KEY="your-deepinfra-api-key"获取 API 密钥
- 访问 DeepInfra 网站
- 注册账户并登录
- 导航到 API 密钥页面
- 生成新的 API 密钥
- 将密钥保存到环境变量
使用场景配置
通用对话
yaml
models:
- name: "chat-bot"
provider: "deepinfra"
model: "meta-llama/Llama-2-13b-chat-hf"
apiKey: "${DEEPINFRA_API_KEY}"
roles: ["chat"]
defaultCompletionOptions:
temperature: 0.7
maxTokens: 2048代码生成
yaml
models:
- name: "code-gen"
provider: "deepinfra"
model: "mistralai/Mixtral-8x7B-Instruct-v0.1"
apiKey: "${DEEPINFRA_API_KEY}"
roles: ["chat", "edit"]
defaultCompletionOptions:
temperature: 0.2
maxTokens: 4096快速响应
yaml
models:
- name: "fast-response"
provider: "deepinfra"
model: "meta-llama/Llama-2-7b-chat-hf"
apiKey: "${DEEPINFRA_API_KEY}"
roles: ["autocomplete"]
defaultCompletionOptions:
temperature: 0.5
maxTokens: 1024故障排除
常见错误
- 401 Unauthorized: 检查 API 密钥是否正确
- 429 Too Many Requests: 达到速率限制
- 模型不可用: 验证模型标识符格式
- 超时错误: 网络连接问题或模型加载时间过长
调试步骤
- 验证 API 密钥格式和有效性
- 检查模型标识符是否正确
- 确认网络连接正常
- 查看 DeepInfra 状态页面
- 检查速率限制和配额
最佳实践
1. 模型选择
- 复杂任务: 使用 70B 或 Mixtral 8x7B 模型
- 一般对话: 使用 13B 模型
- 快速响应: 使用 7B 模型
2. 性能优化
- 选择合适大小的模型平衡质量和速度
- 设置合理的超时值
- 实现请求缓存
3. 成本控制
- 监控 API 使用量
- 根据任务复杂度选择模型大小
- 设置 maxTokens 限制
4. 安全性
- 使用环境变量存储 API 密钥
- 定期轮换密钥
- 监控异常使用