跳转到主要内容

使用virtual quota fallback提供商

virtual quota fallback提供商是一个强大的元提供商,允许你配置和管理多个 API 提供商,并根据预定义的使用限制和可用性在它们之间自动切换。这确保你可以最大化利用免费层级服务,并在某个提供商达到配额或遇到错误时无缝回退到其他提供商,从而保持对 AI 模型的持续访问。

对于那些利用多个 LLM 服务并希望智能编排它们的用户来说,这是完美的解决方案——例如,在自动切换到按需付费服务之前,先使用免费提供商直到其限制。

工作原理

virtual quota fallback提供商不直接连接到 LLM 服务。相反,它充当你其他已配置提供商档案的管理者。

  • 优先级列表: 你创建一个现有提供商档案的优先级列表。列表顶部的提供商将首先被使用。
  • 使用跟踪: 你可以根据每分钟、每小时或每天的令牌数或请求数为每个提供商设置自定义限制。Kilo Code 会根据这些限制跟踪每个提供商的使用情况。
  • 自动回退: 当当前活动的提供商超过其定义的限制之一或返回 API 错误时,系统会自动暂时停用它,并切换到列表中的下一个可用提供商。
  • 通知: 每当发生自动切换时,你将在 VS Code 中收到一条信息消息,告知你当前活动的提供商。

先决条件

在配置此提供商之前,你必须已经在 Kilo Code 中配置了至少一个其他 API 提供商作为单独的档案。只有在有其他档案可供管理时,此提供商才有用。

在 Kilo Code 中配置

  1. 打开 Kilo Code 设置: 点击 Kilo Code 面板中的齿轮图标 ()。
  2. 选择提供商: 从 "API 提供商" 下拉菜单中选择 "virtual quota fallback"。这将打开其专用配置面板。
Kilo Code 设置中的virtual quota fallback下拉选择
  1. 添加提供商档案:

    • 在配置面板中,点击 "添加档案" 按钮在列表中创建一个新条目。
    • 点击新条目上的下拉菜单,选择你其他已预配置的提供商档案之一(例如,"OpenAI"、"Chutes AI 免费层级")。
  2. 设置使用限制(可选):

    • 添加配置后,你可以指定使用限制。如果将这些字段留空,则不会对该特定指标强制执行任何限制。
    • 每分钟/小时/天的令牌数: 根据处理的令牌总数(输入 + 输出)限制使用量。
    • 每分钟/小时/天的请求数: 限制发出的 API 调用总数。
  3. 排列你的提供商:

    • 档案的顺序至关重要,因为它定义了回退优先级。顶部的提供商将首先被使用。
    • 使用每个档案旁边的 上下箭头 来更改其在列表中的位置。
  4. 添加更多提供商: 重复步骤 3-5 来构建你的完整回退链。你可以添加任意数量的已配置档案。

Kilo Code 设置中的virtual quota fallback配置

使用监控

配置屏幕还充当监控列表中每个提供商当前使用情况的仪表板。

  • 你可以看到最后一分钟、一小时和一天内使用的令牌数和请求数。
  • 如果需要重置这些计数器,请点击 "清除使用数据" 按钮。这将把所有统计数据重置为零,并立即重新启用因超出限制而暂时禁用的任何提供商。

使用案例示例

假设你配置了两个档案:

  1. Chutes AI 免费: 一个免费层级提供商,限制为每小时 5,000 个令牌。
  2. OpenAI 付费: 你个人的按需付费 OpenAI 账户。

配置:

  • 将 "Chutes AI 免费" 放在列表的第一位。
  • 将其 "每小时令牌数" 限制设置为 5000
  • 将 "OpenAI 付费" 放在列表的第二位,不定义任何限制。

结果: Kilo Code 将把所有请求发送到 Chutes AI。一旦你在一小时内使用的令牌数超过 5,000 个,它将自动切换到你的 OpenAI 账户。当配额窗口在下一小时重置时,系统将切换回 Chutes AI。

提示和注意事项

  • 优先级是关键: 始终仔细检查你的档案顺序。预期的主要或免费层级提供商应位于顶部。
  • 基于错误的回退: 如果你没有为档案设置任何限制,则只有在提供商的 API 返回错误时才会发生回退(例如,服务本身的硬性速率限制、网络问题或无效的 API 密钥)。
  • 无嵌套: 你不能在此提供商的配置中选择另一个 "virtual quota fallback" 档案,因为这会创建循环依赖。