远程 LLM 提供商支持矩阵、模型建议与 AI Now / 智能体使用注意事项

选择远程 LLM 时，可以分成三层来理解：

套餐或订阅：你已经在用、也已经付费的账号体系
提供商或端点：请求最终发到哪里
模型：你日常真正运行的具体模型

在设置中（或 nmem CLI/TUI）配置一次之后，就可以长期使用。

Nowledge Mem 当前推荐优先使用订阅型默认路径，日常体验更稳定：

OpenAI ChatGPT/Codex 订阅
Kimi Code 订阅

成本优先的默认建议

日常 AI Now 使用，建议默认优先选择支持工具调用且更快的模型，不必一开始就用 SOTA。
例如：gpt-5.1-codex-mini（Codex 订阅）或 Kimi Coding Plan 相关模型。

如果你现在 token 消耗偏高（例如长期固定使用 gpt-5.3-codex），优先切换到更轻量、支持 tool use 的默认模型。

如何选择

ChatGPT/Codex 订阅

代码与通用任务都稳定，适合作为默认选择。

Kimi Code 订阅

适合编程工作流，AI Now 工具调用表现稳定。

提供商章节指南

OpenAI（ChatGPT/Codex）

适合：编程 + 日常助手主力场景。

AI Now 与智能体工具调用稳定
生态兼容性强，默认选择更省心

Kimi / Moonshot

适合：Kimi Code 订阅与编码工作流。

AI Now 工具调用体验稳定
日常编码使用顺畅

Anthropic Claude

适合：看重自主工作流稳定性的用户。

工具调用与规划质量可靠
适合长链路、多步骤任务

DeepSeek

适合：关注成本/性能平衡的场景。

AI Now 建议使用 deepseek-chat
在保留工具工作流时具备较好性价比

OpenRouter

适合：一个端点接入多模型。

多模型路由灵活
AI Now 场景请选择支持工具调用的模型

Gemini

适合：已在 Google 生态中的用户。

AI Now 与智能体场景可用
已有 Google AI Studio 凭据时接入顺滑

xAI

适合：Grok 用户。

支持 AI Now 工具工作流
适合已在 xAI 生态中的团队

MiniMax

适合：已在 MiniMax 生态中的用户。

AI Now 与扩展工作流均支持
兼容当前可用的 MiniMax 聊天模型

Z.AI

适合：智谱生态用户。

AI Now 与智能体流程支持
区域与生态匹配度友好

Ollama

适合：本地优先 / 自托管用户。

模型运行不依赖公有云
AI Now 建议选择支持工具调用的模型

GitHub Copilot

适合：已有 Copilot 订阅体系的团队。

AI Now 支持
对既有 Copilot 用户迁移成本低

API

OpenAI 兼容自定义端点

适合：私有网关、自托管、企业代理。

端点需实现 OpenAI 兼容 chat completions
工具调用能力取决于网关与模型本身

DeepSeek 快速提示

DeepSeek 在 AI Now 中请选择 deepseek-chat。

上下文窗口

每个模型对单次请求可处理的 token 数有上限。Nowledge Mem 会根据模型名称自动检测这一限制——例如 gpt-4o 默认 128k，gemini-2.0-flash 默认 1M。

你可以在设置 → 服务商 → 高级选项中手动覆盖上下文窗口大小（也可通过 nmem config provider set --context-window <tokens> 命令行设置）。

什么时候需要调整：

小型或微调模型（8k–32k 上下文）——设置实际限制，让 AI Now 在溢出前自动压缩对话。
超大上下文模型（500k–1M+）——增大窗口，让 AI Now 充分利用模型容量，避免过早压缩。
自定义或自托管模型——如果模型名称不匹配已知模式，默认为 128k。设置真实值以获得准确的压缩行为。

对话压缩机制

当对话接近上下文上限时，AI Now 会自动总结较早的消息并保留最近的交互。这让长对话可以持续进行而不丢失重要上下文。正确设置上下文窗口，可以确保压缩在恰当的时机触发——不会太早，也不会太晚。

自定义提供商建议

如果你使用 OpenAI 兼容自定义端点（openai_compatible）并指向 DeepSeek（api.deepseek.com），在 AI Now 与智能体场景中请将模型配置为 deepseek-chat。

自定义端点还支持新版 Responses API（/v1/responses），与传统的 Chat Completions 格式并存。添加或编辑服务商时可选择 API 格式。

Linux 无头部署配置请参考：Linux 服务器部署。

选择远程 LLM 时，可以分成三层来理解：

套餐或订阅：你已经在用、也已经付费的账号体系
提供商或端点：请求最终发到哪里
模型：你日常真正运行的具体模型

在设置中（或 nmem CLI/TUI）配置一次之后，就可以长期使用。

Nowledge Mem 当前推荐优先使用订阅型默认路径，日常体验更稳定：

OpenAI ChatGPT/Codex 订阅
Kimi Code 订阅

成本优先的默认建议

如果你现在 token 消耗偏高（例如长期固定使用 gpt-5.3-codex），优先切换到更轻量、支持 tool use 的默认模型。

如何选择

ChatGPT/Codex 订阅

代码与通用任务都稳定，适合作为默认选择。

Kimi Code 订阅

适合编程工作流，AI Now 工具调用表现稳定。

提供商章节指南

OpenAI（ChatGPT/Codex）

适合：编程 + 日常助手主力场景。

AI Now 与智能体工具调用稳定
生态兼容性强，默认选择更省心

Kimi / Moonshot

适合：Kimi Code 订阅与编码工作流。

AI Now 工具调用体验稳定
日常编码使用顺畅

Anthropic Claude

适合：看重自主工作流稳定性的用户。

工具调用与规划质量可靠
适合长链路、多步骤任务

DeepSeek

适合：关注成本/性能平衡的场景。

AI Now 建议使用 deepseek-chat
在保留工具工作流时具备较好性价比

OpenRouter

适合：一个端点接入多模型。

多模型路由灵活
AI Now 场景请选择支持工具调用的模型

Gemini

适合：已在 Google 生态中的用户。

AI Now 与智能体场景可用
已有 Google AI Studio 凭据时接入顺滑

xAI

适合：Grok 用户。

支持 AI Now 工具工作流
适合已在 xAI 生态中的团队

MiniMax

适合：已在 MiniMax 生态中的用户。

AI Now 与扩展工作流均支持
兼容当前可用的 MiniMax 聊天模型

Z.AI

适合：智谱生态用户。

AI Now 与智能体流程支持
区域与生态匹配度友好

Ollama

适合：本地优先 / 自托管用户。

模型运行不依赖公有云
AI Now 建议选择支持工具调用的模型

GitHub Copilot

适合：已有 Copilot 订阅体系的团队。

AI Now 支持
对既有 Copilot 用户迁移成本低

API

OpenAI 兼容自定义端点

适合：私有网关、自托管、企业代理。

端点需实现 OpenAI 兼容 chat completions
工具调用能力取决于网关与模型本身

DeepSeek 快速提示

DeepSeek 在 AI Now 中请选择 deepseek-chat。

上下文窗口

每个模型对单次请求可处理的 token 数有上限。Nowledge Mem 会根据模型名称自动检测这一限制——例如 gpt-4o 默认 128k，gemini-2.0-flash 默认 1M。

你可以在设置 → 服务商 → 高级选项中手动覆盖上下文窗口大小（也可通过 nmem config provider set --context-window <tokens> 命令行设置）。

什么时候需要调整：

小型或微调模型（8k–32k 上下文）——设置实际限制，让 AI Now 在溢出前自动压缩对话。
超大上下文模型（500k–1M+）——增大窗口，让 AI Now 充分利用模型容量，避免过早压缩。
自定义或自托管模型——如果模型名称不匹配已知模式，默认为 128k。设置真实值以获得准确的压缩行为。

对话压缩机制

自定义提供商建议

如果你使用 OpenAI 兼容自定义端点（openai_compatible）并指向 DeepSeek（api.deepseek.com），在 AI Now 与智能体场景中请将模型配置为 deepseek-chat。

自定义端点还支持新版 Responses API（/v1/responses），与传统的 Chat Completions 格式并存。添加或编辑服务商时可选择 API 格式。

Linux 无头部署配置请参考：Linux 服务器部署。

LLM 提供商

如何选择

ChatGPT/Codex 订阅

Kimi Code 订阅

提供商章节指南

上下文窗口

自定义提供商建议

On this page

LLM 提供商

如何选择

ChatGPT/Codex 订阅

Kimi Code 订阅

提供商章节指南

上下文窗口

自定义提供商建议

On this page