LLM 提供商
远程 LLM 提供商支持矩阵、模型建议与 AI Now / 智能体使用注意事项
选择远程 LLM 时,可以分成三层来理解:
- 套餐或订阅:你已经在用、也已经付费的账号体系
- 提供商或端点:请求最终发到哪里
- 模型:你日常真正运行的具体模型
在设置中(或 nmem CLI/TUI)配置一次之后,就可以长期使用。
Nowledge Mem 当前推荐优先使用订阅型默认路径,日常体验更稳定:
- OpenAI ChatGPT/Codex 订阅
- Kimi Code 订阅
成本优先的默认建议
日常 AI Now 使用,建议默认优先选择支持工具调用且更快的模型,不必一开始就用 SOTA。
例如:gpt-5.1-codex-mini(Codex 订阅)或 Kimi Coding Plan 相关模型。
如果你现在 token 消耗偏高(例如长期固定使用 gpt-5.3-codex),优先切换到更轻量、支持 tool use 的默认模型。
如何选择
ChatGPT/Codex 订阅
代码与通用任务都稳定,适合作为默认选择。
Kimi Code 订阅
适合编程工作流,AI Now 工具调用表现稳定。
提供商章节指南
- AI Now 与智能体工具调用稳定
- 生态兼容性强,默认选择更省心
- AI Now 工具调用体验稳定
- 日常编码使用顺畅
- 工具调用与规划质量可靠
- 适合长链路、多步骤任务
- AI Now 建议使用
deepseek-chat - 在保留工具工作流时具备较好性价比
- 多模型路由灵活
- AI Now 场景请选择支持工具调用的模型
- AI Now 与智能体场景可用
- 已有 Google AI Studio 凭据时接入顺滑
- 支持 AI Now 工具工作流
- 适合已在 xAI 生态中的团队
- AI Now 与扩展工作流均支持
- 兼容当前可用的 MiniMax 聊天模型
- AI Now 与智能体流程支持
- 区域与生态匹配度友好
- 模型运行不依赖公有云
- AI Now 建议选择支持工具调用的模型
- AI Now 支持
- 对既有 Copilot 用户迁移成本低
- 端点需实现 OpenAI 兼容 chat completions
- 工具调用能力取决于网关与模型本身
DeepSeek 快速提示
DeepSeek 在 AI Now 中请选择 deepseek-chat。
上下文窗口
每个模型对单次请求可处理的 token 数有上限。Nowledge Mem 会根据模型名称自动检测这一限制——例如 gpt-4o 默认 128k,gemini-2.0-flash 默认 1M。
你可以在设置 → 服务商 → 高级选项中手动覆盖上下文窗口大小(也可通过 nmem config provider set --context-window <tokens> 命令行设置)。
什么时候需要调整:
- 小型或微调模型(8k–32k 上下文)——设置实际限制,让 AI Now 在溢出前自动压缩对话。
- 超大上下文模型(500k–1M+)——增大窗口,让 AI Now 充分利用模型容量,避免过早压缩。
- 自定义或自托管模型——如果模型名称不匹配已知模式,默认为 128k。设置真实值以获得准确的压缩行为。
对话压缩机制
当对话接近上下文上限时,AI Now 会自动总结较早的消息并保留最近的交互。这让长对话可以持续进行而不丢失重要上下文。正确设置上下文窗口,可以确保压缩在恰当的时机触发——不会太早,也不会太晚。
自定义提供商建议
如果你使用 OpenAI 兼容自定义端点(openai_compatible)并指向 DeepSeek(api.deepseek.com),在 AI Now 与智能体场景中请将模型配置为 deepseek-chat。
自定义端点还支持新版 Responses API(/v1/responses),与传统的 Chat Completions 格式并存。添加或编辑服务商时可选择 API 格式。
Linux 无头部署配置请参考:Linux 服务器部署。