TTFT

TTFT(Time To First Token):从你发出请求开始,到模型返回第一个 token(也就是你看到第一点/第一个字)所花的时间。

为什么重要

  • 体感决定一切:TTFT 越小,用户越觉得“快、顺、不卡”,心流不容易断。
  • 受上下文强影响:上下文越长(历史对话、检索资料、工具描述越多),TTFT 通常越大。

常见优化方向(工程视角)

  • 控制上下文长度(裁剪历史、压缩总结、只注入高相关证据)
  • 选择更快的模型/更近的区域部署(如果可选)
  • 开启/优化流式输出(见 SSE