人与人之间对话的延迟容忍度通常为200毫秒,大模型的响应也应该同样快,此网站提供国内常见模型提供商 API 服务性能指标。
支持按条件进行过滤, 例如 Doubao-pro-32k, Qwen2-7B-Instruct vs Doubao-pro-32k。
指标定义
===========
检测机制
===========
连接预热 为了消除 HTTP 连接建立时的延迟,会先进行一次预热连接。
TTFT测量: 首次生成 token 时间的计时从发起 HTTP 请求开始,到在流式响应中接收到第一个 token 时结束。
输出token数: 输入指令统一为【重复内容```提供API搬家服务的大模型们```,禁止额外输出】,由于各类模型指令遵循能力不一样,输出内容略有差异,且 token 计算方式也不一样,此数值以单次测试结果为准。
三次尝试,择优记录: 对于每个服务提供商,会进行三次独立的推理测试,然后选择最佳的结果(以排除由于排队等造成的异常值)。