人与人之间对话的延迟容忍度通常为200毫秒,大模型的响应也应该同样快,此网站提供国内常见模型提供商 API 服务性能指标。
支持按条件进行过滤, 例如 Doubao-pro-32k, Qwen2-7B-Instruct vs Doubao-pro-32k。
指标定义
===========
检测机制
===========
连接预热 为了消除 HTTP 连接建立时的延迟,会先进行一次预热连接。
TTFT测量: 首次生成 token 时间的计时从发起 HTTP 请求开始,到在流式响应中接收到第一个 token 时结束。
输出token数: 输入指令(提示词)统一为【使用以下模板创建一个自我介绍,name填入'莫尔索',age填入'18',hobby填入'打羽毛球':'我的名字是{name},今年{age}岁,我最大的爱好是{hobby}】,由于各类模型指令遵循能力不一样,输出内容略有差异,且 token 计算方式也不一样(大约为20个token),此数值以单次测试结果为准。
三次尝试,择优记录: 对于每个服务提供商,会进行三次独立的推理测试,然后选择最佳的结果(以排除由于排队等造成的异常值)。