2025-11-08周六12:01:59
金十整理:Kimi K2 Thinking“强”在哪里?
1. 推理测试得分:在HLE基准评测中,Kimi K2 Thinking取得44.9%的分数(GPT-5为54.9),在GPQA Diamond测试中取得85.7%的分数(GPT-5为84.5%),在AIME 2025和HMMT 2025等数学推理任务上也与GPT-5不相上下。
2. 连续工具调用:Kimi K2 Thinking可以在没有人为干扰的情况下执行多达200 - 300个连续的工具调用,在数百个步骤中进行连贯的推理。
3. 训练成本:据知情人士透露,Kimi K2 Thinking的训练成本为460万美元,相比之下DeepSeek称在其V3模型上花费了560万美元,OpenAI的GPT-3则花费了数十亿美元。
4. 运行成本:Kimi K2 Thinking的API价格是百万token输入0.15美元(缓存命中)/0.6美元(缓存未命中),每百万token输出2.5美元,比GPT-5低一个数量级(每百万token输入1.25美元、输出10美元)。
5. 超越前任开源王者MiniMax-M2:Kimi K2 Thinking在BrowseComp测试中以60.2%超过M2的44.0%,在SWE-Bench Verified测试中71.3%胜过M2的69.4%。

JIN10.COM I 一个交易工具

金十数据