网站地图官方微信:
网站首页 高疃镇 谢集镇 淇县 靳堂乡 卢氏县 平窝乡

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | RUST的WEB开发真的能用于生产吗? |

    搞Web最需要的是快,出活。 本来搞Web的又没有性能瓶颈...

    查看详情>>
  • | 如何评价网传鸿蒙 PC 成功裸机启动 Windows ARM? |

  • | 评价一下Proxmox VE与ESXi的优劣? |

  • | 自己拥有一台服务器可以做哪些很酷的事情? |

  • | 女生什么状态才体现出她已经爱上你了? |

  • | 为什么游戏中,中国跟欧洲的时延这么大,是否是海底光缆距离过长的原因? |

  • | 如何评价b站数码区up主 “大狸子切切里”? |

  • | 为什么很多知乎的回答推崇日本式的市区、市郊通勤铁路? |

  • | 哪张照片让你觉得刘亦菲美得不可方物? |

  • | rust 语法噪音这么多, 能写复杂项目吗? |

  • | 苹果前首席设计师 Jony Ive 离职的原因是什么? |

  • 啧……要命,这题找得我三观尽毁。 先说出处吧,这是个叫 花...

    2025-06-24
  • 哈哈,首先我不是布道师,算是 go 语言的爱好者吧。 😄 自...

    2025-06-24
  • 红帽9是Fedora 1和RHEL3的前代操作系统,发布于2...

    2025-06-25
  • 会的,6月8日那一天我在楼梯道那边跑,没注意看,小妹妹直接磕...

    2025-06-24

关注我们

添加微信好友,关注最新动态