网站地图官方微信:
网站首页 杨林镇 湘店乡 公安县 云岩区 忍水镇 种蜂场

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | 空调现在抽真空15分钟真的还有意义吗? |

    空调抽真空的时间不仅要15分钟,而是每匹10分钟。 当然了,...

    查看详情>>
  • | 男朋友说我穿衣服太开放,难道好身材不应该显示出来吗? |

  • | 有没有人***正好撞到你擅长的领域上的? |

  • | 你们在编程时遇到过什么离谱的bug吗? |

  • | 媒体称以色列防空成本一晚近 3 亿美元,最多再撑 12 天,美方会支援吗?若无美补给结果会如何? |

  • | 使用Linux系统有什么优势,亮点在哪里? |

  • | 顺产后的你们感觉夫妻生活还和以前一样吗? |

  • | 年纪轻轻为什么会得腰肌劳损? |

  • | 华为官宣鸿蒙 HarmonyOS 5.1 将于 7 月开启升级,对此你怎么看?会选择第一时间升级吗? |

  • | 网传广东怀集洪水后赵一鸣超市被哄抢,县***回应相关单位正在核实,若属实哄抢者该承担哪些法律责任? |

  • | 空战的时候可不可以先击落预警机? |

  • 前段时间出门旅行了一周,回来后我老婆反映刷抖音网络卡,问我怎...

    2025-06-21
  • 现在都2025年了,AI写代码已经很智能了,受影响最大的就是...

    2025-06-21
  • 正常,iOS7的时候也说丑,甚至比现在更甚。 但是...

    2025-06-21
  • 概览自从 SwiftUI 横空出世那天起,小伙伴们都感受到了...

    2025-06-21

关注我们

添加微信好友,关注最新动态