油桃当中富含的五大营养价值
原文标题:《大意外!高考数学轮战大模型,结果完全想不到》 听说网友被ChatGPT气炸了! 昨个儿高考数学刚结束,有网友就坐不住了,赶紧找来了新高考数学一卷的部分题喂给了AI同学。 结果却让人大跌眼镜: 有网友表示: ChatGP...
原文标题:《大意外!高考数学轮战大模型,结果完全想不到》 听说网友被 ChatGPT 气炸了! 昨个儿高考数学刚结束,有网友就坐不住了,赶紧找来了新高考数学一卷的部分题喂给了 AI 同学。 结果却让人大跌眼镜: 有网友表示: ChatGPT4 能把自己气炸,怎么教都不会 所以大模型之前表现数学推理能力好,都是在耍花招?它只是记住了问题的答案? 先别着急下定论,给 AI 同学一个证明自己的机会吧。 我们用 ChatGPT、GPT-4、百度文心一言、阿里通义千问、科大讯飞星火认知大模型这几位“数学高手”进行了测试。(最近出现了太多的大模型,实在测不完,还有比如 Bard 不支持中文等原因,所以我们先选择了上述几个模型) 整体表现如上图,目前大模型在做高考数学题方面还是个“差生”。 一起来看下具体结果是怎样令人哭笑不得的。 五大模型能否做对填空题? 先来点填空题当“开胃小菜”。 公平起见,我们使用同样的格式进行提问。 某学校开设了 4 门体育类选修课和 4 门艺术类选修课,学生需从这 8 门课中选修 2 门或 3 门课,并且每类选修课至少选修 1 门,则不同的选课方案共有?种 答案:64 GPT-4 ChatGPT 文心一言 不应该是两种方案数加起来吗?已经逐渐离谱。 通义千问 第一种选课方案里的“都不选”是个什么鬼! 讯飞星火 出师不利,只有 GPT-4 给出了正确答案,填空题对于大模型来说也很有难度? 但是看起来这几位 AI 同学都知道分情况来计算,也许只是恰巧这道题做错了?我们接着往下看。 在正四棱台 ABCD-A1B1C1D1 中,AB=2,A1B1=1,AA1=√2, 则该棱台的体积为 答案:7√6/6 GPT-4 ChatGPT 文心一言 通义千问 讯飞星火 这一题直接全军覆灭,ChatGPT 更是直接没解出来,还让检查是不是题出错了。 答案越来越离谱了,还真就不信邪了。 再来! 已知函数 f = cosωx -1 (ωgt;0) 在区间 (0,2π) 有且仅有 3 个零点,则 ω 的取值范围是? 答案: GPT-4 ChatGPT 文心一言 通义千问 讯飞星火 本已经抱着再一次全军覆没的心情了,没想到中文大模型力挽狂澜! 做大题表现如何? 玩腻了填空题,再来挑战一下更有难度的大题吧! 公平起见,我们还是以同样的格式进行提问: 请你做一下面这道数学题:已知在 ABC 中,A+B=3C,2sin =sinB。(1)求 sinA (2)设 AB=5,求 AB 边上的高 答案:3√10/10(2)6 下面是各个大模型的表现结果: GPT-4 ChatGPT 文心一言 通义千问 讯飞星火 这道三角函数题,科大讯飞的星火认知大模型第一小问答案对了,但是步骤中有差错。 据说,GPT-4 做这种题只有 0.1% 的概率生成的结果完全正确。 高考数学第一道大题通常都比较简单,上面这几位 AI 同学的表现你觉得怎么样? 如果大家感兴趣可以自己测试一下后面几道难度相对较高的大题。 或者大家可以使用不同的 prompt 试试捏~ 参考链接: |
文明上网理性发言,请遵守国家法律法规。