【Essay】关于deepseekv3.1,个人的一点感想

"我个人睡前测试 Claude Code + Deepseek V3.1 后的个人感想。"


不能让大多数人用的智能毫无意义——这是我觉得deepseekv3.1,或者说deepseek一直走的路子在我眼中最大的意义。

说实话对于3.1本身性能我没太大感觉,也许是因为我司一直用的是最好的编码模型。不过评分不会骗人,3.1在swe基准上的评分是66%,虽然没有达到claude 3.7sonnet的70.3%——但感觉这里影响主要来源于各自使用的评测脚手架——但若是我们来算一笔账,那么事情会变得有意思起来。

claude3.7 sonnet的输入token是3刀/百万token,大概是21块钱/百万token,输出是15刀/百万token,也就是大概100块钱/百万token。并且它非常🐶的对于设置token缓存还有额外计费。

deepseekv3.1最终的定价是4块钱/百万token输入+0.5元/百万token缓存命中输入,输出是12元/百万token。

这是什么概念呢?刚才我简单地执行了为我司的通知基建加一个接口的任务,输入大约110万token,其中100w命中缓存,输出1万token。

不算缓存命中这种厂商帮你降低成本的方式,执行同样的任务,deepseekv3.1的成本是4.13元(实际算上缓存是0.63元);而claude的成本是22元,哪怕我拿0.3刀/百万token缓存命中(不算手动设置缓存时间的额外计费)算,它也需要3.1元。

deepseek直接将成本降低了五倍。

由openai掀起的这波浪潮里,所有人都在谈论agi,谈论通用人工智能。但是事实上就是:哪怕有一天真的诞生了超级智能,无法为普通人使用的智能便是毫无意义,根本必能称之为通用人工智能。

一个简单的例子就是最早的计算机eniac,它是当时世界上计算能力最强大的机器,但是它的大小占据了一整栋楼,普通人根本不可能拥有这样的一台计算机。社会照旧如往常般运行。直到技术进步、个人电脑诞生后,社会中的许多人(我们必须承认这依然不是大多数)能用得起电脑后,才有了世纪初的互联网革命;手机普及后,才有了10年代的移动互联网时代。社会是大多数人的社会,只有大多数人都能用上了,文明才有可能真正地前进。

回到我前面的例子上。简单地算笔帐我们就能知道:让你花22块钱让ai帮你完成一个小任务,这个任务还可能失败,失败后要再烧钱尝试,否则这部分钱就打水漂了,你愿意么?

如今我们走的路子是一种用计算的token换取智能的路子。假设,如果这真的是实现人工智能的愿景的路子。那么token的成本便决定了大多数人是否能够真正享受到这种智能所能带来的实惠。而我们似乎陷入了一种迷思般的狂热中,认为只要模型的智力推动到极致,一切都会迎难而解。于是资本疯狂烧热整个行业。有些人对人类的未来忧心忡忡,却也没见得他们到底有做过什么有利于人类福祉的事情;有些人号称open,三四年了后才赶鸭子上架开源了几个型号的模型。说实话我并不想神话deepseek,但是事实上就是,它确实是做到了让我觉得能够惠及到大多数人的事。

比如,在v3.1的更新日志里,我们能发现他们还尝试做了减少不必要推理token输出的尝试。说实话我没怎么看到哪家大模型厂商在model card里会着重提到这一点。

比如,claude的厂商虽然是典型的种族主义白人sb,但是他们做的claude code是真的 coding agent,是好东西——如果你想通过claude code用它,请每个月至少交140块钱换来一个每五小时使用有限额的agent,或者是为你的每个简单小任务烧token付费百来块钱——于是deepseek出了兼容claude code的api。

它干的事情那么漂亮。我觉得不夸一下真的没有道理。感觉目前国内这一块做的最好的就是deepseek以及阿里的通义千问(qwen)。他们都在性价比的路子上做出了不少努力。虽然,我也不知道我们到底处于时代的哪个阶段,也许现在的我们只是站在eniac的点上,但我相信这样的路绝对不会有错。路还很长,让我们慢慢看吧。

——以上是近日用cc(claude code)+claude的人在看到deepseekv3.1兼容了cc后回家试用了两个小任务的感想。


下面是我今晚自己测试时的随感:

【END】

Comments is loading... / 评论区正在加载中...