这是苍何的第 376 篇原创!

大家好,我是苍何。

北京时间 5 月 23 日凌晨,Anthropic 在旧金山发布最新一代大模型 Claude4。

昨天和很多创业和投资大佬吃饭聊天的时候还在说这个事,没想到这么快就发布了。

图片

这次一共发布了 2 个版本,分别是 Claude Opus 4 和 Claude Sonnet 4。

据 Anthropic 官方说,Claude Opus 4 是他们迄今为止最强大的模型,也是世界上最好的编码模型。

Claude Sonnet 4 比其前代产品有了重大升级,提供了卓越的编码和推理能力。

图片

Claude Opus 4 和 Sonnet 4 是混合模型,提供两种模式:近乎即时的响应和用于更深入推理的扩展思考。

说人话就是模型响应速度更快,能推理思考。还能自由切换 thinking 和工具调用。

目前,Claude 4 模型在 SWE-bench Verified 上均处于领先地位。

图片

SWE-bench Verified 稍微解释一下,你可以理解成他是测大模型能力的竞技场,还加了专业人员进行人肉 check。

相对来说,这个测试还有点含金量的,所以理论上来说,Claude4 应该不会让人失望。

从我一个程序员的角度来看,大版本往往都会有些东西的,从 Claude 3.5 到 Claude 3.7 再到 4.0,用脚指头想想应该不简单🐶。

其实看完发布会,有几点感受,一是大模型的记忆能力依旧是发力点,二是 Agent 长时间执行能力和上下文记忆理解能力是突破点。

现在已经可以直接在 Claude 官网体验新的 Claude Sonnet 4 模型,所有免费用户也能使用,不过有每天的额度限制。

Claude Opus 4 的话就要 pro 会员才可体验了。

图片

我不敢充会员,主要是怕被封,毕竟我已经损失了 10 个号了。

Claude 的安全策略一直都是如此的严格,真实爱 ta又恨 ta。

现在,在很多的 IDE 中也可以直接使用最新的 claude 4,比如 Cursor 中就能直接用。

图片

我试了下,目前,有点儿卡。建议错峰。

图片

而且现在新的 API,支持 MCP,以及能缓存一小时记忆的能力。

API 定价上,Opus 4 每百万 token 输入/输出价格为 15/75 美元,Sonnet 4 为 3/15 美元。

这个价格,嗯,我不发表言论,哈哈哈。

我在官网上用 Claude Sonnet 4 做了几个 case,来测试了下模型的能力。

我先一句话让他帮我做一个俄罗斯方块游戏。

wxv_3999284495013642248

你别说,这个效果还真的可以,整体我觉得比 Claude3.7 要强的,无论是速度上,还是审美上。

第二个 case 是让他做一个开心消消乐的游戏,也是一句话:

图片

只见他一上来就一顿输出,没一会功夫,一个开心消消乐游戏就做好了。

wxv_3999285009788960773

对于我这种无聊人士来说,够我玩了,当然还可以再优化的更像一些,但这都是之后的事了。

第三个 case,我让他帮我写了一个设计公司官网,在臧师傅的提示词上做了修改后的提示词如下:

我是一家储能电池的公司,你为我设计一个官网,要求设计感足,体现科技感,有交互效果,有图片预览。

1、运用高亮色自身透明度渐变制造科技感,但是不同高亮色不要互相渐变

2、模仿 apple 官网的动效,向下滚动鼠标配合动效

3、数据可以引用在线的图表组件,样式需要跟主题一致

4、使用 Framer Motion (通过CDN引入)

5、使用HTML5、TailwindCSS 3.0+(通过CDN引入)和必要的JavaScript

6、使用专业图标库如Font Awesome或Material Icons(通过CDN引入)

这是首页图:

图片

录了个屏,效果如下:

wxv_3999285669871665165

上面的提示词显得过于专业了,所以我又用一个朴实无华的提示词做了下测试,直接让他模仿宁德时代官网来设计。

图片

感受下来,还是要提示词做限定,效果会更惊艳一些。

总体来看,速度上和理解能力上有一些进步,之后关于更多 Claude 4 模型能力的探索,我会继续看看,也欢迎您持续关注。

好啦,以上全文 3591 字,12 张图,如果这篇文章对你有用,可否点个关注,给我个三连击:点赞、转发和在看。若可以再给我加个⭐️。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐