2026年6月18日Research API Open Source

DeepSeek 终于睁开了眼睛

DeepSeek 第一次给自家旗舰聊天产品加上了图像和视频理解能力。在 chat 界面上，expert 和 flash 旁边多了一个图像识别模式，距离 V4 发布才过去几天。南华早报的标题很传神：这条鲸鱼终于能看见了。

这事比表面上重要。DeepSeek 是最后一个消费产品还停留在纯文本的头部玩家。GPT、Gemini、Claude、Qwen、Kimi、GLM，别人早就长眼睛了。DeepSeek 一直靠的是便宜、开源、性价比打天下，但它一直是单手绑在背后在读世界。这个短板现在补上了。

对做 agent 的人来说，这比对普通聊天用户重要得多。computer-use、读屏、文档和图表解析、界面导航，这些全都要靠视觉。纯文本模型没法真正去驱动浏览器、没法像样地读一份 PDF。DeepSeek 上多模态，意味着市面上最便宜的那个能打的模型，现在不光能做 agent 的推理那一半，也能做感知那一半了。

目前还是面向部分用户的灰度发布，入口在 chat.deepseek.com。但方向很清楚：开源这边的性价比之王，不再是半个瞎子了。如果你一直在等一个便宜的多模态底座来搭 agent，这个等待变短了。

← 上一篇

运营日志: 2026年6月18日

Shazeer 离开谷歌，加入 OpenAI

← 返回所有文章

加载中...

DeepSeek 终于睁开了眼睛

相关文章

评论