
大家好我是小林相信关注AI圈子的朋友都知道AI一天人间一年已经完全是常态了基本上模型更新换代都是以月为单位的了尽管如此今年的AI进化速度依然是超过了我的想象。前有海外的Opus4.7/Opus4.8、GPT5.5、Gemini3.1后有我们的MiniMax2.5/2.7、DeepSeek V4、GLM5.1、Qwen Max、Kimi 2.6到了五月份竞争更加激烈DeepSeek V4 永久降价、GLM、Qwen、Kimi、Minimax的热度居高不下但是其实对于开源模型深度使用的玩家们肯定会有一个痛点就是想要更强的编码能力、更大的上下文窗口、最重要是最好有多模态能力那么有没有呢有这几天看到 MiniMax 发布了最新M3 模型可以说基本上解决上面这些痛点不仅编程能力得到增强还支持 1M 超长上下文并且原生支持多模态了。它的核心优势来自自研 MiniMax Sparse Attention 架构把上下文窗口扩展到了1M 级别因此在编程任务和 Agent 场景里的表现都相当突出。综合智能、速度、价格等多维度Intelligence Index聚合多个评测 Artificial Analysis。MiniMax M3拿下全球第七开源第一。同时获得多个榜单的开源第一另外M3 也是一款原生多模态模型不仅能理解图片和视频还具备操控电脑桌面的能力。放在当下 Agent 快速发展的阶段这类综合能力自然越强越有竞争力。case1多模态能力不过说这么多我们还是眼见为实我先把我们的MiniMax之前的AI短片给M3看看让它帮忙总结下内容和评价下我们可以看到这次M3会先去尝试各种方式获取到视频比如说直链、抓取网页信息最后直接用工具下载视频下载完后它会真的可以去进行视频逐帧查看梳理内容包括我们短片的主题视频的网站数据信息等等然后也能对视频进行评价我去看了看短片的真实内容发现它并没有乱说内容是对的上而且评价上我觉得也是比较中肯到位的这很不错相比之下我平时用的比较多的DeepSeekV4就不能支持这个功能这确实是一直让我难受的一个点case23D场景据说M3对于3D场景的掌控度很强刚好最近玩gta上瘾我看看它能不能做一个罪恶都市的那种3d场景完全复刻有点工作量太大了我们就先它做个demo来看看效果创建一个单文件 Three.js HTML 页面渲染一座带有复古犯罪都市氛围的 3D 街区场景。整体风格参考 80 年代迈阿密海滨城市与开放世界动作游戏的视觉气质霓虹灯招牌、棕榈树、粉紫色夕阳天空、低矮商业街、多层公寓楼、夜店门头、汽车旅馆、涂鸦墙面和略带夸张色彩的街景元素。 场景中需要包含程序化生成的柏油道路加入车道分隔线、人行横道、路口标线和轻微磨损纹理道路两侧设置人行道、路灯、长椅、垃圾桶、电话亭、广告牌、棕榈树等街头设施。建筑部分应包含多层楼体、阳台、霓虹窗框、发光店招和重复排列的窗户纹理所有纹理均通过 CanvasTexture 程序化生成。 车辆可采用简化几何体搭建例如复古跑车、警车、出租车或厢式车并通过鲜艳车漆、车灯和基础车轮表现出街机风格。光照方面配置环境光、带阴影的方向光来模拟夕阳照射同时可在路灯、霓虹招牌和车灯处加入点光源增强夜晚街区的氛围感。 页面需集成 OrbitControls支持自由旋转、缩放和平移观察场景并限制相机俯仰角避免视角翻转或穿入地面。所有几何体、材质和纹理都必须使用 Three.js 基础几何、程序化 CanvasTexture 与代码生成不得依赖任何外部模型、图片或贴图资源。等待了一会它就把这个3d场景做出来了场景覆盖的比较全面包括天空与光、道路系统、建筑、街景设施、车辆等等最后还会给一张预览图非常贴心用户体验还是不错的我们打开浏览器看看这个3d场景。这个单文件 Three.js 街景完成度相当漂亮比如说纯几何体 CanvasTexture 拼出一整座迈阿密夕阳街区氛围很到位。风格层完全对齐提示词粉紫夕阳、霓虹招牌、棕榈树、夜店/汽车旅馆/公寓/商业街四类建筑齐全。道路系统严格落地程序化沥青、双黄线、反光点一应俱全。车辆四类齐全全用基础几何拼出街机感警车红蓝警灯闪烁、出租车顶灯棋盘格也非常有细节。整体算是个质量很扎实的 1:1 实现。后续自己去手搓个GTA感觉都不成问题了啊。然后我们再让DeepSeekV4 Pro也做个试试对比下两者的效果看看等会一会后我们看看效果这版单文件 Three.js 街景整体完成度也不错基础要求基本都落到了画面里整体能看出迈阿密 80 年代犯罪都市的方向。和 MiniMax 那版相比deepseek-v4-pro 的优势在于场景组织更直观。建筑、道路、车辆和招牌之间的关系比较清楚画面一眼能读懂。整体更像一个低多边形城市沙盘结构清晰空间层次也比较稳定。但差异也很明显。MiniMax 那版更擅长补足街区细节比如道路材质、油渍裂缝、车道线、警灯、出租车特征、不同建筑业态的区分完成度更接近提示词里的逐项落地。deepseek-v4-pro 这版更偏大体搭建氛围和主体元素都到位但细节密度没有那么高。尤其是犯罪都市感的营造上MiniMax 会主动加一些命名让场景多了故事感。deepseek-v4-pro 的画面更干净也更像通用街景霓虹、夜店、汽车旅馆这些标签有呈现但记忆点稍弱。所以这版可以算是一次合格实现提示词主体完成度没问题画面也比较稳。但如果和 MiniMax 对比M3 在细节执行、风格强化和场景叙事上更有优势deepseek-v4-pro 更像先把城市框架搭出来观感清楚但还需要更多微观细节来撑住迈阿密街区的味道。case3编程能力最近我们不是上线了个MewCode的Coding Agent项目嘛这个带同学们去做一个类Claude Code的东西而Claude Code最近新出了个推理预算叫做ultracodeUltracode是 Claude Code 的多智能体编排模式是以多智能体为单位的会话级开启后Claude 会根据任务会去编排多智能体形成一个Workflow 并行/流水线作业而非单个模型串行处理。其核心特点并行分工将任务拆解为多个子任务同时分派给不同智能体并行执行而非排队串行。流水线编排每个子任务独立流经发现→验证→汇总等多阶段阶段间无等待屏障最大化吞吐。对抗验证每个发现由多个独立怀疑者从不同视角正确性、安全性、性能等交叉质证多数票决定是否采纳。适用场景代码审计、大规模迁移、全面审查、跨模块分析等需要广度和高置信度的任务。这个模式其实是Anthropic为了给Claude Code加强Multi-Agent能力的风向标毕竟现在的LLM对于Multi-Agent的配置能力是不太理想的不稳定性太强很多时候还没有单Agent好有WorkFlow就能去加强这部分稳定性算是增强版的Coordinator说回正题那么我们的MewCode肯定也要跟上我们跟M3说我要为MewCode增加新功能 Ultracode 是多智能体编排模式是以多智能体为单位的会话级开启后LLM会根据任务会去编排多智能体形成一个Workflow 并行/流水线作业而非单个模型串行处理。其核心特点 并行分工将任务拆解为多个子任务同时分派给不同智能体并行执行而非排队串行。 流水线编排每个子任务独立流经发现→验证→汇总等多阶段阶段间无等待屏障最大化吞吐。 对抗验证每个发现由多个独立怀疑者从不同视角正确性、安全性、性能等交叉质证多数票决定是否采纳。 适用场景代码审计、大规模迁移、全面审查、跨模块分析等需要广度和高置信度的任务。 在当前分支新建一个分支m3-ultra然后在这个新分支开发开发完成后我们在mewcode输入/ultracode就能看到我们启动了ultracode模式了然后我们给个任务去让它执行全面审计当前项目的代码质量问题包括搜索所有没有错误处理的函数调用找出所有硬编码的敏感信息密码、token、密钥检查所有 TODO/FIXME/HACK 标记找出所有超过 100 行的函数每项发现都要交叉验证确认是真问题再汇总报告。这次代码质量审计任务M3 的完成度比较高。提示词要求它全面检查四类问题包括未处理错误调用、硬编码敏感信息、TODO/FIXME/HACK 标记以及超过 100 行的函数。它没有直接堆结论而是先说明审计范围排除了测试文件和脚本文件报告边界比较清楚。比较值得肯定的是交叉验证做得比较稳。比如未处理错误调用这一项它没有把所有疑似问题都算进去而是进一步区分了真实缺陷和可接受写法。像日志记录、故意忽略返回值、状态回退这类场景它会说明为什么不纳入问题清单避免了误报。敏感信息检查也比较谨慎。它说明扫描到的主要是测试占位符、fixture 或文档示例没有把这些直接判成泄露问题。这个判断符合提示词里「确认是真问题再汇总报告」的要求。TODO 标记和长函数统计也有明确结果。TODO 部分定位到了具体文件和原因长函数部分列出了路径、函数名和行数信息密度足够后续可以直接拿来排优先级。整体看M3 这次更像是在做一次真实代码审计而不是简单搜索关键词。它的优势在于边界感、误报控制和结论克制。局限在于报告偏审计摘要缺少下一步修复优先级和具体重构方案。如果继续追问它应该可以基于这些长函数和 TODO 给出更可执行的整改清单。接下来我们同样用Deepseek v4 pro来试试开发完成后我们在mewcode输入/ultracode同样能看到我们启动了ultracode模式同样让它执行上面的任务会启动workflow去执行deepseek-v4-pro 这次代码审计的完成度也比较高。它按提示词要求覆盖了错误处理缺失、硬编码敏感信息、TODO 标记和长函数四类问题并且给出了文件路径、行号、问题等级和原因说明报告结构清楚阅读起来很直观。它的优势在于结果呈现更工程化。比如错误处理缺失部分会按 High、Medium、Low 分级并把关键问题整理成表格。敏感信息也单独列出 Critical 和 Medium方便快速判断风险优先级。对于需要快速扫一眼风险分布的人来说这种报告形态很友好。但和 M3 相比deepseek-v4-pro 更偏向把扫描结果整理成审计报告交叉验证的解释没有 M3 那么充分。M3 会更明确地区分真实缺陷、可接受的 best-effort 写法以及不应纳入问题清单的误报场景。比如测试占位符、fixture、文档示例、故意忽略错误返回值这些情况M3 的判断边界更清楚也更符合确认是「真问题再汇总报告」这个要求。所以这轮对比里deepseek-v4-pro 的优势在报告呈现和风险分级适合快速浏览M3 的优势在审计判断、交叉验证和结论可信度。对于代码质量审计这种任务后者更关键。整体看M3 更像是在认真做审计deepseek-v4-pro 更像是在把扫描结果整理得更漂亮但是废话就会显得有点多的感觉阅读体验是没M3好的。最后整体来看MiniMax M3 相比 M2.7 有比较明确的提升。它的进步不只体现在参数或榜单上更体现在实际使用的完成度上。在 Agent、多模态、长任务执行和复杂上下文处理上M3 的表现更稳。任务理解更顺工具调用更自然流程推进也更连贯。相比 M2.7它已经从「能完成任务」进一步走向「能稳定、顺畅地把任务跑完」。这次升级值得肯定的地方是综合可用性更强。多模态能力让使用场景更完整也让信息理解和任务处理更直观。放到 Agent 场景里M3 在任务拆解、步骤衔接和结果交付上的稳定性也更好。对于需要高频处理信息、生成内容、分析材料或者让模型参与流程执行的用户来说M3 已经具备长期放进工作流里的价值。它的亮点不在单点爆发而在整体体验更完整、更稳定、更顺手。当然如果和 Claude Opus 4.8、ChatPT 5.5这种模型对比。虽然并不是全维度领先但作为国产旗舰模型性价比拉满依然是一个值得考虑的选择。但如果回到和 M2.7 的对比M3 的提升是实打实的。它正在把 MiniMax 从「能用」推向「更好用、更稳定、更适合长期使用」。短板还在但方向清楚节奏也不慢。放在 Agent 成为核心战场的大趋势下M3 依然是一次值得肯定的升级。