新模型家族 Ornith-1.0 闪亮登场 文章目录一前言二Ornith-1.02.19B Dense2.235B MOE2.3397B三我的测试3.1llama-bench3.2程序实测四总结一前言之前测试了大概30多个LLM模型都是本地16GB显存能跑的范围当然混杂着些些超标模型需要大量内存。逐渐绝望的发现在看上去不复杂的工具调用场景里只有Qwen和Gemma家族较稳定能用。即使是这两族20-30多B参数的MOE模型也会偶尔在某些场景下稳定出错。Dense模型好些但只是几率低依然会出错。各种基于它们后训练的衍生模型几乎都有顾此失彼的特点有些无限循环有些失去了工具能力。好些的和原版模型基本都会犯同样的错。偶尔有逻辑提升的但不明显。二Ornith-1.0然后昨天突然发现一个新的模型Ornith-1.0。它们是 DeepReinforce 开发的自进化开源模型家族。基于 Qwen 3.5 或 Gemma 构建在 Terminal-Bench 2.1、SWE-Bench Verified、SWE-Bench Pro、NL2Repo 和 ClawEval 等编程基准测试中达到了同尺寸开源模型中的最优性能。模型支持工具调用可输出结构化的 … 推理轨迹并针对终端型编程智能体及智能体工作流进行了优化。反正都测这么多了顺手又试了试然后惊呆了。9B和35B居然都没有出错严格说9B需要开推理且偶尔会犯Qwen类似的错而35B确实没错过。我疑惑的把Qwen3.5/3.6又重新在同样场景下跑了几次。确认不是自己看花眼了确实它们没有看错比如车次信息能理解用户意图回答没有幻觉编造。2.19B Dense基于QWEN3.5-9B官方放了GGUF版本对比数据惊艳每组都有越级对比呢家族中最轻量级的成员专为高效的单GPU部署而设计。2.235B MOE基于QWEN3.5-35B的吧官方放了GGUF版本对比数据惊艳每组都有越级对比呢家族中比较轻量级(?)的成员专为高效的单GPU部署而设计。2.3397B基于QWEN3.5-397B的吧官方暂时没有放GGUF版本好像暂时也没人量化呢。原版位置。对比数据惊艳都打超大规模了虽然全面被Claude Opus 4.8超过但这个对比真的无敌这单卡总跑不起来了吧官方居然简介都没改。三我的测试3.1llama-bench9B.\llama-bench-mD:\AI\llama.cpp\models\Ornith-1.0-9b-Q8_0.gguf-ngl-1-faon-ctkq8_0-ctvq8_0 ggml_cuda_init: found1CUDA devices(Total VRAM:16379MiB): Device0: NVIDIA GeForce RTX4060Ti, compute capability8.9, VMM: yes, VRAM:16379MiB|model|size|params|backend|ngl|type_k|type_v|fa|test|t/s||--------------|-------:|-----:|-------|--:|-----:|-----:|-:|-----:|--------------:||qwen35 9B Q8_0|8.86GiB|8.95B|CUDA|-1|q8_0|q8_0|1|pp512|3013.48±38.72||qwen35 9B Q8_0|8.86GiB|8.95B|CUDA|-1|q8_0|q8_0|1|tg128|30.06±0.06|build: beac5309f(9802)35B:\llama-bench-mD:\AI\llama.cpp\models\Ornith-1.0-35B-IQ3xxs.gguf-ngl-1-faon-ctkq8_0-ctvq8_0 ggml_cuda_init: found1CUDA devices(Total VRAM:16379MiB): Device0: NVIDIA GeForce RTX4060Ti, compute capability8.9, VMM: yes, VRAM:16379MiB|model|size|params|backend|ngl|type_k|type_v|fa|test|t/s||--------------------------------------|--------:|------:|-------|--:|-----:|-----:|--:|----:|--------------:||qwen35moe 35B.A3B IQ3_XXS -3.0625bpw|13.84GiB|34.66B|CUDA|-1|q8_0|q8_0|1|pp512|2539.13±52.62||qwen35moe 35B.A3B IQ3_XXS -3.0625bpw|13.84GiB|34.66B|CUDA|-1|q8_0|q8_0|1|tg128|94.50±0.33|build: beac5309f(9802)3.2程序实测其它模型的情况参考之前测试的大概30多个LLM模型的文章吧这里只用35B为例子。具体测试条件也参考之前的文章吧。然后小助手项目在这里有兴趣可以自己试试。我最开始用的是官方的Q4_K_M然后逐渐缩小到Q3_XXS依然可以完成任务。按照自己的经验模型不能小过Q3所以这是最终的结果。下面的日志场景是最快车次其实2等座没票了。其它模型容易理解成有票看错商务/一等/二等。或者给出的不是最快车次或者弄错车次的内部编号无法继续下去。而它每次都能正确回答虽然有时不尽人意但答案没错过。还有一些场景比如查临近的日期全部没票等情况。它也每次都回答正确并给出相应的提示不像原版Qwen和Gemma偶尔会说错。要知道Gemma和Qwen算是最优秀的模型了其它20多个模型更加一言难尽。参考手动查询opencli 12306 trains 成都 北京 --date 2026-06-27 --limit 100 -f md结果codefrom_stationto_stationstart_timearrive_timedurationavailablebusiness_seatfirst_seatsecond_seatsoft_sleeperhard_sleeperhard_seatno_seattrain_noG322成都东北京西06:5514:2607:31true6有无有760000G32200K546成都西北京西07:0516:4833:43true8无无有760000K5460VK546成都西北京07:0517:4334:38true8无无有760000K5460VD1046成都东清河07:1118:5311:42true有有有76000D104603T8成都西北京西07:5812:4628:48true无无有有76000000T80FG1013成都东北京西08:2919:0710:38true920有有76000G101300G1308成都东北京丰台10:1620:2210:06true811无有77000G130801G970成都东北京西10:5620:2009:24true10有无有770000G97000G1592成都东北京西11:2520:3009:05true75无有76000G159201D50成都东北京西13:0110:0621:05true无131无7600000D5001D118成都东北京丰台13:3810:4421:06true无有无有760000D11800G324成都东北京西15:0022:3207:32true3有有有760000G32400D996成都东北京丰台19:2806:4711:19true无有1760000D99600D998成都东北京丰台19:3306:5511:22true无有无780000D99800K118成都西北京西21:1205:2632:14true无13有760000K1180K程序查询的日志(venv)PS D:\AI\OpenCliWebpython .\src\open_cli.py帮我查查明天从成都到北京的火车。找到有二等座、最快的车次。查询那趟车的票价和停站详情。[2026-06-2623:04:38.590][Service]init...[2026-06-2623:04:38.998][Service]node.js version: v20.20.2408ms[2026-06-2623:04:39.064][Service]opencli version:1.8.466ms[2026-06-2623:04:39.490][Service]opencli ✓ Daemon: OK[2026-06-2623:04:39.493][Service]opencli ✓ Extension: OK[2026-06-2623:04:39.493][Service]opencli ✓ Connectivity: OK[2026-06-2623:04:39.493][Service]opencli doctor passed[2026-06-2623:04:39.495][Question]帮我查查明天从成都到北京的火车。找到有二等座、最快的车次。查询那趟车的票价和停站详情。[2026-06-2623:04:39.495][Service]LLM provider: http://127.0.0.1:8999/v1[2026-06-2623:04:39.826][开始]收到用户指令并开始处理……331ms[2026-06-2623:04:42.285][工具](1.1)site_help →{site:12306}2.46s[2026-06-2623:04:42.615][工具](1.1)site_help ←(3859){command_count:9,commands:[{name:login,usage:opencli 12306 login ,siteSession:pers...330ms[2026-06-2623:04:45.639][工具](2.1)cmd_exec →{full_cmd:12306 trains 成都 北京 --date 2026-06-27,result_limit:100}3.02s[2026-06-2623:04:46.446][工具](2.1)cmd_exec ←(5239)[{train_no:760000G32200,code:G322,from_station:成都东,to_station:北京西,from_code:ICW...807ms[2026-06-2623:04:49.888]Streaming...3.44s根据查询结果明天2026-06-27从成都到北京的火车中**有二等座且最快的车次是 G324**全程仅需 **7小时32分钟**。 现在查询该车的票价和停站详情[2026-06-2623:04:51.948][工具](3.1)cmd_exec →{full_cmd:12306 price 760000G32400 --from 成都东 --to 北京西 --date 2026-06-27}2.06s[2026-06-2623:04:52.809][工具](3.1)cmd_exec ←(389)[{seat_code:A9,seat_name:商务座,price:2699.5,currency:CNY},{seat_code:P,seat_name:...860ms[2026-06-2623:04:52.809][工具](3.2)cmd_exec →{full_cmd:12306 stations 成都东}[2026-06-2623:04:53.323][工具](3.2)cmd_exec ←(86)[{name:成都东,code:ICW,pinyin:chengdudong,abbr:cdd,city:成都}]514ms[2026-06-2623:04:57.824][工具](4.1)cmd_exec →{full_cmd:12306 train 760000G32400 --from 成都东 --to 北京西 --date 2026-06-27}4.50s[2026-06-2623:04:58.473][工具](4.1)cmd_exec ←(684)[{station_no:01,station_name:成都东,arrive_time:,start_time:15:00,stopover_time:},{s...648ms以下是查询结果汇总 ---## 最快有二等座车次G324|项目|详情||------|------||**车次**|G324||**出发站**|成都东||**到达站**|北京西||**出发时间**|15:00||**到达时间**|22:32||**全程耗时**|**7小时32分钟**|---### 票价二等座|座位类型|票价||----------|------||**二等座**|**¥877.5**||一等座|¥1,403.5||特等座|¥1,598.5||商务座|¥2,699.5|---### 停站详情|序号|车站|到达|出发|停留||------|------|------|------|------||01|成都东|—|**15:00**|始发||02|绵阳|15:37|15:39|2分钟||03|西安北|18:16|18:22|6分钟||04|郑州东|20:10|20:13|3分钟||05|石家庄|21:29|21:32|3分钟||06|北京西|**22:32**|—|终到|G324 是明天成都到北京最快且有二等座的车次全程仅7小时32分二等座票价 **¥877.5**。[2026-06-2623:05:08.145]Answer completed9.67s[2026-06-2623:05:08.145]Retrieval:3162.32ms, Answers:9819.57ms, Total:28317.44ms[2026-06-2623:05:08.145]Prompt Tokens:26242, Completion Tokens:769,Ornith-1.0-35B-IQ3xxs78.31tokens/s[2026-06-2623:05:08.145]Alldone✅四总结不容易啊后训练模型俺试过太多了。无论是AgentCoding… 取向。或者是Deepseek V4Mythos… 蒸馏。通常都会顾此失彼带来一些其它问题包括HF上最热门的非原版模型。而且每个模型出来各种公众号视频啊都有吹捧的。夸大其词看太多了不得不自己逐个去测试结果浪费了很多时间也没选出好的本地模型。这个着实惊艳了然后我也试了用在企业知识库上不算完美总结时列举漏了一条。但企业知识库这个更加主观不太容易看出好坏只能说整体表现很好。关键它9B的也能用啊需要打开推理模式。比谷歌的QAT靠谱了不少。模型刚出不久。开心的同时值得继续观察。