VideoSeek 本地离线图、文检索视频桌面软件,踩坑记录! 很久之前我发过一篇VideoSeek的初版介绍——那时候它还是「抽帧 CLIP 向量索引能把截图对应到本地视频」的小工具。那篇文章里的动机我至今还记得领导甩来一张截图让我在硬盘里找原片网上搜不到记忆也靠不住只能自己写。那个痛点没变。变的是VideoSeek 不再只是「搜一下试试」而是慢慢长成了我日常真的会打开的本地视频素材库。这篇不重写旧文只聊聊从「能跑」到「能长期用」走了那些路。一、初版解决了什么最早那版核心就四件事文本描述 → 找相似画面上传图片 → 以图搜视频维护多个本地视频目录命中后预览片段很直白FFmpeg 抽帧 → ONNX 跑 CLIP → 建向量索引 → 相似度搜索。当时能跑、能演示、能救命就已经值了。二、用着用着问题也来了自己用 给朋友用之后现实很快教育人「搜到了」不够还要「搜得准、搜得快、库大了也不崩」。陆续遇到的真实需求库里有几千个文件只想在某几个文件夹里搜领导给的是裁剪过的截图不是整帧普通图搜经常飘同一套素材有人想用中文 CLIP有人更习惯SigLIP索引更新到一半被打断不能悄悄坏掉视频改名、换文件夹不想整片重算向量删库之后磁盘占用还在得真的释放空间除了自己点 UI还想让Cursor / 其它 Agent调本地搜索这些都不是「再加一个按钮」能糊弄过去的得动架构。三、怎么解决这些问题1. 索引与搜索从 FAISS 实验栈到 Lance 主线早期为了快向量检索走FAISS 全局索引那条路写 demo 很爽库一大、要分库搜、要删库回收维护成本就上来了。现在本地搜索主线已经收敛到Lance 向量库同步视频库 → 抽帧、embedding、直接写 Lance搜索 → 从 Lance 加载在内存里做检索删库 → 删向量行 压缩存储占用会下来对用户来说界面还是「同步 / 搜索」对开发者来说少了很多「全局索引要不要重建」的心智负担。老用户从旧版升级时应用内会自动做迁移不用手搓。2. 搜索从「全库一把梭」到「可控、可精、可预设」现在搜索页比初版多了不少「真干活」的能力搜索范围全库 / 指定库 / 指定视频frame / chunk按帧命中或按语义时间段聚合以图搜 截图定位裁剪截图可以走定位链路不是简单整图相似度搜索预设常用条件存成 preset下次一键复用「毫秒级搜索」在中小库上依然成立库特别大时先收窄范围往往比硬全库扫更实用——这也是后面做 scope 的原因。3. 模型从「一套 CLIP 走天下」到多 Profile不再绑死单一 CLIP 了。现在可以在设置里切换不同模型 Profile例如 CLIP、SigLIP、Chinese-CLIP 等各自有独立的向量资产目录。这意味着你可以按素材类型选更合适的 embedding换模型 ≠ 覆盖旧库各 profile 各管各的4. 视频库从「能加文件夹」到「能长期维护」库管理也成熟不少库内改名 / 搬家会尽量对齐路径不重算向量内容没变就不浪费算力同步失败有本次问题视频列表不用翻日志猜删库后会清理对应向量并压缩不是删了 UI 条目但磁盘不动设置里可以看本地向量索引详情帧数、块数、占用估算这些不 flashy但决定了你是偶尔玩一下还是真的把几百 G 素材扔进去。5. 预览从「导出小段看看」到「搜完就能播」命中结果现在更适合「确认是不是这一镜」预览走VLC 直接播源片到点自动停导出片段仍走FFmpeg从原片裁 mp4搜 → 看 → 导出链路更顺了。6. 新长出来的两条「可选胳膊」核心仍是本地库 语义搜索 预览导出。在此基础上又加了两个不挡主链路的扩展理解笔录对已同步视频按需生成 chunk 级 YOLO 检测 画面描述 整片总结。要配描述服务不做也能正常搜。本机 Agent API可选在127.0.0.1开 HTTP 接口让 Cursor 等外部 Agent 调搜索、列库、导出、读/生成理解笔录。详见仓库docs/for-agents.md适合「人在 UI 里看Agent 在后台帮找片」的玩法。四、现在 VideoSeek 是什么一句话本地视频素材库用文字或截图找片段时间预览后导出片段数据在本地不上传你的视频。适合硬盘 / NAS 堆了大量自己拍的、网上搜不到的素材剪辑前粗定位再进 PR / 达芬奇精剪想本地跑模型又 optionally 让 Agent 帮忙调搜索和初版比灵魂没变语义找画面骨架更结实Lance、多模型、范围搜索、库维护、Agent。五、技术栈PySide6— 桌面 UIONNX Runtime— 多 provider 视觉/文本 embeddingLance— 本地向量存储与检索主路径FFmpeg— 抽帧、导出VLC— 预览播放实现细节、模块划分、数据流全在 GitHub 开源比文章里贴代码实在。初版文章里的代码示例已过时以仓库为准。六、给还在做本地 AI 工具的人如果你也在做桌面端 本地模型的小工具几条亲身感受先让「一个场景跑通」再谈架构VideoSeek 第一版就值回票价。索引/存储会咬人——库一大、要删要迁要分 scope越早想清越好。用户要的是「找对了」不是「向量检索原理」截图定位、chunk、预览比再快 10ms 重要。VideoSeek 还会继续成长。欢迎试用、提 issue、或者在群里反馈。链接GitHubhttps://github.com/6v17/VideoSeekWindows 安装包https://www.lv17.top/