LLaVA-OneVision-1.5是EvolvingLMMS-Lab团队开源的多模态模型,采用8B参数规模,通过紧凑三阶段训练流程(语言-图像对齐、概念均衡与知识注入、指令微调)在128张A800 GPU上4天完成预训练,总成本约1.6万美元。其核心创新包括RICE-ViT视觉编码器支持原生分辨率与区域级细粒度语义建模,以及通过"概念均衡"策略优化数据利用率。在OCR、文档理解等任务上性能超越Qwen2.5-VL,并首次实现全流程开源(含数据、训练工具链、评测脚本),显著降低多模态模型复现门槛。模型代码已发布在GitHub,支持社区低成本复现与二次开发。
>>展开阅读
在国外口碑不错的 Windows 精简版 Tiny11 现在发布了 Win11 25H2 精简版对系统冗余功能都进行了精简,解除硬件安装限制,让老电脑也可以安装流畅运行,为你带来更纯净、响应更迅速的体验,同时保留核心功能。
>>展开阅读
MineContext是字节跳动Viking团队开源的主动式上下文感知AI伙伴,帮助用户高效管理海量信息,提升知识工作效率。过屏幕截图和内容理解技术,自动记录用户日常操作(如浏览网页、编辑文档等),支持多模态信息收集(未来扩展至文档、图片、视频等)。数据本地存储,保障隐私安全。提炼关键信息,以每日总结、待办事项等形式主动推送,帮助用户聚焦重要信息,告别被动查询。在创作或决策时,动态提供相关资料、笔记和历史记录,激发灵感,提升创作效率。
>>展开阅读
有时候看电子书对一些内容不理解或者啥的,你可能会去搜索相关的介绍,现在可以用这款支持 AI 对话电子书阅读器「SageRead」你可以用它来读电子书,做笔记和高亮标注。不懂的地方直接问 AI,它会根据书籍内容给你解答。
>>展开阅读
微软发布公告从 10 月 14 日开始,对于 Win10 将不再提供技术协助、功能更新和安全更新。这款于 2015 年 7 月 29 日发布的桌面系统将结束 10 年旅程,逐渐退出历史舞台。微软官方显示 Win10 的最终版本是 22H2,最新版本号为 19045.6396,后续微软不再为该系统提供任何免费的安全更新、非安全更新以及辅助技术支持。
>>展开阅读
DeepSider是一款集成于浏览器侧边栏的AI对话工具,可免费使用所有顶级大模型包括最新的Sora2, GPT-4o画图, GPT-4.1, GPT-o3, Grok 4, Claude 4 Sonnet, Claude 4 Opus, Gemini 2.5 Pro, FLUX画图, DeepSeek R1等以极简交互与超快的响应速度,完成AI搜索、实时问答、内容创作、翻译、代码生成等复杂任务
>>展开阅读
OpenAI两年磨一剑的Sora2,一出手就再次让全世界震撼。五天下载量破百万次、轻松拿下App Store免费榜第一,增长速度力压老大哥GPT!对比一年前的Sora,现在的Sora2对于文字的理解能力明显更强。更重要的是,有了它,就彻底告别了需要自己配音和BGM的时代。只需输入一段简单的提示词,Sora2就能生成声音和画面原生同步的完整视频!从恶搞短视频、广告素材,到短剧,再到MV、动画电影,它不断突破着人类想象力的边界。

>>展开阅读
安卓协同投屏神器「Scrcpy」没有图形界面版,所以有不少开发者制作了第三方图形界面版本,今天分享的这款「Scrcpy Launcher」同样是让其易于使用的图形介面,避免使用命令去执行的麻烦。提供 Windows 和 Linux 版本。
>>展开阅读
- «
- 1
- ...
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- ...
- 122
- »