FLUX.2是Black Forest Labs发布的开源图像生成与编辑模型,支持文生图、多图参考和图像编辑,具备更丰富的细节、清晰纹理和稳定光线。分为四个版本:FLUX.2 [pro](媲美顶级闭源模型)、FLUX.2 [flex](可调节参数)、FLUX.2 [dev](开源32B权重模型)和FLUX.2 [klein](即将推出的轻量化模型)。模型基于Mistral-3 24B视觉语言模型和Rectified Flow Transformer架构,能处理复杂排版、信息图和UI文字渲染,支持高达4MP分辨率的编辑。开源版本可在Hugging Face获取,商业授权需访问官网。
>>展开阅读
ViMax是香港大学数据科学实验室开源的多智能体视频生成框架,能实现从创意输入到视频输出的全流程自动化。整合了剧本生成、分镜设计、镜头规划和视频渲染等功能,支持用户通过自然语言描述生成连贯的影视级视频,特别擅长处理长篇小说转视频等复杂任务。框架采用MIT开源协议,提供本地部署方案,适用于自媒体、教育等内容创作场景。与传统AI视频工具相比,ViMax解决了角色不连贯、叙事结构缺失等问题,能自动生成带音画同步的完整视频。
>>展开阅读
一、Docker在机器学习场景中的核心价值
在传统机器学习开发中,环境配置是制约项目推进的首要难题。不同开发者的操作系统差异、Python版本冲突、依赖库版本不兼容等问题,常导致”在我机器上能运行”的经典困境。Docker通过容器化技术,将应用及其依赖环境打包为独立镜像,解决了这一核心痛点。
>>展开阅读
这次要介绍的 AI 项目在 Github 高达 53.9k,它可以免费使用 GPT-3.5、GPT4、Llama、gemini-pro 等等19种大模型,简直恐怖如斯!!它就是 gpt4free,github 地址。
>>展开阅读
Pushing the frontiers of computer-use agents with an open-weight, ultra-compact model, optimized for real-world web tasks

>>展开阅读
Fara-7B is Microsoft's first agentic small language model (SLM) designed specifically for computer use. With only 7 billion parameters, Fara-7B is an ultra-compact Computer Use Agent (CUA) that achieves state-of-the-art performance within its size class and is competitive with larger, more resource-intensive agentic systems.
>>展开阅读
微软研究院悄然推进了设备端人工智能的一个里程碑:Fara-7B,一个拥有 70 亿参数的智能小型语言模型 (SLM),旨在通过预测鼠标和键盘操作来查看网页和操作电脑,现在它已作为开源研究成果提供,供用户进行实践实验。
>>展开阅读
HunyuanOCR是腾讯混元团队开源的高性能光学字符识别模型,参数量仅10亿。基于混元多模态架构开发,采用端到端设计,能高效处理文字检测、识别及文档解析任务。模型在复杂文档测试中得分94.1分,超越谷歌Gemini3-Pro等主流产品,支持14种小语种翻译。轻量化特性适用于票据识别、视频字幕提取等场景,开源地址为GitHub和Hugging Face平台。
>>展开阅读
- «
- 1
- ...
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- ...
- 341
- »