DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目

DeepOCR 是开源复刻项目,实现 DeepSeek-OCR 的核心架构,通过光学压缩技术高效处理文本信息。核心是 DeepEncoder,由 SAM-base(处理高分辨率图像)、16×卷积压缩器(减少 token 数量)和 CLIP-large(处理压缩后的特征)组成。这种设计在保持高分辨率处理能力的同时,显著降低了激活内存和 token 数量。DeepOCR 采用两阶段训练流程:第一阶段使用 LLaVA-CC3M 数据集进行视觉 - 语言对齐训练;第二阶段使用 olmOCR 数据集进行 OCR 特定预训练。通过这种训练方法,DeepOCR 在 OmniDocBench 和 olmOCR 基准测试中表现出色,尤其在英文文本识别和表格解析任务中,验证了光学压缩的有效性。DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目

>>展开阅读

NocoBase - 免费开源的AI无代码开发平台,可视化构建应用

NocoBase是基于AI驱动的开源无代码开发平台,支持快速搭建业务系统,无需编程即可通过配置完成应用开发。项目采用Apache-2.0协议,提供私有化部署和灵活扩展能力,适用于企业管理、协作平台等场景。最新2.0版本已集成AI员工功能,可自动处理邮件分析、客户调研等任务,显著提升工作效率。NocoBase - 免费开源的AI无代码开发平台,可视化构建应用

>>展开阅读

Handy - 开源免费的本地AI语音转文字工具

Handy是开源免费的本地语音转文字工具,支持Windows、MacOS和Linux系统,由Rust和React开发。通过本地处理语音数据,无需上传云端,保障隐私安全,适合快速转录和文字输入。用户可通过快捷键激活录音,支持多种语音模型(如Whisper),直接将转录结果粘贴到任意文本框。Handy特别适合需要隐私保护的办公或创作场景,安装包仅10MB,操作简单。Handy - 开源免费的本地AI语音转文字工具

>>展开阅读

FG-CLIP 2 - 360开源的图文跨模态视觉语言模型

FG-CLIP 2 是360人工智能研究院推出的全球领先的图文跨模态视觉语言模型(VL-M),在29项权威基准测试中超越Google和Meta的同类模型,成为目前性能最强的VL-M。能精准识别图像中的毛发、斑点、色彩、表情、空间关系等细节,例如区分不同品种的猫、判断物体在屏幕内外的位置,甚至理解复杂场景中的遮挡关系。同时支持中文和英文的细粒度理解,填补了中文跨模态模型的空白,可精准处理中文长文本检索、区域分类等任务。采用两阶段训练策略,先全局对齐图文语义,再聚焦局部细节对齐;结合五维协同优化体系,提升模型的抗干扰性和鲁棒性。FG-CLIP 2 - 360开源的图文跨模态视觉语言模型

>>展开阅读