DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS 是清华大学和巨人网络联合开源的多方言语音合成框架,基于国际音标(IPA),解决方言数据稀缺、正字法不一致和音系变化复杂等问题。通过统一的 IPA 前端标准化音素表示,消除跨方言差异,采用方言感知的 Mixture-of-Experts(MoE)架构,让不同专家网络专注于学习不同方言的特征,保留每种方言的独特音色和韵律。框架基于 F5-TTS 构建,引入低秩适配器(LoRA)和条件适配器,实现参数高效的方言迁移,仅需微调少量参数即可完成方言扩展。完全基于开源数据训练,无需昂贵的人工标注语音,降低了技术门槛。实验表明,DiaMoE-TTS 能生成自然且富有表现力的语音,在仅使用几小时数据的情况下,对未见方言和专业领域(如京剧)实现了零样本性能。DiaMoE-TTS 支持 11 种方言和普通话,可扩展到欧洲语言。DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

>>展开阅读

UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel是香港理工大学、腾讯、中国科学院和vivo等机构联合提出的新型多模态模型,实现像素级视觉语言理解。通过统一对象指代和分割能力,支持多种细粒度任务,如图像分割、视频分割、区域理解以及PixelQA任务。UniPixel的核心优势在于其强大的像素级推理能力,能根据语言描述生成精确的像素级掩码,实现语言与视觉的深度融合。在多个基准测试中,UniPixel表现出色,例如在ReVOS推理分割基准上,UniPixel-3B达到了62.1 J&F的高分,超越了现有所有模型。UniPixel提供了丰富的模型权重和数据集,支持灵活的硬件设置和高效的训练技术,为研究和应用提供了极大的便利。在智能监控、内容创作、教育、医疗影像分析和自动驾驶等领域的广泛应用前景。UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

>>展开阅读

AI让答案变得廉价,好问题才能让你脱颖而出

AI让答案触手可及,当人人都能给出标准答案,好问题越来越稀缺。提出一个好问题太重要了。一个好问题能拓展认知疆域,重构问题本身。巧妙地提问会让你更加聪明。通过提问,我们学习、交流、观察、创造;我们打破界限、发现秘密、探索疆界,设想做事情的新途径……那么什么是一个好问题?如何才能提出一个好问题呢?本文我们就来聊聊这件事。

>>展开阅读

为什么只有5%的AI Agent落地成功?

为什么 95% 的 AI Agents 部署都失败了?成功的那些有什么实践经验可以借鉴?前两天,在旧金山的一场行业研讨会上,来自 Uber、WisdomAI、EvenUp 和 Datastrato 的工程师与机器学习负责人们,聊了聊构建 AI Agent “冰山之下的核心关键” :上下文选择、语义层、记忆编排、治理机制以及多模型路由。

>>展开阅读

SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom是腾讯AI Lab联合香港中文大学(深圳)与南京大学研发的开源歌曲生成模型,解决AI音乐生成中的“塑料感”问题,实现高质量、结构完整的歌曲生成。只需输入10秒参考音频和对应歌词,即可生成2分30秒的双通道/48kHz高保真完整歌曲,包含前奏、主歌、副歌、尾声等完整结构。通过创新技术大幅降低歌词与旋律不匹配的“幻觉生成”现象,音素错误率显著降低,歌词准确性达行业新高度。人声音质细腻度超越顶尖商业模型Suno-V4.5,音乐性媲美专业创作,首次将自回归扩散模型引入长时歌曲生成,结合离散sketch token和VAE latent技术,兼顾结构连贯性与音质细节。1760531864-1760531864-SongBloom-website-1.png

>>展开阅读