研究发现：强迫AI大量阅读社交媒体垃圾帖会造成AI不可逆的“脑损伤”，让其认知能力显著衰退

作者:Jam 发布时间: October 23, 2025 分类:相册 No Comments

研究发现：强迫AI大量阅读社交媒体垃圾帖会造成不可逆的脑损伤

Anthropic CEO：五年内，AI 会真正替人，谁是第一批？

作者:Jam 发布时间: October 21, 2025 分类:日志 No Comments

上周，在 Dreamforce 2025 峰会，Anthropic 联合创始人兼 CEO Dario Amodei 说了一句引发广泛关注的话：我对短期内 AI 的互补性依然乐观，但我也必须坦白:两到五年内，真正的替代将开始出现。这不是科技行业第一次有人谈“AI 替代人类”。

>>展开阅读

DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

作者:Jam 发布时间: October 17, 2025 分类: No Comments

DiaMoE-TTS 是清华大学和巨人网络联合开源的多方言语音合成框架，基于国际音标（IPA），解决方言数据稀缺、正字法不一致和音系变化复杂等问题。通过统一的 IPA 前端标准化音素表示，消除跨方言差异，采用方言感知的 Mixture-of-Experts（MoE）架构，让不同专家网络专注于学习不同方言的特征，保留每种方言的独特音色和韵律。框架基于 F5-TTS 构建，引入低秩适配器（LoRA）和条件适配器，实现参数高效的方言迁移，仅需微调少量参数即可完成方言扩展。完全基于开源数据训练，无需昂贵的人工标注语音，降低了技术门槛。实验表明，DiaMoE-TTS 能生成自然且富有表现力的语音，在仅使用几小时数据的情况下，对未见方言和专业领域（如京剧）实现了零样本性能。DiaMoE-TTS 支持 11 种方言和普通话，可扩展到欧洲语言。

>>展开阅读

UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

作者:Jam 发布时间: October 17, 2025 分类:技术 No Comments

UniPixel是香港理工大学、腾讯、中国科学院和vivo等机构联合提出的新型多模态模型，实现像素级视觉语言理解。通过统一对象指代和分割能力，支持多种细粒度任务，如图像分割、视频分割、区域理解以及PixelQA任务。UniPixel的核心优势在于其强大的像素级推理能力，能根据语言描述生成精确的像素级掩码，实现语言与视觉的深度融合。在多个基准测试中，UniPixel表现出色，例如在ReVOS推理分割基准上，UniPixel-3B达到了62.1 J&F的高分，超越了现有所有模型。UniPixel提供了丰富的模型权重和数据集，支持灵活的硬件设置和高效的训练技术，为研究和应用提供了极大的便利。在智能监控、内容创作、教育、医疗影像分析和自动驾驶等领域的广泛应用前景。

>>展开阅读

清华刘嘉：AI时代属于年轻人，不要用过时的经验束缚他们

作者:Jam 发布时间: October 17, 2025 分类:日志 No Comments

对抗潮流是愚蠢的，唯一的出路是顺应并利用它。

>>展开阅读

AI让答案变得廉价，好问题才能让你脱颖而出

作者:Jam 发布时间: October 17, 2025 分类:日志 No Comments

AI让答案触手可及，当人人都能给出标准答案，好问题越来越稀缺。提出一个好问题太重要了。一个好问题能拓展认知疆域，重构问题本身。巧妙地提问会让你更加聪明。通过提问，我们学习、交流、观察、创造；我们打破界限、发现秘密、探索疆界，设想做事情的新途径……那么什么是一个好问题？如何才能提出一个好问题呢？本文我们就来聊聊这件事。

>>展开阅读

为什么只有5%的AI Agent落地成功？

作者:Jam 发布时间: October 16, 2025 分类:日志 No Comments

为什么 95% 的 AI Agents 部署都失败了？成功的那些有什么实践经验可以借鉴？前两天，在旧金山的一场行业研讨会上，来自 Uber、WisdomAI、EvenUp 和 Datastrato 的工程师与机器学习负责人们，聊了聊构建 AI Agent “冰山之下的核心关键” ：上下文选择、语义层、记忆编排、治理机制以及多模型路由。

>>展开阅读

SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

作者:Jam 发布时间: October 16, 2025 分类:技术 No Comments

SongBloom是腾讯AI Lab联合香港中文大学（深圳）与南京大学研发的开源歌曲生成模型，解决AI音乐生成中的“塑料感”问题，实现高质量、结构完整的歌曲生成。只需输入10秒参考音频和对应歌词，即可生成2分30秒的双通道/48kHz高保真完整歌曲，包含前奏、主歌、副歌、尾声等完整结构。通过创新技术大幅降低歌词与旋律不匹配的“幻觉生成”现象，音素错误率显著降低，歌词准确性达行业新高度。人声音质细腻度超越顶尖商业模型Suno-V4.5，音乐性媲美专业创作，首次将自回归扩散模型引入长时歌曲生成，结合离散sketch token和VAE latent技术，兼顾结构连贯性与音质细节。

>>展开阅读

Jam's Blog II

JamLee.Life 心情演绎

研究发现：强迫AI大量阅读社交媒体垃圾帖会造成AI不可逆的“脑损伤”，让其认知能力显著衰退

Anthropic CEO：五年内，AI 会真正替人，谁是第一批？

DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

清华刘嘉：AI时代属于年轻人，不要用过时的经验束缚他们

AI让答案变得廉价，好问题才能让你脱颖而出

为什么只有5%的AI Agent落地成功？

SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型