语音转文本TTS模型
ChatTTS:专门为对话场景设计的文本到语音TTS模型
该模型经过超过10万小时的训练,公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。
专为对话任务优化,能够支持多种说话人语音,中英文混合等。
ChatTTS:专门为对话场景设计的文本到语音TTS模型
该模型经过超过10万小时的训练,公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。
专为对话任务优化,能够支持多种说话人语音,中英文混合等。
可以将你直播说话时候的声音变声其他各种角色和性别的声音。
还能调整音调、音调动态和混响等参数,塑造个性化的声音。
也可以将你声音与任何角色的声音以任意比例混合,创造出新的声音 。
Audio Native 是一个嵌入式音频播放器,可以自动为网页内容生成语音
只需插入一段简短的代码,即可插入到任何网页和内容中,自动为内容生成语音旁白。
您现在正在阅读的这一行的上方有一个播放按钮。按播放键,您可以收听由 ElevenLabs 语音自动生成的这篇文章的旁白。我们将这种嵌入式语音播放器称为“Audio Native”。
能够预测所有生命分子结构和相互作用 AI 模型
该模型能够生成蛋白质、DNA 和其他分子的 3D 结构,并揭示它们如何组合在一起。
该模型还能够模拟影响细胞健康的化学变化,并检测可能导致疾病的异常。
AlphaFold 3 将为全球科学研究人员和机构免费开放。它的高精度和新一代架构可支持药物发现和生物学的突破性进展。
这项研究的结果表明,个性化的抗生素治疗时间建议模型可以帮助医生更好地决策,避免治疗延迟或过早给药带来的潜在危害,同时降低患者的死亡率和医疗成本。
OpenVoice,这是一种多功能的即时语音克隆方法,只需要参考说话者的一个简短的音频剪辑即可复制他们的声音并生成多种语言的语音。除了复制参考说话者的音色之外,OpenVoice 还可以对语音风格进行精细控制,包括情感、口音、节奏、停顿和语调。
VideoGigaGAN,这是一种新的生成 VSR 模型,可以生成具有高频细节和时间一致性的视频。
VideoGigaGAN 基于大规模图像上采样器——GigaGAN。简单地通过添加时间模块将 GigaGAN 扩展到视频模型会产生严重的时间闪烁。
确定了几个关键问题,并提出了显着提高上采样视频的时间一致性的技术。
微软在 Bing 图片搜索中已引入视觉搜索选项,通过识别图片中的内容,并扩展显示相关的图片资源,实现以图搜图功能。
微软计划将必应的图片搜索引入到聊天平台上,增强用户参与度并提供更全面的搜索结果。
中国机器人公司LimX Dynamics展示了双足平衡和导航技术已经发展到了多么高的水平
专为人体模拟而设计的机器人开发商。公司产品主要专注于运动智能和腿式机器人的研发和制造,包括仿人双足和四足机器人及相关解决方案,应用在工业检测、物流配送、特种作业、家居服务等领域,为为客户提供高品质、创新的产品。
这款模型被视为国内首个达到Sora级别的视频模型。
Vidu 不仅能模拟真实物理世界,还具备丰富的想象力,支持多镜头生成和高时空一致性。
Vidu 模型融合了 Diffusion 与 Transformer 技术,创新性地开发了 U-ViT 架构。