分類: 多媒体处理 - 第 10 頁 - Tarogo Cloud Bloger & Shop

AI项目多媒体处理

自动将你的网页内容转换为播客

Audio Native 是一个嵌入式音频播放器，可以自动为网页内容生成语音

只需插入一段简短的代码，即可插入到任何网页和内容中，自动为内容生成语音旁白。

您现在正在阅读的这一行的上方有一个播放按钮。按播放键，您可以收听由 ElevenLabs 语音自动生成的这篇文章的旁白。我们将这种嵌入式语音播放器称为“Audio Native”。

13 6 月, 2024

AI项目多媒体处理开源项目

OpenVoice V2版本发布

OpenVoice，这是一种多功能的即时语音克隆方法，只需要参考说话者的一个简短的音频剪辑即可复制他们的声音并生成多种语言的语音。除了复制参考说话者的音色之外，OpenVoice 还可以对语音风格进行精细控制，包括情感、口音、节奏、停顿和语调。

3 6 月, 2024

Adobe AI项目多媒体处理

Adobe发布了视频超分项目VideoGigaGAN

VideoGigaGAN，这是一种新的生成 VSR 模型，可以生成具有高频细节和时间一致性的视频。
VideoGigaGAN 基于大规模图像上采样器——GigaGAN。简单地通过添加时间模块将 GigaGAN 扩展到视频模型会产生严重的时间闪烁。
确定了几个关键问题，并提出了显着提高上采样视频的时间一致性的技术。

2 6 月, 2024

AI项目多媒体处理

Vidu：可生成16秒、1080P视频的模型

这款模型被视为国内首个达到Sora级别的视频模型。

Vidu 不仅能模拟真实物理世界，还具备丰富的想象力，支持多镜头生成和高时空一致性。

Vidu 模型融合了 Diffusion 与 Transformer 技术，创新性地开发了 U-ViT 架构。

29 5 月, 2024

AI项目多媒体处理

SpeechAlign：利用人类反馈改变语音合成，以增强技术交互的自然性和表现力

复旦大学的一个研究团队开发了 SpeechAlign，这是一个针对语音合成核心的创新框架，使生成的语音与人类偏好保持一致。与优先考虑技术准确性的传统模型不同，SpeechAlign 通过直接将人类反馈纳入语音生成而引入了巨大转变。这个反馈循环确保产生的语音在技术上是合理的并且在人类层面上产生共鸣。

24 5 月, 2024

AI项目多媒体处理

Open Sora 团队发布了另一个视频生成项目 MagicTime

开发了一套名为 MagicAdapter 的技术，通过分开处理空间和时间训练，它能从变形视频中提取更多的物理知识，并使预训练的T2V模型能够生成这类视频。

接着，引入了动态帧提取策略，这个策略特别适用于变形时光延续视频，因为这类视频变化范围广泛，涵盖了物体戏剧性的变化过程，从而包含了更丰富的物理知识。

21 5 月, 2024

AI项目多媒体处理

SAM模型视频分割项目

本项目的目标是运动分割——发现并分割视频中的运动对象。这是一个被广泛研究的领域，有许多仔细的、有时甚至是复杂的方法和训练方案，包括：自监督学习、从合成数据集学习、以对象为中心的表示、非模态表示等等。对本文的兴趣是确定 Segment Anything 模型 (SAM) 是否有助于完成此任务。

17 5 月, 2024

AI项目多媒体处理

NoLang：输入任何主题或者网页链接直接生成视频

它支持文字、网页链接、PDF、提问等直接转视频
也就是你输入文字、链接NoLang能以视频形式快速回答。
输入PDF文件，会先给你总结内容，然后根据总结的内容在生成一个解答视频。

17 4 月, 2024

AI项目多媒体处理开源项目

VoiceCraft：官宣超过XTTS的语音模型

支持克隆音频，支持通过修改原始音频的文本来编辑音频，演示效果非常好，看起来很有潜力。

12 4 月, 2024

AI行业应用 AI项目多媒体处理

FRESCO这个视频转绘项目

FRESCO这个视频转绘项目的代码已经发布，也在项目页面发布了更多的演示，看起来相当稳定。

11 4 月, 2024

AI行业应用 AI项目多媒体处理

Gatekeep：一个新型的文本转视频 AI，专注与教学

它可以通过文本提示将数学、物理问题转换成视频内容
它会自动生成包括图表、图示、动画原理，还包含讲解内容的2分钟左右的视频。
能非常直观的帮助你了解一些知识和原理。

11 4 月, 2024

AI行业应用 AI项目多媒体处理

Google也弄了一个：一张照片+音频即可生成会说话唱歌的视频的项目

VLOGGER：基于文本和音频驱动，从单张照片生成会说话的人类视频

4 4 月, 2024

AI行业应用 AI项目多媒体处理

Optimizer AI：专门为视频自动生成音效的AI工具可以为AI视频自动配音

能够通过文字提示创造出适用于各种场景的声音和音效

如游戏中的射击和跳跃声音、动画中的雨声环境以及视频中的地铁到站声音等。

31 3 月, 2024

AI项目多媒体处理

ChatGPT 语音朗读功能开始灰度测试

设置好语音，点击播放按钮，可以自动朗读GPT生成的内容
ChatGPT 的数据分析Data Analysis 将升级到V2 版本，功能更加强大！

26 3 月, 2024

AI项目多媒体处理

Pika推出LipSync【唇部同步】功能

Lip Sync即可将生成视频中人物的嘴部动画和音频同步

21 3 月, 2024

AI行业应用 AI项目多媒体处理

Google的一个新的视频模型：VideoPoet

它可以根据文字描述来生成视频。但它不是基于扩散模型，而本身就是个LLM，可以理解和处理多模态信息，并将它们融合到视频生成过程中。
不仅能生成视频，还能给视频加上风格化的效果，还可修复和扩展视频，甚至从视频中生成音频。
一条龙服务…
例如，VideoPoet 可以根据文本描述生成视频，或者将一张静态图片转换成动态视频。它还能理解和生成音频，甚至是编写用于视频处理的代码。

12 3 月, 2024

多媒体处理

自动将你的网页内容转换为播客

OpenVoice V2版本发布

Adobe发布了视频超分项目VideoGigaGAN

Vidu：可生成16秒、1080P视频的模型

SpeechAlign：利用人类反馈改变语音合成，以增强技术交互的自然性和表现力

Open Sora 团队发布了另一个视频生成项目 MagicTime

SAM模型视频分割项目

NoLang：输入任何主题或者网页链接直接生成视频

VoiceCraft：官宣超过XTTS的语音模型

FRESCO这个视频转绘项目

Gatekeep：一个新型的文本转视频 AI，专注与教学

Google也弄了一个：一张照片+音频即可生成会说话唱歌的视频的项目

Optimizer AI：专门为视频自动生成音效的AI工具可以为AI视频自动配音

ChatGPT 语音朗读功能开始灰度测试

Pika推出LipSync【唇部同步】功能

Google的一个新的视频模型：VideoPoet

精选内容 · 赞助推荐

多语言翻译

Donate

热门关键词

分類

Subscribe to Blog via Email