分類: 多媒体处理 - 第 11 頁 - Tarogo Cloud Bloger & Shop

AzureOpenAIService宣布了一系列新功能

包括公开预览的Assistants API、新的文本到语音（TTS）功能、即将推出的GPT-4 Turbo和GPT-3.5 Turbo模型更新、新的嵌入模型以及微调API的更新。

与之前的聊天完成API相比，Assistants API能够记住之前的对话内容，创建持久化和无限长的线程。

Assistants API 是一项由 Azure OpenAI 提供的新服务，它旨在帮助开发者在他们的应用程序中更容易地创建高质量的人工智能助手体验。

3 3 月, 2024

AI项目多媒体处理开源项目

MetaVoice-1B：高度真实和自然的文本到语音（TTS）转换模型

模型有1.2亿个参数，经过了10万小时的语音数据训练。

专注英语情感演讲
跨语言语音克隆
支持美国和英国声音的零样本克隆
支持长篇内容语音合成

27 2 月, 2024

AI项目多媒体处理开源项目

WhisperSpeech：一个开源的文本到语音系统

是通过对OpenAI的Whisper语音识别模型反向工程来实现的。

通过这种反转过程，WhisperSpeech能够接收文本输入，并利用修改后的Whisper模型生成听起来自然的语音输出。

输出的语音在发音准确性和自然度方面都非常的优秀。

12 2 月, 2024

AI项目多媒体处理

微软推出针对学生的AI阅读教练工具：Reading Coach

可以选择角色和设定，创建独特的AI生成故事。通过AI驱动的故事和个性化练习吸引学生阅读并提高阅读流畅度。
当你阅读时，语音转文本AI分析阅读流利性，检测学习者挑战的词汇，并记录阅读的准确性、速度和时间。

8 2 月, 2024

AI项目多媒体处理开源项目

Amphion：是一个开源工具包，可实现语音、声音和歌唱功能。

除了文字转语音功能，它还能可以将一首歌的声音换成另一个歌手的声音。还支持声音转换、歌声合成、文本到音频、文本到音乐等功能！

19 1 月, 2024

AI行业应用 AI项目 MicroSoft 多媒体处理

使用Copilot和Dall-E3创建任何模型。

它是完全免费的（并且可以在移动设备上使用！）
有人将在这篇简短的指南中向您展示如何：

7 1 月, 2024

AI项目多媒体处理开源项目

MetaAI发布实时人工智能语言翻译模型：Seamless

这个模型统一了之前的三个Seamless系列模型，可以实时翻译100多种语言，延迟不到2秒钟，说话者仍在讲话时就开始翻译。

21 12 月, 2023

AI项目 Chrome插件多媒体处理工具软件

Youtube中文配音插件：Youtube Dubbing

帮你把外语视频变成中文视频的神奇插件

14 12 月, 2023

AI行业应用 AI项目 MicroSoft 多媒体处理

配备新WindowsCopilot的Dall-E3非常棒

您只需单击 2 次即可生成矢量图并将其导入到 PowerPoint（或 Word）中。

12 11 月, 2023

AI项目多媒体处理开源项目

AudioSep：可以使用自然语言进行声音提取分离的模型

AudioSep可以从任何混合的音频信号中提取出特定的声音成分并分离出来。与传统的声音分离模型不同，AudioSep允许用户通过自然语言描述来指定他们想要分离的声音。

8 11 月, 2023

AI行业应用 AI项目多媒体处理

BG-Remover：AI背景去除工具，一次可处理500张图

一个为设计师提供的背景去除工具，你只需上传图片，AI就会自动处理剩下的部分，一键去除背景。该工具支持JPG、PNG、WebP格式的图片，并允许一次性上传多达500张图片。

3 11 月, 2023

AI行业应用 AI项目多媒体处理

DALL-E3是游戏开发者的梦想成真

在 ChatGPT 中使用 DALL-E 3 可以高效工作。

2 11 月, 2023

多媒体处理

AzureOpenAIService宣布了一系列新功能

MetaVoice-1B：高度真实和自然的文本到语音（TTS）转换模型

WhisperSpeech：一个开源的文本到语音系统

微软推出针对学生的AI阅读教练工具：Reading Coach

Amphion：是一个开源工具包，可实现语音、声音和歌唱功能。

使用Copilot和Dall-E3创建任何模型。

MetaAI发布实时人工智能语言翻译模型：Seamless

Youtube中文配音插件：Youtube Dubbing

配备新WindowsCopilot的Dall-E3非常棒

AudioSep：可以使用自然语言进行声音提取分离的模型

BG-Remover：AI背景去除工具，一次可处理500张图

DALL-E3是游戏开发者的梦想成真

精选内容 · 赞助推荐

多语言翻译

Donate

热门关键词

分類

Subscribe to Blog via Email