分類: AI行业应用 - 第 20 頁 - Tarogo Cloud Bloger & Shop

MindSearch 是一个开源的 AI 搜索引擎框架

MindSearch是由上海人工智能实验室开发的一个基于大语言模型（LLM）和搜索引擎相结合的系统，旨在模仿人类在网络上寻找和整合信息的过程。性能可与 Perplexity.ai Pro 相媲美，能够处理超过 300 个网页的长上下文信息。而且是开源的，你可以轻松用它部署来构建您自己的搜索引擎。

21 9 月, 2024

AI行业应用多媒体处理

Canva 收购 Leonardo.ai，提升生成式 AI 能力

Canva 已收购澳大利亚 AI 初创公司 Leonardo.ai，获得了其文本转图像和文本转视频生成器的访问权限。此举加强了 Canva 在生成式 AI 市场的地位，有可能挑战 Adobe 的主导地位。
Leonardo.ai 的技术将被整合到 Canva 的 Magic Studio 产品中，而其平台将保持独立运营。此次收购正值 Canva 寻求扩展其创意套件并与 Adobe 的 Firefly 模型竞争之际。然而，Canva 面临对其数据训练实践的审查，需要应对围绕生成式 AI 的伦理问题。

13 9 月, 2024

AI新搜索 AI行业应用

SeekAll插件发布两周时间

这是一个让你能够一键同时向多个AI提问的完全免费浏览器插件。
目前支持了新标签页打开和新窗口打开两种模式，

还在开发浏览器侧边栏，能够让你在新标签页打开时垂直查看打开的多个标签页，估计下周能发布。

10 9 月, 2024

AI行业应用多媒体处理

CLASI ：字节跳动开发的端到端语音同步翻译系统

CLASI是由字节跳动开发的一个高质量的同时语音翻译系统，类似于专业的人类译员。它能实时翻译语音内容，保持高翻译质量和低延迟。CLASI利用先进的数据策略和多模态检索技术来处理复杂的术语和不清晰的语音信息。

CLASI会根据当前的音频内容，结合外部知识库和历史上下文，生成准确且容错的翻译。它在各种测试数据集上的表现都非常出色，能够传达更多有效信息。

9 9 月, 2024

AI行业应用多媒体处理

Vozo：AI视频生成器

Vozo Rewrite & Redub 是一款创新的视频编辑工具，你可以通过简单的提示重写视频脚本、然后这个工具会自动给视频重新配音、翻译语音并口型同步，然后生成新的视频。

无论是将经典视频转变为病毒视频宣传片，还是将普通视频变成喜剧，亦或是将一种语言翻译成多种语言，Vozo 都能在几秒钟内完成。

7 9 月, 2024

AI行业应用多媒体处理

Udio进行重大升级，大幅提升音乐音质和控制

大部分新功能需要订阅标准版才可以用，目前的定价是 10 美元/月

AI 说唱生成器是一款尖端工具，利用先进的人工智能来创作独特的说唱歌曲。无论您是经验丰富的艺术家还是只是想享受乐趣，我们的人工智能说唱生成器都提供了一种无缝的方式来制作个性化的说唱音乐。您可以输入自己的歌词、选择乐器并选择音乐风格，以根据您的喜好精确定制您的说唱歌曲。

6 9 月, 2024

AI巨头 AI新搜索 AI行业应用 OpenAI

OpenAI测试AI搜索功能SearchGPT

SearchGPT目前只是临时的原型，计划未来将新功能中最佳的那些直接融入ChatGPT。OpenAI将首先只对一小部分用户和发行商开放SearchGPT，从中获取反馈。

OpenAI并未在官网透露具体将接纳多少测试者。不过，OpenAI的发言人Kayla Wood告诉媒体，SearchGPT的服务由GPT-4系列模型提供支持，SearchGPT发布时仅提供1万名用户的测试名额。

5 9 月, 2024

AI行业应用 AI项目开源项目运动跟踪

RoboflowSports ：跟踪检测和识别运动员行为

RoboflowSports是一个使用深度学习模型检测和识别运动员行为分析的工具。它通过检测和分割运动员和足球等对象，为体育数据分析提供了强大的工具。

它能识别并分割图像中的不同对象，例如运动员和足球，提供更精细的图像分析。通过精确的对象检测和图像分割技术，提供更高精度的体育数据分析，帮助教练和分析师更好地了解比赛情况和运动员表现。

4 9 月, 2024

AI行业应用 AI项目多媒体处理开源项目

SpeechGPT2：一个端到端的语音对话语言模型

它能够感知和表达情感，并根据上下文和人类指令提供多种风格的语音响应，如说唱、戏剧、机器人、搞笑和低语等。

超过10万小时的学术和野外收集的语音数据，涵盖了丰富的语音场景和风格。

SpeechGPT2 是在有限资源下的技术探索，由于计算和数据资源的限制，它在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有一些不足。

3 9 月, 2024

AI行业应用多媒体处理

PixVerse 发布V2版本视频模型

升级版的PixVerse V2，不光能生成8秒的视频，还能让你的创意天花乱坠。

别以为8秒就敷衍了事。这V2可是个细节控，分辨率、动态效果都跟打了鸡血似的。
就连蚂蚁打喷嚏，它都能给你拍得清清楚楚。

1 9 月, 2024

AI新搜索 AI行业应用 AI项目

Exa AI：真正的AI搜索引擎

一个AI搜索引擎诞生：Exa AI。该公司最近宣布获得了1700万美元的A轮融资，由Lightspeed领投，Nvidia的NVentures和Y Combinator参投。

与其他旨在取代谷歌的AI驱动搜索引擎不同，Exa的目标是创建一个专门为AI设计的搜索工具。

30 8 月, 2024

AI行业应用自动驾驶

WayveScenes101：一个用于自动驾驶应用的高分辨率图像数据集

WayveScenes101，这是一个数据集，旨在帮助社区推进新颖视图合成的最新技术，该数据集专注于具有挑战性的驾驶场景，其中包含许多具有不断变化的几何和纹理的动态和可变形元素。

该数据集包含 101 个驾驶场景，涵盖各种环境条件和驾驶场景。该数据集专为野外驾驶场景的基准重建而设计，场景重建方法面临许多固有的挑战，包括图像眩光、快速曝光变化以及具有明显遮挡的高动态场景。

29 8 月, 2024

AI行业应用机器人

StockBot：由Llama3-70B驱动的实时股票数据聊天机器人

StockBot 是一款基于 ai 的聊天机器人，它利用 Groq 上的 Llama3 70b、Vercel 的 AI SDK 和 TradingView 的实时小部件，通过专门针对您的请求定制的实时交互式图表和界面进行对话响应。 StockBot由Groq 提供支持，闪电般快速的AI聊天机器人，可实时响应交互式股票图表、财务、新闻等。

它不仅能够展示每日市场表现热图、股票财务数据、价格历史和烛台图表，还能提供头条新闻和股票筛选器。它不仅支持股票，还涵盖了外汇、债券和加密货币，提供全面的市场分析。

28 8 月, 2024

AI行业应用多媒体处理工具软件

AudioNotes：音视频内容转笔记系统

AudioNotes 是一个基于 FunASR 和 Qwen2 构建的音视频内容转结构化笔记系统。它的主要功能是快速提取音视频的内容，并通过调用大模型进行整理，将这些内容转换为结构化的Markdown笔记，便于用户快速阅读和理解。

26 8 月, 2024

AI行业应用多媒体处理

ElevenLabs 发布Turbo 2.5模型

该模型支持包括普通话在内的 32 种语言，能为全球近 80%的地区提供高质量、低延迟的 AI 对话；
首次支持越南语、匈牙利语和挪威语；
重点提高了印地语、法语、西班牙语、普通话等 27 种语言的响应速度，其中英语速度提高了 25%，最高提升达 3 倍；
结合先进技术和低延迟模型架构，可快速合成语音，保持流畅自然且高品质的音质，响应时间不超 400 毫秒。

23 8 月, 2024

AI行业应用多媒体处理

Emilia 一个开源多语言高质量语音数据集

港中大（深圳）联合中科院声学所、上海人工智能实验室等机构发布了超过10万小时包含6种语言的多样化的语音生成数据集—— Emilia！

Emilia是一个开源的多语种外语音数据集，专为大规模语音生成研究设计。它包含超过101,000小时的六种语言高质量语音数据和相应的文本转录，覆盖了各种说话风格和内容类型，如脱口秀、访谈、辩论、体育评论和有声书。

22 8 月, 2024

AI行业应用

MindSearch 是一个开源的 AI 搜索引擎框架

Canva 收购 Leonardo.ai，提升生成式 AI 能力

SeekAll插件发布两周时间

CLASI ：字节跳动开发的端到端语音同步翻译系统

Vozo：AI视频生成器

Udio进行重大升级，大幅提升音乐音质和控制

OpenAI测试AI搜索功能SearchGPT

RoboflowSports ：跟踪检测和识别运动员行为

SpeechGPT2：一个端到端的语音对话语言模型

PixVerse 发布V2版本视频模型

Exa AI：真正的AI搜索引擎

WayveScenes101：一个用于自动驾驶应用的高分辨率图像数据集

StockBot：由Llama3-70B驱动的实时股票数据聊天机器人

AudioNotes：音视频内容转笔记系统

ElevenLabs 发布Turbo 2.5模型

Emilia 一个开源多语言高质量语音数据集

精选内容 · 赞助推荐

多语言翻译

Donate

热门关键词

分類

Subscribe to Blog via Email