AI项目

RoboflowSports :跟踪检测和识别运动员行为

RoboflowSports是一个使用深度学习模型检测和识别运动员行为分析的工具。它通过检测和分割运动员和足球等对象,为体育数据分析提供了强大的工具。

它能识别并分割图像中的不同对象,例如运动员和足球,提供更精细的图像分析。通过精确的对象检测和图像分割技术,提供更高精度的体育数据分析,帮助教练和分析师更好地了解比赛情况和运动员表现。

SpeechGPT2:一个端到端的语音对话语言模型

它能够感知和表达情感,并根据上下文和人类指令提供多种风格的语音响应,如说唱、戏剧、机器人、搞笑和低语等。

超过10万小时的学术和野外收集的语音数据, 涵盖了丰富的语音场景和风格。

SpeechGPT2 是在有限资源下的技术探索,由于计算和数据资源的限制,它在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有一些不足。

Mistral AI 发布最新一代开源模型:Mistral Large 2

Mistral AI 宣布其旗舰开源模型的下一代产品:Mistral Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新尖端模型不相上下。

紧随 Llama 3.1 405B 之后,Mistral Large 2 的发布让开源大模型的赛道一下子热闹起来,而这一模型的特点是 ——「足够大」。

Exa AI:真正的AI搜索引擎

一个AI搜索引擎诞生:Exa AI。该公司最近宣布获得了1700万美元的A轮融资,由Lightspeed领投,Nvidia的NVentures和Y Combinator参投。

与其他旨在取代谷歌的AI驱动搜索引擎不同,Exa的目标是创建一个专门为AI设计的搜索工具。

一个开源项目:AI相册

相册AI是一个实验项目,使用最近发布的gpt-4o-mini作为视觉模型,自动识别相册中图像文件的元数据。然后,它利用 RAG 技术来实现与专辑的对话。

它可以用作传统相册,也可以用作图像知识库来辅助LLM进行内容生成。

LibreChat:一个免费的开源 ChatGPT 克隆版

LibreChat是一个免费的开源ChatGPT克隆版,用户可以在一个界面中选择使用不同的AI模型。它支持与OpenAI、Azure、Anthropic和Google等AI模型服务的集成。用户甚至可以在对话中切换AI模型,并使用DALL-E或Stable Diffusion等插件进行图像生成。

Odyssey:提供影视级别的 AI 视频生成和编辑工具

高质量几何生成:生成精细的三维几何形状,用于构建逼真的场景和物体。
写实材质生成:创建高度真实的材质,使得生成的物体看起来更加生动和自然。
惊艳的光照效果:生成和控制光照效果,增强场景的视觉冲击力和氛围。
可控的运动生成:创建和调整动画和运动效果,使得场景和角色更加动态和逼真。

三星首款智能戒指Galaxy Ring发布

三星在巴黎举办Unpacked 2024发布会,除了发布Galaxy Z Fold6、Galaxy Z Flip6两款折叠屏手机外,三星还发布了首款智能戒指:Galaxy Ring

Galaxy Ring与普通戒指类似,共九种尺寸,可选钛黑、钛银、钛金三款配色,重量最轻2.3克,戴在手上基本无感。

BBC报道 :一个人使用ChatGPT 取代了60名员工

他们的工作逐渐被 ChatGPT 所取代,而他们的职责则变成了专门修改AI生成的文章,使其不那么机械化和公式化

公司引入了一个自动化系统:经理将文章标题输入在线表单,AI生成大纲,

一款语音工具:sherpa-onnx

一款语音识别、语音合成、说话人识别、说话人验证等集成了多种语音处理功能的工具:sherpa-onnx

支持:语音识别(ASR,支持流式和非流式)、语音合成(TTS)、说话人识别、说话人验证、语种识别、音频标注、声音活动检测(VAD,例如silero-vad)、关键词检测等

根据单张图像和音频输入生成唱歌和说话视频

和EMO相比,该项目已开源😄
它能够通过输入语音,生成对应的人物嘴唇同步、表情变化和姿态变化的动画。
提高了语音与生成动画之间的对齐精度,使动画的嘴唇、表情和姿态与语音更匹配。

提供对角色表情、姿态和嘴唇运动的精确控制。
支持多种表情和姿态的自适应控制,增强动画的多样性和真实性。