开源项目

AI项目, 开源项目

YOLO-World&EfficientSAM&Stable Diffusion 能干啥?

实时检测视频中的特定对象,然后分割对象,使用自然语言来对特定的对象进行替换、修改、风格化等!
是不是很熟悉?科幻片里面的场景就实现了!
这意味着你可以对任意图像和视频里面的内容进行实时的替换和修改,甚至换掉视频中的某个人物。

AI项目, 开源项目, 机器人

UMI:斯坦福开发的一个机器人数据收集和策略学习框架

UMI可以将人类在复杂环境下的操作技能直接转移给机器人,无需人类编写详细的编程指令。
也就是通过人类亲自操作演示然后收集数据,直接转移到机器人身上,使得机器人能够快速学习新任务
UMI整合了精心设计的策略接口,包括推理时延匹配和相对轨迹动作表示,使得学习到的策略不受硬件限制,可跨多个机器人平台部署。

AI项目, 开源项目, 自动驾驶

YOLOv8:目标检测跟踪模型

YOLOv8能够在图像或视频帧中快速准确地识别和定位多个对象,还能跟踪它们的移动,并将其分类。
除了检测对象,YOLOv8还可以区分对象的确切轮廓,进行实例分割、估计人体的姿态、帮助识别和分析医学影像中的特定模式等多种计算机视觉任务。

AI项目, OpenAI, 开源项目

OpenAI推出的一音乐生成模型:Jukebox

OpenAI在2019年8月份就推出了他们的一音乐生成模型:Jukebox
Jukebox能够根据提供的歌词、艺术家和流派信息生成多种流派和艺术家风格的完整音乐和人声歌曲。

最牛P的是,3年前的质量就已经这样了…

而且据说Jukebox 2即将发布

AI项目, 开源项目

AnyGPT:任意模态到任意多模态的大语言模型

通过连接大语言模型与多模态适配器和扩散解码器,AnyGPT实现了对各种模态输入的理解和能够在任意模态中生成输出的能力。
也就是可以处理任何组合的模态输入(如文本、图像、视频、音频),并生成任何模态的输出…
实现了真正的多模态通信能力。
这个项目之前叫NExT-GPT

AI项目, 开源项目

PixelPlayer:MIT研究团队开发的项目

能自动从视频中识别和分离出不同的声音源,并与画面位置匹配。
例如,它可以识别出视频中哪个人物正在说话或哪个乐器正在被演奏。
而且还能够分别提取和分离这些声音源的声音。
PixelPlayer能自我学习分析,无需人工标注数据。
这种能力为音视频编辑、多媒体内容制作、增强现实应用等领域提供了强大的工具,使得例如独立调整视频中不同声音源音量、去除或增强特定声音源等操作成为可能。

AI项目, 开源项目

UFO:由微软开发的专注于Windows操作系统交互的UI代理

它可以通过理解用户的自然语言指令和屏幕的视觉内容,自动执行一系列复杂的任务。

比如“删除Word文档中的所有图片”或“在PowerPoint文稿中添加一个新幻灯片”。

它结合了GPT 4-V,能够理解和Windows应用程序的图形用户界面(GUI)并执行操作。

UFO能够在Windows应用程序中执行各种操作,如点击按钮、填写表单、浏览文件等,就好像一个人在使用鼠标和键盘操作电脑一样。

AI项目, MicroSoft, 开源项目

OS-Copilot:能够与操作系统(OS)进行交互

完成一系列广泛且复杂的计算机任务的智能代理框架。
它能够自我学习和改进,处理各种操作系统级别的任务。
包括但不限于文件管理、数据处理、环境设置、多媒体操作、网页浏览、代码编写、第三方应用交互、自动化测试等。

该项目由上海AI实验室、华东师范大学、普林斯顿大学和香港大学的研究人员共同开发。

Scroll to Top