Awesome-Generative-AI-Guide: 一站式AI最新研究更新、面试资源、免费课程等综合库
最新研究更新:提供每月最佳生成式AI论文列表,包括各项研究的摘要和主题。
免费课程列表:超过65个与生成式AI相关的免费课程。
面试资源:面试准备材料,特别是针对生成式AI领域的面试问题。
课程材料:《Applied LLMs Mastery 2024》课程材料。
最新研究更新:提供每月最佳生成式AI论文列表,包括各项研究的摘要和主题。
免费课程列表:超过65个与生成式AI相关的免费课程。
面试资源:面试准备材料,特别是针对生成式AI领域的面试问题。
课程材料:《Applied LLMs Mastery 2024》课程材料。
包括完整的文本到视频模型训练过程、数据处理、训练细节和模型检查点。
该项目由@YangYou1991 团队开发 这是 OpenAI Sora 在视频生成方面的开源替代方案。
可以在仅仅3天的训练后生成2~5秒的512×512视频。
OpenReplay是一个自托管的会话回放和分析开源工具
可以让开发人员像看电影一样回看用户如何与你的产品互动,包括他们点击了什么,输入了什么,甚至在遇到问题时他们的屏幕上发生了什么。
帮助你优化用户体验和提高产品性能。
专为优化提示而设计的框架,通过不断的迭代过程,AutoPrompt 构建了一个包含各种挑战性边缘案例的数据集,用于测试和优化提示。
它能根据用户的具体意图自动生成定制化的提示,确保生成的提示能够精准地满足用户的需求。
旨在复现OpenAI 的Sora模型
Open-Sora计划通过视频VQ-VAE、Denoising Diffusion Transformer和条件编码器等技术组件,来实现Sora模型的功能。
支持英语、西班牙语、法语、中文、日语和韩语等多种语言。
速度非常快,支持中英混合的发音,能生成清晰、自然的语音输出。
即使在普通的在CPU上也能实现实时语音合成。
之前的YOLO系列模型相比,YOLOv9在不牺牲性能的前提下实现模型的轻量化,同时保持更高的准确率和效率。
这使得它可以在各种设备和环境中运行,如移动设备、嵌入式系统和边缘计算设备。
YOLOv9通过改进模型架构和训练方法,提高了对象检测的准确性和效率
实时检测视频中的特定对象,然后分割对象,使用自然语言来对特定的对象进行替换、修改、风格化等!
是不是很熟悉?科幻片里面的场景就实现了!
这意味着你可以对任意图像和视频里面的内容进行实时的替换和修改,甚至换掉视频中的某个人物。
UMI可以将人类在复杂环境下的操作技能直接转移给机器人,无需人类编写详细的编程指令。
也就是通过人类亲自操作演示然后收集数据,直接转移到机器人身上,使得机器人能够快速学习新任务
UMI整合了精心设计的策略接口,包括推理时延匹配和相对轨迹动作表示,使得学习到的策略不受硬件限制,可跨多个机器人平台部署。
YOLOv8能够在图像或视频帧中快速准确地识别和定位多个对象,还能跟踪它们的移动,并将其分类。
除了检测对象,YOLOv8还可以区分对象的确切轮廓,进行实例分割、估计人体的姿态、帮助识别和分析医学影像中的特定模式等多种计算机视觉任务。
OpenAI在2019年8月份就推出了他们的一音乐生成模型:Jukebox
Jukebox能够根据提供的歌词、艺术家和流派信息生成多种流派和艺术家风格的完整音乐和人声歌曲。
最牛P的是,3年前的质量就已经这样了…
而且据说Jukebox 2即将发布
通过连接大语言模型与多模态适配器和扩散解码器,AnyGPT实现了对各种模态输入的理解和能够在任意模态中生成输出的能力。
也就是可以处理任何组合的模态输入(如文本、图像、视频、音频),并生成任何模态的输出…
实现了真正的多模态通信能力。
这个项目之前叫NExT-GPT
可以根据不同性别和体型自动调整,和模特非常贴合。也可以根据自己的需求和偏好调整试穿效果
OOTDiffusion支持半身模型和全身模型两种模式。