开源项目
M2UGen:多模态音乐理解和生成模型
M2UGen能够理解各种音乐,包括风格、演奏乐器、表达的情绪情感等,并进行音乐问答。
而且还能根据文本、图像、视频和音频生成各种音乐,同时对生成的音乐也能理解并根据文字描述对音乐进行编辑。
Pile:一款开源的界面非常整洁美观的AI日记软件
可以帮助你撰写和保存日记条目,记录你的思考和经历,当备忘录也可以!内置了OpenAI 的API功能,可以自己写提示词让AI帮你扩展你的想法和日记。
SSR-Encoder:从图像中提取关键特征来生成新的图像
SSR-Encoder能够提取图像中的多种特征,包括人物、视觉元素、风格、情感和细节等
然后它会利用提取的这些特征再结合文字提示,重新生成新的图像。
GPT- Academic:专门为学术论文研究定制了一个优化的ChatGPT界面
界面包含了多种专门针对学术研究的编辑和交互功能,可以提高学术论文研究、编程和数据分析的效率和质量。
Flowpilot:只需一台二手手机,让老旧的燃油车也能实现自动驾驶
Flowpilot是一个开源的自动驾驶辅助系统。它可以运行在Android系统上。
你只需要在一台普通智能手机上运行Flowpilot,然后通过熊猫硬件连接车辆的OBD-II 端口,再把它和手机相连
Amphion:是一个开源工具包,可实现语音、声音和歌唱功能。
除了文字转语音功能,它还能可以将一首歌的声音换成另一个歌手的声音。还支持声音转换、歌声合成、文本到音频、文本到音乐等功能!
苹果发布了一个多模态大模型
苹果12月14日释放了一个名为Ferret的多模态大语言模型,该模型不仅可以准确识别图像并描述其内容。
同时它还能够识别和定位图像中的各种元素,无论你用怎样的方式描述图像内容,Ferret都能准确地在图像中找到并识别出来。
ComfyUI-Portrait-Master肖像大师,简体中文版来啦!
超详细参数设置!再也不用为不会写人像提示词发愁啦!重新优化为json列表更方便自定义和扩展!已包含标准工作流和turbo工作流
OpenAI公布了超级对齐项目一项最新研究成果,探索了一种新方法:
这项研究的目的是为了解决一个问题:未来,当 AI 变得比人类更聪明时,人类如何能够有效地控制这些 AI。
VividTalk:单张照片+一段音频即可让照片说话
你只需要提供一张人物的静态照片和一段语音录音,VividTalk就能将它们结合起来,制作出一个看起来像是实际说话的人物的视频。
MetaAI发布实时人工智能语言翻译模型:Seamless
这个模型统一了之前的三个Seamless系列模型,可以实时翻译100多种语言,延迟不到2秒钟,说话者仍在讲话时就开始翻译。