IT/AI知识库: 跟踪最新的IT/AI类资讯

SpeechAlign:利用人类反馈改变语音合成,以增强技术交互的自然性和表现力

复旦大学的一个研究团队开发了 SpeechAlign,这是一个针对语音合成核心的创新框架,使生成的语音与人类偏好保持一致。与优先考虑技术准确性的传统模型不同,SpeechAlign 通过直接将人类反馈纳入语音生成而引入了巨大转变。这个反馈循环确保产生的语音在技术上是合理的并且在人类层面上产生共鸣。

Chat2DB:AI驱动的数据开发和分析平台

该项目已经吸引了超过100万开发者的使用,并且在 GitHub 上获得了大量的关注和支持。

Chat2DB通过人工智能技术,使得用户可以使用自然语言来处理和查询数据,无需深入了解复杂的数据库语言或编程技能。

马里兰大学开发出一种”隐形斗篷”

本文研究了对物体探测器发起对抗性攻击的艺术和科学。大多数关于现实世界对抗性攻击的工作都集中在分类器上,分类器为整个图像分配整体标签,而不是定位图像内对象的检测器。检测器的工作原理是考虑图像中具有不同位置、大小和纵横比的数千个“先验”(潜在的边界框)。为了欺骗对象检测器,对抗性示例必须欺骗图像中的每个先验,这比欺骗分类器的单个输出要困难得多。

SeaLLMs东南亚大型语言模型

尽管大型语言模型(LLMs)在各种任务中取得了显着的成就,但仍然存在偏爱高资源语言(例如英语)的语言偏见,而往往以牺牲低资源语言和区域语言为代价。
为了解决这种不平衡问题,SEA引入了 SeaLLM,这是一系列创新的语言模型,专门针对东南亚 (SEA) 语言。

Stripe今年夏天将支持USDC的支付

Stripe 在 Session 2024 上宣布了今年夏天将支持 USDC 的支付
你可以通过 Stripe 接收 USDC 付款,然后提法币到你的银行户头,这次新增美元稳定币,优先 Solana 网络

DuckDuckGo也推出AIChat

免费使用,不过只有 GPT-3.5 Turbo 和 Claude 1.2 Instant 可选。

使用 WebCatalog Desktop 上“DuckDuckGo AI Chat”的 Mac、Windows、Linux 版桌面应用增强您的体验。

Open Sora 团队发布了另一个视频生成项目 MagicTime

开发了一套名为 MagicAdapter 的技术,通过分开处理空间和时间训练,它能从变形视频中提取更多的物理知识,并使预训练的T2V模型能够生成这类视频。

接着,引入了动态帧提取策略,这个策略特别适用于变形时光延续视频,因为这类视频变化范围广泛,涵盖了物体戏剧性的变化过程,从而包含了更丰富的物理知识。

Extropic 发布一种全新的热力学计算机

公司创始人Gill Verdon表示:非常高兴最终能分享更多有关 Extropic 正在构建的内容:一个全栈硬件平台,利用物质的自然波动作为生成人工智能的计算资源。

这种新颖的计算范式对世界实际上意味着什么?

IDM-VTON:虚拟试衣技术

IDM-VTON能够捕捉到服装的细节,如纹理、图案和缝线等,这些细节在试衣图像中被准确地再现。

即使是在户外或者背景复杂的照片中,这项技术也能准确地展示衣物试穿效果,保持高质量的图像输出。

在多个不同的人物上展示同一件服装时,IDM-VTON依然能保持了服装细节的一致性。

Mistral入门指南:介绍

Mistral 推出的开源 Mixtral 8x7B 模型采用了“专家混合”(MoE)架构。与传统的 Transformer 不同,MoE 模型内置多个专家级前馈网络(本模型为8个),在进行推理时,由一个门控网络负责选择两个专家进行工作。这样的设置让 MoE 在保持与大型模型相当的性能的同时,能够实现更快的推理速度

SAM模型视频分割项目

本项目的目标是运动分割——发现并分割视频中的运动对象。这是一个被广泛研究的领域,有许多仔细的、有时甚至是复杂的方法和训练方案,包括:自监督学习、从合成数据集学习、以对象为中心的表示、非模态表示等等。对本文的兴趣是确定 Segment Anything 模型 (SAM) 是否有助于完成此任务。

Foundation Capital 这篇文章的论点非常有意思

他们认为AI公司正在颠覆SaaS平台的本质,即SaaS平台将会从软件即服务快速过度到服务即软件的范式。

在传统软件业务中,公司出售平台或工具的访问权限,但客户仍需要使用该工具来实现预期目标。

而在服务业务中,实现预期目标的责任则由销售服务的公司承担。