作者: Tarogo Cloud - 第 59 頁 - Tarogo Cloud Bloger & Tech News

AI项目, 开源项目

VSR：利用AI算法精确识别一键去除视频中的字幕

25 5 月, 2024

Video-subtitle-remover (VSR) 是一款基于AI技术，将视频中的硬字幕去除的软件。主要实现了以下功能：

无损分辨率将视频中的硬字幕去除，生成去除字幕后的文件
通过超强AI算法模型，对去除字幕文本的区域进行填充（非相邻像素填充与马赛克去除）
支持自定义字幕位置，仅去除定义位置中的字幕（传入位置）

AI项目, Alphabet, 医疗AI

谷歌发布基于 Gemini 微调的医疗领域模型 Med-Gemini

25 5 月, 2024

在临床推理、多模态理解和长文本处理方面都有很大的提升。

研究人员用了14个医疗基准测试Med-Gemini的能力。

结果发现,它在10个基准上都取得了最佳表现,远超之前最强的GPT-4模型。

AI项目, 多媒体处理

SpeechAlign：利用人类反馈改变语音合成，以增强技术交互的自然性和表现力

24 5 月, 2024

复旦大学的一个研究团队开发了 SpeechAlign，这是一个针对语音合成核心的创新框架，使生成的语音与人类偏好保持一致。与优先考虑技术准确性的传统模型不同，SpeechAlign 通过直接将人类反馈纳入语音生成而引入了巨大转变。这个反馈循环确保产生的语音在技术上是合理的并且在人类层面上产生共鸣。

Adobe, AI项目

Adobe Premiere Pro 发布重大更新

24 5 月, 2024

引入 AI 视频编辑和第三方Sora等AI视频模型

Adobe Premiere Pro将在今年晚些时候推出第三方AI模型，让编辑人员可以选择最适合他们素材的模型，直接在软件中生成和编辑。

AI项目

马里兰大学开发出一种”隐形斗篷”

23 5 月, 2024

本文研究了对物体探测器发起对抗性攻击的艺术和科学。大多数关于现实世界对抗性攻击的工作都集中在分类器上，分类器为整个图像分配整体标签，而不是定位图像内对象的检测器。检测器的工作原理是考虑图像中具有不同位置、大小和纵横比的数千个“先验”（潜在的边界框）。为了欺骗对象检测器，对抗性示例必须欺骗图像中的每个先验，这比欺骗分类器的单个输出要困难得多。