AI news tracing site - 第 53 頁

AI巨头, AI项目, MicroSoft, 开源项目

Florence-2：微软开源视觉基础模型

18 7 月, 2024

Florence-2 是 Microsoft 在 MIT 许可下开源的轻量级视觉语言模型。该模型在字幕、对象检测、接地和分割等任务中展示了强大的零样本和微调功能。

尽管尺寸很小，但它所取得的结果与大许多倍的模型（如 Kosmos-2）相当。该模型的优势不在于复杂的架构，而在于大规模的 FLD-5B 数据集，其中包含 1.26 亿张图像和 54 亿个综合视觉注释。

AI项目

kijai 开发的 Florence-2 ComfyUI 插件上线

17 7 月, 2024

支持从图片生成提示词和指定位置的蒙版。
从图片生成提示词支持三个详细等级，内容会越来越多，蒙版生成类似 SAM 输入区域的单词就行。
提示词推理比 WD14 快非常多，也比较准确。

AI项目, 多媒体处理, 开源项目

Diffutoon：将任何真实感视频直接渲染为高清动漫风格

16 7 月, 2024

提供了 Colab 笔记，直接运行就可以，不需要摆弄麻烦的 Comfyui 流程和一堆模型了。
Diffutoon 能够以动漫风格渲染出细节丰富、高分辨率和长时间的视频。它还可以通过一个附加模块根据提示编辑内容。

AI行业应用, 多媒体处理

RTranslator ：一款开源、免费离线的实时翻译应用

15 7 月, 2024

可实现多人、多语言的实时对话翻译

用户可以通过蓝牙耳机连接应用，将手机放进口袋，与他人进行实时语言转换的对话，应用会自动翻译并播报对方的语言。

AI项目, 多媒体处理, 开源项目

Runway最新视频生成模型上线

14 7 月, 2024

Gen-3 Alpha是Runway的反击之作。Gen-3 Alpha的一大特点是生成的视频具有高精细度，它可以理解并生成复杂的场景和运动画面，还能胜任多种电影艺术手法。

AI行业应用, AI项目

未来的你，麻省理工学院让你与聪明、年长的自己聊天

13 7 月, 2024

麻省理工学院的研究人员（麻省理工学院简介）创建了一个聊天机器人感动于人工智能 (AI) 它模拟用户以前的“自我”并提供观察和建议。目标是鼓励人们今天更多地思考他们明天想成为的人。

AI行业应用, 工具软件, 机器人

世界上最小、最便宜的网络交换机

12 7 月, 2024

高中机器人团队开发的世界上最小、最便宜的网络交换机 — Murex Robotics 使硬件完全开源
高中生可以节省 90% 以上的价格，并减少专业解决方案的占用空间。

AI巨头, AI行业应用, Alphabet, 医疗AI

谷歌：个人健康大语言模型和智能体研究

11 7 月, 2024

整合到临床任务中的移动和可穿戴设备为个人健康监测提供了丰富、连续和纵向的数据来源。本文提出一个新模型，个人健康大型语言模型(PH-LLM)，一个经过微调的Gemini版本，用于对数字时间序列个人健康数据的文本理解和推理，用于睡眠和健身应用。

AI项目

Yandex 推出 YaFSDP：

10 7 月, 2024

一款开源 AI 工具，有望通过将 GPU 使用率降低 20% 来彻底改变 LLM 训练
开发大型语言模型需要大量时间和 GPU 资源投资，这直接转化为高昂的成本。模型越大，这些挑战就越明显。

AI巨头, AI项目

Apple Intelligence 新功能

10 7 月, 2024

动画指示按钮被按下：如此光滑和简约！

地图重新设计：(@Apple，重新绘制你的地图）

新的控制中心很疯狂：

AI行业应用, Chrome插件, 多媒体处理

自动翻译油管语言的插件

9 7 月, 2024

YouTube Dubbing插件，一键将英语视频转换为中文的声音进行播放，非常适合用来看国外教程类的视频，
目前支持Youtube 和Udemy 。PC，Android ，IOS 都支持。

AI行业应用, 机器人

Mobile-Agent-v2：让AI可以像真人一样来操控你的手机执行各种任务

9 7 月, 2024

阿里和北交大的Mobile-Agent-v2 发布了Mobile-Agent-v2，一款通过多智能体协作实现有效导航的移动设备操作助手，它通过多代理协作实现了对移动设备的自动化操作和视觉感知功能，让ai可以像真人一样模拟点击、滑动、输入等操作来操控你的手机，从而执行各种任务。