AI巨头, AI项目, MicroSoft, 开源项目

Florence-2:微软开源视觉基础模型

Florence-2 是 Microsoft 在 MIT 许可下开源的轻量级视觉语言模型。该模型在字幕、对象检测、接地和分割等任务中展示了强大的零样本和微调功能。

尽管尺寸很小,但它所取得的结果与大许多倍的模型(如 Kosmos-2)相当。该模型的优势不在于复杂的架构,而在于大规模的 FLD-5B 数据集,其中包含 1.26 亿张图像和 54 亿个综合视觉注释。

AI项目

kijai 开发的 Florence-2 ComfyUI 插件上线

支持从图片生成提示词和指定位置的蒙版。
从图片生成提示词支持三个详细等级,内容会越来越多,蒙版生成类似 SAM 输入区域的单词就行。
提示词推理比 WD14 快非常多,也比较准确。

AI项目

Yandex 推出 YaFSDP:

一款开源 AI 工具,有望通过将 GPU 使用率降低 20% 来彻底改变 LLM 训练
开发大型语言模型需要大量时间和 GPU 资源投资,这直接转化为高昂的成本。模型越大,这些挑战就越明显。

Scroll to Top