AI行业应用

xAI 的 Grok 现在可以在 X 上生成图像

xAI 的 Grok AI 模型现在可以在 X 社交网络上生成图像,尽管 Grok 访问目前仅限于 X 上的 Premium 和 Premium+ 用户。

示例图像下方的文字提示表明,Grok正在使用 Black Forest Labs 的 FLUX.1 来创建这些图像。用户生成的早期图像表明,Grok 的图像生成功能在创建政治人物图像方面没有任何限制,目前许多用户正在利用这一点。然而,随着美国总统大选的临近,该公司可能会面临对这些功能进行限制的压力。

能够独立控制自身位置和方向的空中机器人

无人机(UAV),俗称无人机,现在用于捕捉图像并在户外环境中执行各种任务。虽然现在有几种具有不同优点和特性的无人机设计,但大多数传统空中机器人都是欠驱动的,这意味着它们的独立执行器数量少于其自由度 (DoF)。

欠驱动系统通常更具成本效益,并且可以使用比过驱动系统更简单的控制策略进行控制(即,具有比自由度更多的独立执行器的机器人)。尽管如此,它们通常不太可靠,并且无法精确控制其位置和方向。

AI 想一口一口地计算你的卡路里

麦吉尔大学(McGill University)正在进行一项名为“FoodTracker”的研究,该研究使用人工智能(AI)和智能手机摄像头来记录和分析用餐者的食物摄入。

研究人员正在使用 AI 通过手机摄像头记录用餐者,来分析食物的摄入量,一口一口地进行分析。
该算法测量从盘子到嘴的勺子上的食物量,旨在改进卡路里和营养追踪,超越传统的食物日记和应用程序。虽然该算法目前专注于份量大小,但预计在几个月内就能识别食物类型。这项研究具有更广泛的应用潜力,尤其是在不断增长的饮食和营养应用程序市场。

网站名称:Immersity AI

提供了将 2D 图像和视频快速转换为 3D 内容的工具,使用其独特的神经深度引擎生成精确的深度图,从而实现逼真的 3D 效果。

LeiaSR™是一个可以将2D显示转换为3D显示的技术平台,帮助观看者体验身临其境的感觉,就像他们是场景的一部分一样。
LeiaSR™ 结合了专利的可切换显示技术、先进的人工智能面部跟踪和内容转换。
LeiaSR™ 可在不影响原始显示质量的情况下实现令人惊叹的 3D 内容体验。它还与更广泛的 3D|XR 行业兼容。

Google 开发出一个能够达到人类业余水平的乒乓球机器人

DeepMind的工程师团队开发了一款能够打业余水平乒乓球的机器人。该机器人的核心硬件基于ABB IRB 1100机械臂,这款机械臂以其高速度和高精度著称,广泛应用于工业场景。通过结合了先进的机器人技术和人工智能,能够执行快速且有策略的乒乓球动作。

通过观看物理模拟和人类比赛,使用小规模数据集进行训练,并通过迭代过程不断提升技能。机器人在与不同水平的人类选手对战时,轻松战胜了初学者,并在与中级选手的比赛中赢得了超过一半的比赛,但在面对高级选手时表现不佳。

AI视频剪辑软件:Kurisu

AI视频剪辑

一个靠口头描述来转换文件格式的程序。

字面意思,就是口述。

例如,你拖动或者上传了一份mp4,然后你只需在输入框内描述你想干的内容。 像是“转成webm”“只保留视频第10秒到20秒之间的内容”“提取音频文件”“将视频倒放”这类。 然后点击按钮们等待进度条完成就行。 运用了ChatGPT和FFmpeg的对接。

电装公司研发出自动采摘番茄的机器人

电装公司研发出自动采摘小番茄的机器人,已开始在欧洲接受订单。研发中运用了迄今制造汽车零件所培养的图像识别与安全行驶技术。在欧洲,人口减少带来的劳动力短缺和工资上涨成为问题,预计对自动化的需求将增长。5月开始接受订单以来,各方的咨询相继而来,目前也正讨论在日本国内发售。

机器人由电装与在荷兰开展智慧农业的集团公司共同研发,能在塑料大棚里自动行驶,若人工智能(AI)判定番茄已熟,就用剪刀采摘。若搭载的6个箱子都已装满,还能替换成空箱子。

ChatGPT API SRT 字幕翻译器

此工具采用OpenAI ChatGPT API进行文本翻译,专注于行对行翻译,特别用于SRT字幕。通过去除SRT文件的额外开销并将文本分批处理,优化了令牌使用,确保输入和输出行数一致。支持Web UI和CLI接口,提供流式输出、请求速率限制、进度恢复等功能,适用于多种语言和特殊书写形式,如表情符号和单词打乱排序。

Pikimov视频编辑器

Pikimov 是一款基于Web 的应用程序,允许用户创建和编辑各种媒体类型,包括图像、视频、音频和3D 模型。
它为运动设计提供了基于图层的合成系统和关键帧动画系统。
该应用程序与Windows、macOS 和Linux 操作系统兼容,无需任何安装。 所有用户文件都保留在本地计算机上,不会上传到服务器

海绵音乐

海绵音乐是由字节跳动最新推出的免费AI音乐创作和分享平台,旨在利用人工智能技术生成个性化音乐,海绵音乐在人声处理方面表现优异,尤其是在中文歌曲中,减少了电音的使用,提高了吐字清晰度和演唱流畅性。相比较Suno,海绵音乐的音乐风格更符合国人的喜好。

MindSearch 是一个开源的 AI 搜索引擎框架

MindSearch是由上海人工智能实验室开发的一个基于大语言模型(LLM)和搜索引擎相结合的系统,旨在模仿人类在网络上寻找和整合信息的过程。性能可与 Perplexity.ai Pro 相媲美,能够处理超过 300 个网页的长上下文信息。而且是开源的,你可以轻松用它部署来构建您自己的搜索引擎。

Canva 收购 Leonardo.ai,提升生成式 AI 能力

Canva 已收购澳大利亚 AI 初创公司 Leonardo.ai,获得了其文本转图像和文本转视频生成器的访问权限。此举加强了 Canva 在生成式 AI 市场的地位,有可能挑战 Adobe 的主导地位。
Leonardo.ai 的技术将被整合到 Canva 的 Magic Studio 产品中,而其平台将保持独立运营。此次收购正值 Canva 寻求扩展其创意套件并与 Adobe 的 Firefly 模型竞争之际。然而,Canva 面临对其数据训练实践的审查,需要应对围绕生成式 AI 的伦理问题。

SeekAll插件发布两周时间

这是一个让你能够一键同时向多个AI提问的完全免费浏览器插件。
目前支持了新标签页打开和新窗口打开两种模式,

还在开发浏览器侧边栏,能够让你在新标签页打开时垂直查看打开的多个标签页,估计下周能发布。

CLASI :字节跳动开发的端到端语音同步翻译系统

CLASI是由字节跳动开发的一个高质量的同时语音翻译系统,类似于专业的人类译员。它能实时翻译语音内容,保持高翻译质量和低延迟。CLASI利用先进的数据策略和多模态检索技术来处理复杂的术语和不清晰的语音信息。

CLASI会根据当前的音频内容,结合外部知识库和历史上下文,生成准确且容错的翻译。它在各种测试数据集上的表现都非常出色,能够传达更多有效信息。