VER!TAS 邀请你来回答

2024/07/07

震撼发布!4M-21:苹果多模态AI巨擘,一键解锁21种模态!

近日,苹果公司与瑞士洛桑联邦理工学院(EPFL)联合开源了一款名为4M-21的多模态视觉模型。该模型具有广泛的通用性和灵活性,尽管只有30亿参数,但它可以执行数十种任务,包括图像分类、目标检测、语义分割、实例分割、深度估计和表面法线估计等。

4M-21模型在21种不同的模态下进行训练,能够处理包括图像、文本、音频等多种模态的任务。这种多模态能力使其在跨模态检索、可控生成和开箱即用性能方面表现出色。

4M-21还支持任意到任意模态的转换,进一步扩展了其应用范围。

4M-21模型的推出标志着从传统单模态优化模型向多模态综合处理能力的重大转变,展示了苹果在AI领域的强大实力和创新能力。

开源地址:https://github.com/apple/ml-4m/
论文地址:https://arxiv.org/abs/2406.09406
在线demo:https://huggingface.co/spaces/EPFL-VILAB/4M

好问题 23 回答 1 生成海报
优设问答有问必答 👉 回答问题赢奖品
{{ moreBtnTxt }}
阅读相关文章
{{comTitle}} {{comSubtitle}}

震撼发布!4M-21:苹果多模态AI巨擘,一键解锁21种模态!

生成问答海报 我要提问 我来回答