讯飞飞星计划(讯飞之星)
491
2024-03-31 22:04:12
AI可以处理Google验证码,最新的多模态大模型比GPT-4V空间理解更准确。原始来源:量子比特
图片来源:无界AI生成?
谷歌的人机验证已经挡不住AI了!
最新的多模态大模型可以轻松找到图片中的所有红绿灯,并精确圈出具体位置。
的性能直接超越GPT-4V。
这是苹果和哥伦比亚大学研究团队带来的多模态大型模型“Ferret”。
具有更强的图文关联能力,提高大型模型在“看、说、答”任务中的准确率。
例如下图中非常小的部件(区域1)也可以区分为减震器。
GPT-4V 无法正确回答,并且在小零件上表现不佳。
那么,Ferret是怎么做到的呢?
Ferret解决的核心问题是让指代和落地的空间理解能力更加紧密。
参考是指让模型能够准确理解给定区域的语义,即它对某个位置的了解。
定位给出了语义,让模型能够找到图片中对应的目标。
对于人类来说,这两种能力是自然结合的,但许多现有的大型多模态模型仅单独使用参考和定位。
因此,Ferret提出了一种新的混合区域表示方法,可以结合离散坐标和连续特征来表示图像中的区域。
这样,模型就可以区分具有几乎相同边界框的对象。
比如下图中的两个物体的情况,如果只使用离散的边界框,模型会感觉很“混乱”。结合连续自由形状混合表示,可以很好地解决这个问题。
为了提取不同区域的连续特征,论文提出了一种空间感知视觉采样器,可以处理不同形状之间的稀疏差异。
因此,Ferret 可以接受各种区域输入,例如点、边界框和自由形状,并理解它们的语义。
在输出中,它可以根据文本自动生成每个定位对象的坐标。
为了实现这一目标,Ferret 模型的架构包括图像编码器、空间感知视觉采样器和语言模型(LLM) 等组件。
Ferret 将离散坐标和连续特征结合起来形成混合区域表示。
这种表示方法旨在解决表示各种形状和格式的区域的挑战,包括点、边界框和自由形状。
将离散坐标中的每个坐标量化为目标框的离散坐标。这种量化确保了模型对不同图像尺寸的鲁棒性。
连续特征由空间感知视觉采样器提取,该采样器使用二进制掩模和特征图来随机采样ROI内的点,并通过双线性插值获得特征。
这些特征由受3D 点云模型启发的空间感知模块进行处理,压缩为单个向量,并映射到大型语言模型(LLM) 以进行进一步处理。
为了增强Ferret的能力,论文还创建了一个名为GRIT的数据集。
该数据集包含110 万个样本,涵盖四个主要类别:个体对象、对象之间的关系、特定区域的描述以及基于复杂区域的推理。
GRIT数据集包括从公共数据集转换的数据、通过ChatGPT和GPT-4生成的指令调优数据,并额外提供95K困难负样本以提高模型的鲁棒性。
实验结果表明,该模型不仅在经典引文和本地化任务中表现出优越的性能,而且在基于区域和本地化需要的多模态对话中远远超过其他现有的MLLM模型。
此外,研究还提出了Ferret-Bench,可以评估图像局部区域的参考/定位、语义、知识和推理能力。
Ferret 模型在LLaVA-Bench 和Ferret-Bench 上进行了评估,在所有任务上都表现良好,尤其是在需要参考和视觉基础的三个新任务上,Ferret 表现良好。
而且,图像细节的描述得到了显着提升,错觉明显减少。
Ferret大模型由苹果AI/ML和哥伦比亚大学研究团队联合带来,全中国阵容。
郝轩和张浩天是共同作者。
尤浩轩目前拥有哥伦比亚大学计算机科学博士学位,毕业后将加入苹果AI/ML 团队。 2018年毕业于西安电子科技大学。
主要研究方向为视觉语言理解、文本图像生成和视觉语言。
张浩天现在是苹果AI/ML团队的视觉智能研究员。
在加入Apple 之前,张浩天获得了华盛顿大学的博士学位和上海交通大学的学士学位。
他是GLIP/GLIPv2的主要作者之一。 GLIP 被提名为CVPR2022 最佳论文奖。
此外,团队成员还包括来自Google、微软的甘哲、王子瑞、曹亮亮、杨银飞等众多优秀的多模态大模型研究人员。
论文地址:https://arxiv.org/abs/2310.07704