谷歌验证码人工智能(谷歌验证码识别插件)

525 2023-12-02 17:01:34

AI可以处理Google验证码,最新的多模态大模型比GPT-4V空间理解更准确。原始来源:量子比特

1.png

202310211697863458331674.jpg 图片来源:无界AI生成?

谷歌的人机验证已经挡不住AI了!

最新的多模态大模型可以轻松找到图片中的所有红绿灯,并精确圈出具体位置。

202310211697863458386395.jpg的性能直接超越GPT-4V。

202310211697863459373724.jpg 这是苹果和哥伦比亚大学研究团队带来的多模态大型模型“Ferret”。

202310211697863459316580.jpg 具有更强的图文关联能力,提高大型模型在“看、说、答”任务中的准确率。

例如下图中非常小的部件(区域1)也可以区分为减震器。

202310211697863460243163.jpgGPT-4V 无法正确回答,并且在小零件上表现不佳。

202310211697863461739737.jpg那么,Ferret是怎么做到的呢?

“点一点”图像大模型都懂

Ferret解决的核心问题是让指代和落地的空间理解能力更加紧密。

参考是指让模型能够准确理解给定区域的语义,即它对某个位置的了解。

定位给出了语义,让模型能够找到图片中对应的目标。

对于人类来说,这两种能力是自然结合的,但许多现有的大型多模态模型仅单独使用参考和定位。

202310211697863462618755.jpg 因此,Ferret提出了一种新的混合区域表示方法,可以结合离散坐标和连续特征来表示图像中的区域。

这样,模型就可以区分具有几乎相同边界框的对象。

比如下图中的两个物体的情况,如果只使用离散的边界框,模型会感觉很“混乱”。结合连续自由形状混合表示,可以很好地解决这个问题。

202310211697863462620850.jpg 为了提取不同区域的连续特征,论文提出了一种空间感知视觉采样器,可以处理不同形状之间的稀疏差异。

因此,Ferret 可以接受各种区域输入,例如点、边界框和自由形状,并理解它们的语义。

在输出中,它可以根据文本自动生成每个定位对象的坐标。

202310211697863462495751.jpg 为了实现这一目标,Ferret 模型的架构包括图像编码器、空间感知视觉采样器和语言模型(LLM) 等组件。

Ferret 将离散坐标和连续特征结合起来形成混合区域表示。

这种表示方法旨在解决表示各种形状和格式的区域的挑战,包括点、边界框和自由形状。

将离散坐标中的每个坐标量化为目标框的离散坐标。这种量化确保了模型对不同图像尺寸的鲁棒性。

连续特征由空间感知视觉采样器提取,该采样器使用二进制掩模和特征图来随机采样ROI内的点,并通过双线性插值获得特征。

这些特征由受3D 点云模型启发的空间感知模块进行处理,压缩为单个向量,并映射到大型语言模型(LLM) 以进行进一步处理。

202310211697863462903324.jpg 为了增强Ferret的能力,论文还创建了一个名为GRIT的数据集。

该数据集包含110 万个样本,涵盖四个主要类别:个体对象、对象之间的关系、特定区域的描述以及基于复杂区域的推理。

GRIT数据集包括从公共数据集转换的数据、通过ChatGPT和GPT-4生成的指令调优数据,并额外提供95K困难负样本以提高模型的鲁棒性。

202310211697863463680817.jpg 实验结果表明,该模型不仅在经典引文和本地化任务中表现出优越的性能,而且在基于区域和本地化需要的多模态对话中远远超过其他现有的MLLM模型。

202310211697863464548268.jpg 此外,研究还提出了Ferret-Bench,可以评估图像局部区域的参考/定位、语义、知识和推理能力。

Ferret 模型在LLaVA-Bench 和Ferret-Bench 上进行了评估,在所有任务上都表现良好,尤其是在需要参考和视觉基础的三个新任务上,Ferret 表现良好。

202310211697863464416875.jpg 而且,图像细节的描述得到了显着提升,错觉明显减少。

202310211697863465640045.jpg

全华人团队

Ferret大模型由苹果AI/ML和哥伦比亚大学研究团队联合带来,全中国阵容。

郝轩和张浩天是共同作者。

尤浩轩目前拥有哥伦比亚大学计算机科学博士学位,毕业后将加入苹果AI/ML 团队。 2018年毕业于西安电子科技大学。

主要研究方向为视觉语言理解、文本图像生成和视觉语言。

202310211697863465749799.jpg 张浩天现在是苹果AI/ML团队的视觉智能研究员。

在加入Apple 之前,张浩天获得了华盛顿大学的博士学位和上海交通大学的学士学位。

他是GLIP/GLIPv2的主要作者之一。 GLIP 被提名为CVPR2022 最佳论文奖。

202310211697863465249772.jpg 此外,团队成员还包括来自Google、微软的甘哲、王子瑞、曹亮亮、杨银飞等众多优秀的多模态大模型研究人员。

论文地址:https://arxiv.org/abs/2310.07704

上一篇: 虚拟币如何看k线(虚拟币k线图怎么看视频教程)
下一篇: 五大区块链平台(五个区块链接是什么)
相关文章
返回顶部小火箭