发布时间:2023-07-03
点击次数: 分布外(OOD)检测对于开放世界智能系统的可靠运行至关重要,但目前面向对象的检测方法存在「评估不一致」(evaluation inconsistencies)的问题。
之前的工作OpenOOD v1统一了OOD检测的评估,但在可扩展性和可用性方面仍然存在限制。
最近开发团队再次提出OpenOOD v1.5,相比上一版本,新的OOD检测方法评估在确保准确、标准化和用户友好等方面得到显著提升。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图片
paper: https://arxiv.org/abs/2306.09301
OpenOOD Codebase: https://github.com/Jingkang50/OpenOOD
OpenOOD Leaderboard: https://zjysteven.github.io/OpenOOD/
值得注意的是,OpenOOD v1.5将其评估功能扩展到ImageNet等大规模数据集,研究了重要但尚未开发的全谱OOD检测,并引入了新功能,包括在线排行榜和易于使用的评估器。
这项工作也有助于深入的分析和见解来自全面的实验结果,从而丰富了知识库的OOD检测方法。
通过这些增强,OpenOOD v1.5旨在推动OOD研究的进展,并为OOD检测研究提供更强大和更全面的评估基准。
对于训练好的图像分类器,能让其可靠地在开放世界中工作的一个关键能力便是检测未知的、分布外的(out-of-distribution, OOD)样本。
例如我们利用一组猫狗照片训练出了一个猫狗分类器。对于分布内的(in-distribution, ID)样本,也就是这里的猫、狗图片,我们自然期待分类器能够准确地将它们识别到相应的类别中去。
而对于分布外的OOD样本,也就是除了猫狗之外的任何图片(例如飞机、水果等等),我们希望模型能够检测出它们是未知的、新颖的物体/概念,因而无法将它们判别到分布内的猫或狗任何一类中。
这个问题便是分布外检测(OOD detection),其近年来吸引了广泛的关注,新工作层出不穷。然而领域快速扩张的同时,追踪、衡量领域的发展现状却由于种种原因成了一件难事。
深度学习各个任务的快速发展都离不开统一的测试数据集(就像图像分类有CIFAR,ImageNet,物体检测有PASCAL VOC,COCO)。
然而不幸的是OOD检测领域一直以来都缺乏统一的、被广泛采用的OOD数据集。这就造成了在上图中,当我们回看已有工作的实验设定时,会发现所用的OOD数据十分不一致(例如对于CIFAR-10是ID数据的情况,有些工作使用MNIST,SVHN作为OOD,有些工作使用CIFAR-100,Tiny ImageNet作为OOD)。在这样的情况下,直接公平地比较全部方法面临巨大困难。
除了OOD检测外,另外一些术语比如“开集识别”(Open-Set Recognition, OSR),“新类检测”(Novelty Detection)也常常出现在文献中。
它们本质上都在关注同一个问题,仅在一些实验设定的细节上有着微小差别。然而不同的术语会导致方法之间形成不必要的分支,例如OOD检测和OSR就曾经被当作是两个独立的任务,而不同分支之间的方法(尽管在解决同一个问题)也很少被放在一起比较。
在许多工作中,研究者们往往直接使用OOD测试集中的样本来调参甚至训练模型。这样的操作会对方法的OOD检测能力做出高估。
以上的问题显然是对领域的有序发展不利的,我们迫切需要一个统一的基准和平台来测试评估现有以及未来的OOD检测方法。
OpenOOD 在这样的挑战下应运而生。其第一版迈出了重要的一步,然而有着规模小、可用性有待提升的问题。
因此在OpenOOD全新版本v1.5中,我们进一步做了加强和升级,试图打造一个全面、准确、易用的测试平台供广大研究者使用。
总结来看,OpenOOD有着如下重要的特性和贡献:
该代码库将模型结构、数据预处理、后处理器、训练、测试等等进行了解藕及模块化,方便复用以及开发。目前OpenOOD实现了近40种最先进的针对图像分类任务的OOD检测方法。
图片
如上图所示,仅用几行代码,OpenOOD的评估器就可以在指定的ID数据集上给出所提供的分类器、后处理器的OOD检测测试结果。
相应的OOD数据是由评估器内部所确定并提供的,这保证了测试的一致性和公平性。该评估器也同时支持标准OOD检测(standard OOD detection)和全谱OOD检测(full-spectrum OOD detection)两种场景(后文会有更多介绍)。
利用OpenOOD,我们在CIFAR-10,CIFAR-100, ImageNet-200,ImageNet-1K四个ID数据集上比较了近40种OOD检测方法的性能,并将结果制作成了公开排行榜。希望能够帮助大家随时了解领域内最有效、最有潜力的方法。
根据OpenOOD全面的实验结果,我们在论文中提供了许多新发现。例如,尽管看起来与OOD检测关系不大,但数据增强(data augmentation)实际上能有效提升OOD检测的性能,且这方面提升与具体OOD检测手段带来的提升是正交、互补的。
另外,我们发现已有方法在全谱OOD检测上的表现并不尽如人意,这也将是未来领域内一个重要的待解决问题。
这一部分会简略、通俗地描述标准与全谱OOD检测的目标。对于更详细、正式的描述,欢迎大家阅读我们的论文。
图片
首先讨论一些背景。在我们所考虑的图像分类场景下,分布内(ID)数据是由相应的分类任务所定义的。例如对于CIFAR-10分类,ID分布就对应着它的10个语义类别。
OOD的概念是相对于ID形成的:ID语义类别之外的、与ID类别不同的任何语义类别所对应的图片都是分布外OOD图片。与此同时,我们需要讨论如下两种类型的分布偏移(distributional shift)。
Semantic Shift:深层语义层面上的分布变化,对应上图横轴。例如训练时语义类别是猫、狗,测试时语义类别是飞机、水果。
Covariate Shift:表层统计层面上的分布变化(而语义不变),对应上图纵轴。例如训练时是猫、狗的干净自然照片,测试时是加了噪声或手绘的猫、狗图片。
有了上述背景,再结合上图就可以很好理解标准以及全谱OOD检测。
目标(1):在ID分布上训练一个分类器,使其能够准确对ID数据进行分类。这里假设测试ID数据与训练ID数据不存在covariate shift。
目标(2):基于训练好的分类器,设计OOD检测方法使其能够对任意样本进行ID/OOD的二分类区分。在上图中对应的是将(a)和(c) + (d)区分开来。
目标(1):与标准OOD检测类似,但区别在于考虑了covariate shift,也就是无论测试ID图片相比训练图片是否有covariate shift,分类器都需要精准分类到相应的ID类别中(例如猫狗分类器不仅应该准确分类“干净”猫狗图片,还应当能泛化到带噪、模糊的猫狗图片上)。
目标(2):同样考虑covariate-shifted ID样本,需要将其与正常(没有covariate shift)的ID样本一同与OOD样本判别开来。对应上图中区分(a) + (b)和(c) + (d)。
熟悉的小伙伴可能已经发现,全谱OOD检测中的目标(1)实际上对应着另一个很重要的研究课题——分布外泛化(OOD generalization)。
需要澄清一下,OOD泛化中的OOD指的是存在covariate shift的样本,而OOD检测中的OOD指的是存在semantic shift的样本。
这两种偏移(shift)都是现实世界中十分常见的,然而现有的OOD 泛化和标准OOD检测都仅仅只考虑了其中一种而忽略了另一种。
与之相反,全谱OOD检测在同一场景下将两种偏移自然地考虑在了一起,更准确地反映了我们对于一个理想分类器在开放世界中表现的预期。
在1.5版本中,OpenOOD对近40种方法在6个基准(benchmark)数据集(4个针对标准OOD检测,2个针对全谱OOD检测)上做了统一、全面的测试。
论文中对所实现的方法及数据集都进行了描述,欢迎大家查阅。全部实验也都可以在OpenOOD的代码库中复现。这里我们直接讨论从对比结果中得到的发现。
图片
在上表中,不难发现并没有任何一个方法能够在全部基准数据集上持续地给出突出表现。
例如后处理的方法(post-hoc inference methods)ReAct和ASH在大数据集ImageNet上表现优异,但在CIFAR上相比其他方法并没有优势。
与之相反,一些在训练中加入约束的方法(training methods),例如RotPred和LogitNorm,在小数据集上要优于后处理方法,但在ImageNet上并不突出。
如上表所示,尽管数据增强并不是专门为OOD检测所设计的,但它们却能有效提升OOD检测的表现。更令人惊喜的是,数据增强带来的提升与具体OOD后处理方法带来的提升是互相放大的。
这里以AugMix为例,当它与最简单的MSP后处理器结合时,在ImageNet-1K near-OOD检测率上达到了77.49%,仅比不适用数据增强的交叉熵损失(corss-entropy loss)训练的检测率77.38%高1.47%。
然而当AugMix与更先进的ASH后处理器结合时,相应的检测率比交叉熵基线高了3.99%,并达到了我们测试中最高的82.16%。这样的结果显示了数据增强与后处理器的结合对于未来进一步提升OOD检测能力是非常有潜力的。
从上图中可以清晰的看出,当场景从标准OOD检测切换为全谱OOD检测时(也即在测试ID数据中加入了covariate-shifted ID图片),绝大多数方法的性能都表现出了显著的退化(大于10%的检测率的下降)。
这代表着当前方法倾向于将实际语义未发生变化的covariate-shifted ID图片标记为OOD。
该行为与人类的感
知(同时也是全谱OOD检测的目标)是相悖的:假设一个人类标记员在标记猫狗图片,此时给他/她出示带噪、模糊的猫狗图片,他/她应当仍会识别出那是猫/狗,是分布内ID数据而不是未知的分布外OOD数据。
总的来看,目前方法无法有效地解决全谱OOD检测,而我们相信这将是未来领域内的一大重要问题。
此外还有许多发现没有列在这里,例如数据增强对于全谱OOD检测仍旧有效等等。再次欢迎大家阅读我们的论文。
我们希望OpenOOD的代码库、测试器、排行榜、基准数据集以及详实的测试结果能够汇集各路研究人员的力量一起来推动领域发展。十分期待大家使用OpenOOD进行OOD检测的开发、测试。
我们也欢迎任意形式的对OpenOOD的贡献,包括但不限于提出反馈,将最新的方法添加到OpenOOD代码库和排行榜中,扩展未来版本OpenOOD等等。
ChatGPT Writer
免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。
106
查看详情
参考资料:https://arxiv.org/abs/2306.09301
以上就是OpenOOD更新v1.5:全面、精确的分布外检测代码库及测试平台,支持在线排行榜、一键测试的详细内容,更多请关注其它相关文章!
# 数量
# 家族网站建设游戏推荐
# 网站怎么找客户推广
# 都是
# 欢迎大家
# 未来
# 但在
# 开源
# 图中
# 检测方法
# 猫狗
# 一键
# 的是
# OpenOOD
# 性能
# 石家庄seo培训排名
# 莆田市网站优化推广电话
# 黄浦外贸网站建设
# 网站推广方式参数
# 最优企业网站优化公司
# 娄底网站优化公司在哪里
# seo文章兼职怎么样
# 珠海网站内容建设
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
华为小艺AI助手将实现强大的大模型能力
微软在 Build 大会上宣布的新 Microsoft Store AI Hub 现已开始推出
脑机接口产业联盟发布十大脑机接口关键技术
携程发布旅游行业垂直大模型 梁建章:AI策略是做可靠的内容 放心的推荐
RoboNeo操作教程
"探索Meta发布的Quest MR/VR视频录制与拍摄指南"
全新升级的广州麦当劳:面积最大餐厅正式引入智慧机器人
世界人工智能大会(WAIC 2025)点燃魔都,博尔捷数字科技携前沿技术产品亮相
即将到来:AI婚纱设计软件实际测试,人工智能即将开创婚纱设计新纪元
厂商陆续公布AI进展 完美世界游戏展示复合应用AI in GamePlay
IBM 与 NASA 携手开源地理空间 AI 模型,促进气候科学研究进步
深度学习模型综述:用于3D MRI和CT扫描的应用
外科医生的智能助手,“机器人手术”得到补充商业医保覆盖
英特尔张宇:边缘计算在整个AI生态系统中扮演重要角色
谷歌旗下 DeepMind 开发出 RoboCat AI 模型,能控制多种机器人执行一系列任务
意大利警察拟用AI预测犯罪 该算法被指种族歧视严重
猿辅导发布最新SaaS业务进展公告:Motiff UI设计工具推出三项新的AI功能
行业首发「超级智绘」AI故事集,TCL实业推进AI技术应用
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
抛媚眼给瞎子看?微软、谷歌的AI广告被广告主抵制
英伟达首席执行官黄仁勋:生成式 AI 时代「人类」会是新的编程语言
日本演员工会提出AI立法建议 要求建立“声音肖像权”
消息称 ChatGPT 未来有望增加更多功能:上传文件分析信息,还能记住用户画像
微软 Copilot 团队主管呼吁用户与 AI 交流时应使用恰当的礼貌用语
朱民:普通人炒股炒不过机器人是很正常的 AI已经能理解市场情绪
人手一部「*」!视频版Midjourney免费可用,一句话秒生酷炫大片惊呆网友
WHEE安装教程
赋能金融新生态,多家银行创新应用成果亮相世界人工智能大会
技术如何使人变得懒惰?
管提需求,大模型解决问题:图表处理神器SheetCopilot上线
AI智能室内效果图设计软件效果,确实惊到我了!
人工智能:解决劳动力短缺的关键策略
用AI升级会议体验!思必驰多款会议产品亮相全球智博会!
人工智能颠覆软件测试四大方式
编程版GPT狂飙30星,AutoGPT危险了!
“电碳”技术提升碳排放监测精度
物联网“僵尸网络DDos攻击”增长惊人,威胁全球电信网络
云鲸发布全新的扫拖机器人J4系列
美图第二届影像节发布七款AI影像创作工具
0代码微调大模型火了,只需5步,成本低至150块
懒人必备的家居清洁好物,石头自清洁扫拖机器人G20
建立元宇宙产业联盟:移动、咪咕、华为、小米等加入
为AI而服务设计:构建以人为本的AI创新方法
微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权
百度文心一言App上架苹果商店,人工智能创作引发热议
爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化
从数据中心到发电站:人工智能对能源使用的影响
学生作文评分的新趋势:教师与AI的合作模式
美图公司吴欣鸿:AI技术重构影像产业
边喷火边跳踢踏舞,机器狗最新技能爆火全网!网友直呼真·热狗