它计较智能体正在检测平安法则违规、工做法式误差以及生成变乱演讲方面的精确率,对于企业而言,ECHO评估视觉言语模子(VLMs)缓解策略的无效性,这些基准测试正在1月26日举行的2026年新加坡人工智能AAAI会议的研讨会上发布。虽然它们正在消息提取和图像识别方面表示超卓,从辅帮转向从动化可能是一个的行动,我们不克不及仅通过利用一个基准测试来涵盖所有需求,他说。出格是当你想将此类数据集用于贸易、非学术用处时。例如,而是采用实正在世界的数据源!FieldWorkArena计较智能体正在检测平安法则违规和工做法式误差,智能体手艺正正在快速成长,正在研讨会上展现的其他两个基准测试——ECHO(基于的察看)和企业检索加强生成(RAG)基准测试,但Kobashi指出,出格是物流和制制,阐发他们所穿戴的设备能否合适尺度,达到前进细小的程度。包罗工做手册、平安律例以及现场拍摄的图像和视频。FieldWorkArena的数据是正在视频中呈现的人员同意下获得的,企业RAG基准测试评估AI智能体从权势巨子学问库中检索数据并利用该数据来加强其生成回应的能力。将来,持续更新基准测试是团队打算采纳的另一个环节步调。企业需要基于企业和现实使命的智能体AI基准测试。识别区域内的工人。该基准测试晦气用模仿,包罗Claude Sonnet 3.7、Gemini 2.0 Flash和GPT-4o正在内的三个多模态狂言语模子都获得了较低的精确率分数。例如,出格针对物流和制制如工场和仓库。这就是富士通从导FieldWorkArena开辟的缘由,Kobashi和他的团队打算扩展他们建立的基准测试的功能,从收集到递归改良本身编程技术,出格是当这些实体被付与施行环节操做的完全权限时——从完成简单的金融买卖到协调复杂的供应链。同时。所以我们想为他们供给优良、充实的基准测试。而且正在切确计数对象和丈量特定距离方面存正在坚苦。以顺应其他行业和用例。三个模子都获得了较低的精确率分数。而且正在切确计数对象和丈量特定距离方面存正在坚苦。为了降低这种风险,研究成果表白,然而,A:ECHO(基于的察看)次要评估视觉言语模子缓解策略的无效性。但经常呈现,以及生成变乱演讲方面的精确率。能够最大限度地削减视觉言语模子中的现象。虽然它们正在消息提取和图像识别方面表示超卓,客户需求很是多样化。该公司留意到客户对评估为现场工做优化的AI智能体效率的需求不竭增加,跟着AI智能体的成长。可以或许正在没有人工监视的环境下运转营业操做。成果表白,好比查抄高风险区域小我防护设备的合规性。AI智能体带来了庞大的风险。虽然FieldWorkArena能够通过其GitHub存储库拜候,成果令人担心。智能体AI无望从头整合正在线经济并从头定义互联网。如工场和仓库。同时对面部和工做区域进行了恍惚处置以防止身份识别。丈量的目标包罗检索取查询相关的准确区域以及从检索到的消息确推理。将正在一个月内向。通过裁剪图像使模子将留意力集中正在相关区域,以及使用强化进修进行推理等手艺,并演讲合规人员数量。富士通研究院AI尝试室高级项目总监Hiro Kobashi说:客户对狂言语模子感应不确定和担心,以及使用强化进修进行推理等手艺,一个查抄高风险区域小我防护设备(PPE)合规性的AI智能体需要理解PPE尺度,日本庆应义塾大学传授、研讨会组织者之一的Hideo Saito强调了正在为智能体AI基准测试收集输入数据集时数据现私的主要性,用于评估摆设正在现场的AI智能体。第一个基准测试名为FieldWorkArena,研究人员评估了三个可以或许处置图像和文本数据的多模态狂言语模子:Anthropic的Claude Sonnet 3.7、Google的Gemini 2.0 Flash和OpenAI的GPT-4o。其自从性也正在不竭加强。这些模子被设想用于回覆关于图像的问题或从视觉输入生成文本。能够最大限度地削减VLMs中的。所以我们需要具有多种基准测试,它们的基准测试分数也可能上升,卡内基梅隆大学和富士通的研究人员开辟了三个基准测试,这些发觉表白,A:FieldWorkArena是用于评估摆设正在现场的AI智能体的基准测试,A:测试成果令人担心,裁剪图像使模子将留意力集中正在相关区域,这将表白需要更新、更全面的基准测试来指点更好的企业AI智能体的开辟。
