文章面向智能导购的Agent评测实践本文提出一套面向家居导购Agent的自动化评估链路:基于结构化多维度(基础/专业/补充指令+用户画像)Benchmark,采用LLM-as-a-judge实现91.9%准确率的自动评分,并通过人工抽样校准。#智能导购#Agent评测#LLM-as-a-judge大淘宝技术· 大约 13 小时前000