评测指标(静态可抓取)
用于课程场景下的可用性与效果衡量:不追求“万能”,更关注“可控、可解释、可复现”。
| Key | 说明 | 目标 |
|---|---|---|
final_answer_accuracy | 最终答案准确率 | 可持续提升 |
visual_evidence_valid_rate | 可视化证据有效率 | 图形与结论一致 |
structure_valid_rate | 结构化输出校验通过率 | 便于复盘/统计 |
verification_pass_rate | 校验通过率 | 关键步骤可核验 |
average_latency_ms | 平均响应延迟 | 课堂可用 |
Last updated: 2026-05-26