求知 文章 文库 Lib 视频 iPerson 课程 角色 咨询 工具 讲座 Model Center   Code  
讲座:AI大模型与智能体评测方法与工具

主讲:赵老师
研发质量与效能总监/技术专家
时间:2026年5月23日
          上午10:00-11:00
费用:免费
分享重点:
     针对AI大模型与智能体选型,优化效果度量等需求,需要对其进行客观量化评测,本主题通过案例全面讲解评测流程、方法与工具,并对评测结果进行解读、瓶颈与优化策略分析。
  • 课程安排:

  • 1. AI大模型与智能体评测流程
  • 2. AI大模型与智能体主要评测指标
  • 3. 通过大模型自动生成评测数据
  • 4. 利用Opencompass评测大模型
  • 5. 利用Ragas进行AI智能体评测
  • 6. 评测指标解读
  • 7. RAG性能瓶颈分析
  • 8. RAG优化策略
  • 目标听众:关注AI研发与测试的人员
  • 问题收集(以下问题将在讲座中进行讨论或解答)
    做模型的公司很多,怎么选呢,尤其是一些免费的,怎么能及时知道对应的场景更新

    如何运用AI实现软件代码质量审查

    智能体的选择
    如何确保代码与产品质量
    多agent协作

    如何评测含多个大小模型的智能体?
    对于用户能自由设置工具、技能的智能体,评测时要注意哪些问题?
    如何选出智能体+RAG组合性能较好的方案?

    通过大模型收集的数据,怎么判断数据是有效的?

    主要想了解大模型和智能体相关知识

    智能体测试方法

    阅读 396 12