快捷AI导航
快捷AI导航
首页AI绘图AI视频AI对话AI 编程开发
+
  1. 当前位置:
  2. 首页
  3. AI 模型评测
  • AI 绘图
  • AI 视频生成
  • AI 聊天对话
  • AI 写作助手
  • AI 图像处理
  • AI 设计工具
  • AI 编程开发
  • AI 语音生成
  • AI 翻译工具
  • AI 内容检测
  • AI 训练模型
  • AI 模型评测
  • AI 学习网站
  • AI 开发框架
  • AI 提示词
  • AI 搜索引擎
  • AI 文档办公
  • AI 思维导图
  • AI 角色生成
  • AI 电商工具
  • AI 会议助手
  • AI 综合工具
  • AI 开源工具
  • AI 行业工具
  • AI 角色生成
  • AI 网站生成
  • 国产大模型
  • AI 国外工具
  • AI 数字人
  • 未知分类
  • AI Agent
  • PubMedQA
    生物医学研究问答数据集和模型得分排行榜
  • H2O EvalGPT
    H2O.ai推出的基于Elo评级方法的大模型评估系统
  • LLMEval3
    由复旦大学NLP实验室推出的大模型评测基准
  • Chatbot Arena
    以众包方式进行匿名随机对战的LLM基准平台
  • HELM
    斯坦福大学推出的大模型评测体系
  • MMBench
    全方位的多模态大模型能力评测体系
  • CMMLU
    一个综合性的大模型中文评估基准
  • OpenCompass
    上海人工智能实验室推出的大模型开放评测体系
  • SuperCLUE
    中文通用大模型综合性测评基准
  • FlagEval
    智源研究院推出的FlagEval(天秤)大模型评测平台
  • C-Eval
    一个全面的中文基础模型评估套件
  • Open LLM Leaderboard
    Hugging Face推出的开源大模型排行榜单
  • MMLU
    大规模多任务语言理解基准

AI 模型评测

暂无简介

热门工具

  • Open LLM Leaderboard
    Open LLM Leaderboard
    Hugging Face推出的开源大模型排行榜单
  • C-Eval
    C-Eval
    一个全面的中文基础模型评估套件
  • MMLU
    MMLU
    大规模多任务语言理解基准
  • H2O EvalGPT
    H2O EvalGPT
    H2O.ai推出的基于Elo评级方法的大模型评估系统
  • HELM
    HELM
    斯坦福大学推出的大模型评测体系
  • PubMedQA
    PubMedQA
    生物医学研究问答数据集和模型得分排行榜
  • Chatbot Arena
    Chatbot Arena
    以众包方式进行匿名随机对战的LLM基准平台
  • CMMLU
    CMMLU
    一个综合性的大模型中文评估基准
  • MMBench
    MMBench
    全方位的多模态大模型能力评测体系
  • LLMEval3
    LLMEval3
    由复旦大学NLP实验室推出的大模型评测基准
快捷AI导航

一站式AI工具导航网站,集纳市面领先AI工具,包括AI绘图、AI对话、AI编程、AI视频编辑、AI设计与AI音频处理等,提供最新、最全的AI资源。

Contacts

Email:

[email protected]

备案号:

粤ICP备2024207953号

© Copyright 2024 - 2025 www.quicknavig.com. All rights reserved.

  • 隐私协议
  • 用户协议
  • 关于我们