
LLMEval3
相关推荐
H2O EvalGPTH2O.ai推出的基于Elo评级方法的大模型评估系统
OpenCompass上海人工智能实验室推出的大模型开放评测体系
CMMLU一个综合性的大模型中文评估基准
C-Eval一个全面的中文基础模型评估套件
MMLU大规模多任务语言理解基准
PubMedQA生物医学研究问答数据集和模型得分排行榜
Chatbot Arena以众包方式进行匿名随机对战的LLM基准平台
SuperCLUE中文通用大模型综合性测评基准
LLMEval3由复旦大学NLP实验室推出的大模型评测基准
Open LLM LeaderboardHugging Face推出的开源大模型排行榜单
HELM斯坦福大学推出的大模型评测体系
MMBench全方位的多模态大模型能力评测体系
FlagEval智源研究院推出的FlagEval(天秤)大模型评测平台
热门工具
- Open AutoGLM基于AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。
- 拍我AI一站式生成有趣AI视频、创意AI图片和专属AI智能体。海量AI模板一键套用,让视频、图片创作零门槛。释放无限想象力,即刻拍出你的AI大作!
腾讯元器腾讯混元大模型团队推出的智能体开放平台,开发者可以通过插件、知识库、工作流等方式快速、低门槛打造高质量的智能体。- 百炼阿里云大模型服务平台,提供AI模型训练、部署、推理一站式服务,支持多种大模型框架,助力企业快速构建AI应用。
HeyFridayFriday AI智能写作平台,一键生成高质量原创内容! Friday AI-国内顶尖算法模型,AI自动生成原创文章,支持改写,续写,扩写,搜索引擎优化,全场景媒体运营神器!
AutoSubs - AI字幕一键创建高质量字幕。AutoSubs 提供快速、准确且完全可自定义的字幕,界面简洁直观。现在可与 DaVinci Resolve 配合使用,也可独立运行。- SkidHomework - AI开源作业帮AI驱动家庭作业批改解答工具,支持拍照上传以及PDF文件,无需下载浏览器直接运行
Tabby - AI编码助手一款可自行托管的 AI 代码助手,为 GitHub Copilot 提供了一种开源的本地部署替代方案,支持VS Code,JetBrains,VIM 。
精选500+AI Agent应用精选各行业AI Agent应用案例,包括CrewAI Agent用例,自动生成Agent用例,Agno用例,Langgraph用例.- Langflow一个功能强大的平台,用于构建和部署 AI 驱动的代理和工作流。它为开发者提供可视化创作体验以及内置的API和MCP服务器,可以将每个工作流转化为可集成到基于任何框架或技术栈构建的应用程序中的工具。
一站式AI工具导航网站,集纳市面领先AI工具,包括AI绘图、AI对话、AI编程、AI视频编辑、AI设计与AI音频处理等,提供最新、最全的AI资源。
















