一、赛题背景
随着人工智能技术的发展,AI对文本理解、知识问答、逻辑推理的能力日趋完善。然而现有大模型在解决特定行业领域问题时依然存在挑战。现诚邀水利水电行业领域专家、资深研究人员、从业者、学生等参与比赛,通过设计模型的BadCase(大模型回答错误的客观题),探讨AI在解答水利水电领域相关问题的过程中可能暴露的弱点与局限性。以此推动行业模型的训练和优化,支撑构建具备水利水电行业能力的大模型。
二、主办单位
清华大学水利水电工程系
全国水利工程学科联盟
北京智谱华章科技有限公司
国能大渡河大数据服务有限公司
三、赛题要求
(一)基本要求
本比赛支持个人参赛或组队参赛,仅接受客观题,禁止主观题,题目限于水利水电行业公开发表的内容(教材、著作、论文、行业规范、法律法规等),且需要满足以下要求:
1.知识准确性:确保题干和答案内容符合最新权威资料,题目答案唯一;
2.知识通用性:确保题目内容是水利水电行业领域内的通用知识,避免个性化问题(如提问某水电企业内部的规章制度、数据信息等),避免时效性问题(如提问某水库今日入库流量等);
3.难度控制:复杂概念或公式需在题干中给出必要解释,避免使用可能产生歧义的概念;4.格式要求:使用清晰序号系统,选项对齐,格式统一,(参见报名平台上的submit_example.xlsx);
5.标签要求:需为题目进行标签分类,一级标签为学科类别,二级标签为题目类型:
一级标签示例:水文水资源、河流生态、水力学、水力发电、水工建筑、岩土工程等;
二级标签示例:专业知识、逻辑推理、计算、代码生成、指令遵循、安全性等;
6.题目需标注答案来源:答案能够溯源。
(二)题目示例
比赛过程中,选手通过清竞平台完成题目提交,并查看得分。题目示例及提交格式,请参考平台发布文件。清竞平台:
https://competitions.zhipuai.cn/match
二、评分机制
(一)得分计算
参赛选手/队伍得分由模型得分和折扣系数两部分决定:
1.模型评分公式= sum{avg(每道题单个模型得分)}×折扣系数,每道题单个模型得分=某模型答错时得1分。
2.评测方案:采用脚本自动评测,参赛选手提交题目对抗GLM、Deepseek等大模型,获得模型评分。分初赛和复赛两个阶段,初赛阶段对抗GLM-4、Deepseek-v3等基础模型;排名前50的队伍进入复赛,对抗GLM-4-plus、Deepseek-r1等进阶模型;排名前15的队伍将获得获奖证书和奖金。
3.提交题目数量:正式比赛阶段提交题目的上限为100道,不设下限。一、二级标签完全相同的题目数量不得超过20道。
4.重大扣分项:破坏评审规则及评审秩序;剽窃他人数据;存在各种钻漏洞的行为,类似于构造大量重复数据、假数据等;其他严重违规行为。
(二)折扣系数
1.初始值:每个选手的折扣系数默认为1。
2.赛方审查规则:
①赛方不定期随机抽查队伍,对题目进行人工审查。
②如果被审查的题目存在明显错误(如抄袭超过10%、逻辑不通、答案非唯一、题目不可答、与水利水电无关等),则折扣系数将降低。
③折扣系数只会降低,无法提升。一旦折扣系数被调整,所有后续提交的题目得分将以新的折扣上限计算。
④公示机制:所有被判为不合格的题目将被公示在比赛平台,公开透明,供所有参赛者查看。
(三)动态反馈机制
1.选手在比赛期间可以多次提交部分结果,每次均可获得模型反馈和实时排名。
2.比赛的排名将以个人/队伍的**总分(按已有题目累计得分计算)**为依据进行实时更新。
三、奖项设置
赛方依照复赛得分(60%)与决赛专家评分(40%)对参赛队伍进行排名,设置:
一等奖1个(奖金10000元);
二等奖4个(奖金5000元);
三等奖10个(奖金2000元);
题目贡献奖:赛方将对所有提交题目进行人工评测,对质量较好的1000道题目授予题目贡献奖(奖金10元/题)。
人工测评考量方面:题目的专业性、稀缺性、应用性、创新性等。质量较高的题目即使评测分数较低,也会被授予题目贡献奖。
四、赛程赛制
时间 | 安排 |
3月21日 | 赛题发布,开启报名 |
3月25日 | 开启提交通道,选手可在线提交结果文件至竞赛平台,每日每队最多可提交2次,评测系统将自动评测得分并同步更新至排行榜 |
3月25日-4月1日 | 平台测试期 |
4月2日-4月25日 | 正式比赛阶段,提交参赛作品 |
4月25日 | 截止报名,截止参赛作品提交 |
5月6日 | 公布复赛队伍(50支)名单 |
5月16日 | 公布决赛队伍(15支)名单 |
5月底 | 组织决赛评审与颁奖 |
*赛程时间将根据赛事组织变化动态调整,请以实际通知为准。
平台测试期内,所有参赛选手可以尝试提交结果文件并获得得分反馈。期间主办方将依据选手提交的题目内容和问题做出反馈调整。测试期结束后,全部提交结果清零,选手重新提交作品,进入正式比赛阶段。
为了增强参赛选手对于大模型相关知识的了解和应用,办赛期间赛事组将面向参赛选手,定期组织大模型前沿讲座和答疑工作坊,讲座和答疑访线上开放。
五、报名方式
比赛赛题在清竞平台发布,参赛选手需在清竞平台注册报名后,获得队伍编号并填写报名问卷(下方二维码)。根据问卷填写完成显示的二维码,扫码进入比赛交流群,部分赛事信息将在群里同步。
比赛报名二维码
欢迎对相关比赛和水利大模型训练、开发、应用感兴趣的同行们扫码进入大模型交流群,比赛期间的讲座,及部分答疑资源将在群内同步。
水利水电大模型交流社群
六、注意事项
详细赛事文件以清竞平台实时更新内容为准,为确保比赛的公平性、原创性及合法性,所有参赛者需严格遵守以下内容权限规定:
1.原创性要求。题目设计应体现参赛者的独立思考与创造性,严禁任何形式的抄袭或剽窃行为。(如果找到现有数据集或题库高度相似甚至完全一致的题目,直接取消资格。)
2.题目公开与使用。比赛结束后,所有提交的题目将在整理后作为比赛成果的一部分进行公开,用于技术交流、模型评测及学术研究等非商业用途。参赛者需同意其设计的题目在比赛结束后由主办方公开使用,并允许其他研究者或开发者基于题目进行AI模型的测试与优化。
3.侵权责任。参赛者需确保其提交的题目不侵犯任何第三方的知识产权、版权或其他合法权益。如题目公开后出现任何侵权纠纷或法律问题,相关责任由参赛者本人承担,主办方不承担任何法律责任。参赛者需自行解决因题目设计引发的法律争议,并赔偿因此给主办方或其他第三方造成的损失。
4.免责声明。主办方对参赛者提交的题目内容不承担任何形式的审查义务,但保留对题目进行审核及移除涉嫌侵权内容的权利。如发现参赛题目存在侵权问题,主办方有权取消其参赛资格,并公开相关情况。
5.版权归属。参赛者对其设计的题目保留署名权,但需授予主办方在全球范围内永久性、非独占性的使用权,包括但不限于公开、复制、修改、传播等权利。
6.折扣系数约束。折扣系数的调整为不可逆过程,请谨慎设计题目,确保质量。
7.禁止恶意行为。若选手被查出恶意刷题、提交无意义题目或干扰比赛,将立即取消参赛资格。
8.本赛事一切规则和得分解释权归主办方所有。
七、组织机构
竞赛委员会主席:
赵建世(清华大学水利系教授)
竞赛委员会副主席:
辛沛(全国水利工程学科联盟秘书长)
许斌(智谱首席科学家)
罗玮(国能大渡河大数据服务有限公司党委副书记、总经理)
秘书处:
胡诗若(电话:18810275818)
汪柯璇(电话:18853115730)
芦治宇(电话:18813173382)
八、重要提示
请参赛者在提交题目前仔细检查内容的原创性,确保不侵犯他人权益。
如对题目的原创性或版权问题存在疑问,建议咨询相关法律专业人士。
本次比赛高度重视知识产权的保护与原创内容的创作。所有参赛者需确保题目为原创设计,并承担因题目公开后可能引发的侵权责任。通过共同努力,我们期待为水利水电行业AI技术的发展贡献更多高质量的评测资源与创新思路。