聚焦关注!大语言模型水利水电知识盲区挑战赛,等你参赛!
发布时间: 2025-03-24

一、赛题背景

随着人工智能技术的发展,AI对文本理解、知识问答、逻辑推理的能力日趋完善。然而现有大模型在解决特定行业领域问题时依然存在挑战。现诚邀水利水电行业领域专家、资深研究人员、从业者、学生等参与比赛,通过设计模型的BadCase(大模型回答错误的客观题),探讨AI在解答水利水电领域相关问题的过程中可能暴露的弱点与局限性。以此推动行业模型的训练和优化,支撑构建具备水利水电行业能力的大模型。 

二、主办单位

清华大学水利水电工程系

全国水利工程学科联盟

北京智谱华章科技有限公司

国能大渡河大数据服务有限公司

三、赛题要求

(一)基本要求

本比赛支持个人参赛或组队参赛,仅接受客观题,禁止主观题,题目限于水利水电行业公开发表的内容(教材、著作、论文、行业规范、法律法规等),且需要满足以下要求:

1.知识准确性:确保题干和答案内容符合最新权威资料,题目答案唯一;

2.知识通用性:确保题目内容是水利水电行业领域内的通用知识,避免个性化问题(如提问某水电企业内部的规章制度、数据信息等),避免时效性问题(如提问某水库今日入库流量等);

3.难度控制:复杂概念或公式需在题干中给出必要解释,避免使用可能产生歧义的概念;4.格式要求:使用清晰序号系统,选项对齐,格式统一,(参见报名平台上的submit_example.xlsx);

5.标签要求:需为题目进行标签分类,一级标签为学科类别,二级标签为题目类型:

一级标签示例:水文水资源、河流生态、水力学、水力发电、水工建筑、岩土工程等;

二级标签示例:专业知识、逻辑推理、计算、代码生成、指令遵循、安全性等;

6.题目需标注答案来源:答案能够溯源。

(二)题目示例

比赛过程中,选手通过清竞平台完成题目提交,并查看得分。题目示例及提交格式,请参考平台发布文件。清竞平台:

https://competitions.zhipuai.cn/match

二、评分机制

(一)得分计算

参赛选手/队伍得分由模型得分和折扣系数两部分决定:

1.模型评分公式= sum{avg(每道题单个模型得分)}×折扣系数,每道题单个模型得分=某模型答错时得1分。

2.评测方案:采用脚本自动评测,参赛选手提交题目对抗GLMDeepseek等大模型,获得模型评分。分初赛和复赛两个阶段,初赛阶段对抗GLM-4Deepseek-v3等基础模型;排名前50的队伍进入复赛,对抗GLM-4-plusDeepseek-r1等进阶模型;排名前15的队伍将获得获奖证书和奖金。

3.提交题目数量:正式比赛阶段提交题目的上限为100道,不设下限。一、二级标签完全相同的题目数量不得超过20道。

4.重大扣分项:破坏评审规则及评审秩序;剽窃他人数据;存在各种钻漏洞的行为,类似于构造大量重复数据、假数据等;其他严重违规行为。

(二)折扣系数

1.初始值:每个选手的折扣系数默认为1

2.赛方审查规则:

赛方不定期随机抽查队伍,对题目进行人工审查。

如果被审查的题目存在明显错误(如抄袭超过10%、逻辑不通、答案非唯一、题目不可答、与水利水电无关等),则折扣系数将降低。

折扣系数只会降低,无法提升。一旦折扣系数被调整,所有后续提交的题目得分将以新的折扣上限计算。

公示机制:所有被判为不合格的题目将被公示在比赛平台,公开透明,供所有参赛者查看。

(三)动态反馈机制

1.选手在比赛期间可以多次提交部分结果,每次均可获得模型反馈和实时排名。

2.比赛的排名将以个人/队伍的**总分(按已有题目累计得分计算)**为依据进行实时更新。

三、奖项设置

赛方依照复赛得分(60%)与决赛专家评分(40%)对参赛队伍进行排名,设置:

一等奖1(奖金10000元);

二等奖4(奖金5000元);

三等奖10(奖金2000元);

题目贡献奖:赛方将对所有提交题目进行人工评测,对质量较好的1000道题目授予题目贡献奖(奖金10/题)。

人工测评考量方面:题目的专业性、稀缺性、应用性、创新性等。质量较高的题目即使评测分数较低,也会被授予题目贡献奖。

四、赛程赛制

时间安排
321赛题发布,开启报名
325开启提交通道,选手可在线提交结果文件至竞赛平台,每日每队最多可提交2次,评测系统将自动评测得分并同步更新至排行榜
325-41平台测试期
42-425正式比赛阶段,提交参赛作品
425截止报名,截止参赛作品提交
56公布复赛队伍(50支)名单
516公布决赛队伍(15支)名单
5月底组织决赛评审与颁奖

*赛程时间将根据赛事组织变化动态调整,请以实际通知为准。

平台测试期内,所有参赛选手可以尝试提交结果文件并获得得分反馈。期间主办方将依据选手提交的题目内容和问题做出反馈调整。测试期结束后,全部提交结果清零,选手重新提交作品,进入正式比赛阶段。

为了增强参赛选手对于大模型相关知识的了解和应用,办赛期间赛事组将面向参赛选手,定期组织大模型前沿讲座和答疑工作坊,讲座和答疑访线上开放。

五、报名方式

比赛赛题在清竞平台发布,参赛选手需在清竞平台注册报名后,获得队伍编号并填写报名问卷(下方二维码)。根据问卷填写完成显示的二维码,扫码进入比赛交流群,部分赛事信息将在群里同步。

比赛报名二维码

欢迎对相关比赛和水利大模型训练、开发、应用感兴趣的同行们扫码进入大模型交流群,比赛期间的讲座,及部分答疑资源将在群内同步。


水利水电大模型交流社群

六、注意事项

详细赛事文件以清竞平台实时更新内容为准,为确保比赛的公平性、原创性及合法性,所有参赛者需严格遵守以下内容权限规定:

1.原创性要求。题目设计应体现参赛者的独立思考与创造性,严禁任何形式的抄袭或剽窃行为。(如果找到现有数据集或题库高度相似甚至完全一致的题目,直接取消资格。)

2.题目公开与使用。比赛结束后,所有提交的题目将在整理后作为比赛成果的一部分进行公开,用于技术交流、模型评测及学术研究等非商业用途。参赛者需同意其设计的题目在比赛结束后由主办方公开使用,并允许其他研究者或开发者基于题目进行AI模型的测试与优化。

3.侵权责任。参赛者需确保其提交的题目不侵犯任何第三方的知识产权、版权或其他合法权益。如题目公开后出现任何侵权纠纷或法律问题,相关责任由参赛者本人承担,主办方不承担任何法律责任。参赛者需自行解决因题目设计引发的法律争议,并赔偿因此给主办方或其他第三方造成的损失。

4.免责声明。主办方对参赛者提交的题目内容不承担任何形式的审查义务,但保留对题目进行审核及移除涉嫌侵权内容的权利。如发现参赛题目存在侵权问题,主办方有权取消其参赛资格,并公开相关情况。

5.版权归属。参赛者对其设计的题目保留署名权,但需授予主办方在全球范围内永久性、非独占性的使用权,包括但不限于公开、复制、修改、传播等权利。

6.折扣系数约束。折扣系数的调整为不可逆过程,请谨慎设计题目,确保质量。

7.禁止恶意行为。若选手被查出恶意刷题、提交无意义题目或干扰比赛,将立即取消参赛资格。

8.本赛事一切规则和得分解释权归主办方所有。

七、组织机构

竞赛委员会主席:

赵建世(清华大学水利系教授)

竞赛委员会副主席:

辛沛(全国水利工程学科联盟秘书长) 

许斌(智谱首席科学家)

罗玮(国能大渡河大数据服务有限公司党委副书记、总经理)

秘书处:

胡诗若(电话:18810275818  

汪柯璇(电话:18853115730

芦治宇(电话:18813173382

八、重要提示

请参赛者在提交题目前仔细检查内容的原创性,确保不侵犯他人权益。

如对题目的原创性或版权问题存在疑问,建议咨询相关法律专业人士。

本次比赛高度重视知识产权的保护与原创内容的创作。所有参赛者需确保题目为原创设计,并承担因题目公开后可能引发的侵权责任。通过共同努力,我们期待为水利水电行业AI技术的发展贡献更多高质量的评测资源与创新思路。