关于举办四川农业大学
第三届大数据挑战赛的通知
一、竞赛目的
大数据挑战赛是由四川农业大学教务处主办,信息工程学院数据科学系承办的大学生科技竞赛活动。
“十四五”规划纲要明确提出要“加快数字化发展、建设数字中国”。随着数字化生态时期的到来,数字化转型成为发展新主题,产业数字化转型的“三大挑战”之一就是缺少掌握数字化技能的人才资源,为了紧密结合新一代信息产业发展对大数据高级应用型人才的需求,激发我校学生积极参与大数据相关知识和技能学习与创新的热情。按照紧密结合教学实际、着重基础、注重前沿的原则,本次竞赛意在通过竞技的方式提升学生对数据分析与处理、算法研究与技术应用的能力,探索大数据技术与各专业融合发展的技术层次和实践路径,同时给广大在大数据知识和技能方面有特长的同学们提供展示才能的舞台,推动我校大数据知识体系下的人才培养。促进数据科学与大数据技术、物联网、计算机科学与技术等专业的建设与人才工程能力的培养,带动学校其他专业关注大数据技术发展趋势和本专业本产业应用融合,促进产教互动、校企融合,增强学生的新技术学习能力和就业竞争力,为新一代信息技术产业培养高级应用型人才。
二、竞赛组织单位
1.主办单位:教务处
2.承办单位:信息工程学院
3.技术支持单位:真术相成(成都)科技有限公司
3.竞赛组委会组长:周蓓
副组长:段旭良、李志勇
成员:胡兵、吴敬花、潘绯、郭艳
三、参赛人员及资格
1.具有四川农业大学正式学籍的全日制在校本科生、专科生均具有资格报名参赛,专业不限。鼓励交叉学科、专业学生和高低年级学生参加。
2.本赛项为单人赛,以实际工程应用为项目背景进行设计。
四、比赛要求
本次比赛分为理论赛(成绩占比60%)和实操赛(成绩占比40%)。
1、理论赛知识内容与样题
(1)比赛内容及要求
理论知识比赛以在计算机上在线答卷(闭卷)的方式进行。比赛时间为 60分钟。题型包括50道单项选择题、10 道判断题、20 道多项选择题,共 80 道题。
其中,单项选择题每题1分,判断题每题1 分,多项选择题每题 2分,共计 100 分。
每个参赛选手凭本人学生证进入考场,按规定登录竞赛平台答题。试题答案按要求在线回答,草稿纸由现场人员统一提供。参赛选手自带签字笔,其他任何资料和电子产品禁止带入考场,否则成绩无效。
(2)比赛样题
(一)单选题
在生成式模型中,注意力机制的主要作用是:
A. 减少计算资源的消耗 B. 提高模型的泛化能力 C. 加强模型对关键信 息的聚焦 D. 降低模型的训练难度
答案:C
(二)多选题
生成式人工智能模型的应用领域包括:
A. 语言生成 B. 图像识别 C. 检索增强生成 D. 图像理解 答案:ACD
(三)判断题
模型微调时,通常需要调整模型的全部参数。 答案:错误
2、实操环节内容与样题
(1)比赛内容及要求
本赛项为实操模拟行业数据分析与挖掘的整个流程,考察参赛选手对数据的处理、算法模型的应用熟练程度。实操总用时 120 分钟,共 100 分。
每个参赛选手凭本人学生证进入考场,按照比赛现场任务书要求进行操作。
实操比赛共分为三个步骤:数据治理、数据分析与挖掘、模型评估,承办单位提供训练集和验证集。数据集内容格式为CSV格式表格数据集。比赛步骤具体如下:
步骤一:数据治理,参赛选手根据任务书要求,使用比赛提供的原始数据完成数据加载、数据清洗(重复数据、无效数据)、缺失值补全、数据增强(数据均衡)、数据标准化和数据可视化(数据分布)等任务。
步骤二:数据分析与挖掘,根据任务需求,筛选1个或多个模型;将数据分成训练集和验证集;选择合适的超参数对模型进行训练;
步骤三:对验证集进行验证,并输出验证集的混淆矩阵、PR曲线、ROC曲线、F1指标、AUC指标。
按照步骤得分:第一步 40分,第二步 40 分,第三步 20 分:
第一步:完成数据加载得2分;完成数据清洗每个点得1分,10个点以上得10分;完成缺失值补全每个点1分,10个点以上的10分;数据增强(数据均衡)得6分;正确的数据标准化得6分;数据可视化得6分。
第二步:正确的筛选任务模型和超参数,并运行起来,模型收敛,每个模型得10分,总共不超过20分。主办方使用测试集进行模型验证:F1 值排名,前 10%得 20 分,前 10%-40%得 12 分,其他得6 分,在测试集上无法运行不得分。
第三步:输出混淆矩阵指标4分,ROC得4分,PR得4分,F1得4分,AUC得4分。
(2)比赛样题(仅作为参考,以现场实际要求为准)
题目描述:给定数据集 credit.csv,包含了某银行部分信用卡用户数据及违约情况。其中有 “ income ”、“age ”、“gender ”、” limit ”、“default_fre ”、 “province”, “default”等字段,需建立违约风险模型,并预测一批新客户( results.csv)是否存在违约风险。请按照以下顺序依次完成数据分析和挖掘工作,提交预测模型并输出结果。
步骤一:数据治理
1. 读取 credit.csv、查看数据;
2. 填充表中空值;
3. 性别用【0、1】替换,省份用 one-hot 编码替换;
4. 按照合理方法处理异常值;
步骤二:数据分析与挖掘
5. 画出反映不同特征条件下的违约情况;
6. 按照 8:2 切分训练集、测试集;
7. 建立用户违约风险模型;
步骤三:调参与优化
8. 模型参数调优;
9. 提交预测模型。
系统将执行调优后的模型,预测results.csv中的新用户是否存在风险,输出预测准确率 f1值并根据各步骤结果自动评分。
五、赛程安排
1、时间安排(暂定,具体安排将在QQ群通知)
即日起--2024年11月15日 |
报名,提交报名参赛资料。 |
2024年11月19日
|
理论模块比赛,校内 |
2024年11月26日
|
实操模块比赛,校内 |
2、报名方式
请参赛同学加入QQ群:442157800,方便后续事宜的统一通知。
加群请修改备注:专业年级-学号-姓名-电话号码。请扫描下面的二维码填写报名信息:
六、奖励办法
1.奖项设置
获奖等级按一、二、三等奖设置。实行高额限制:参赛人数100人以下的项目,不超过20%;参赛人数101-500人的项目,不超过15%;参赛人数501-1000人的项目,不超过10%;参赛人数1001-5000人的项目,不超过5%。
2.奖励
对本次大赛的获奖者,均颁予证书和二课加分。
第三届大数据挑战赛组委会
2024年10月28日