校园考勤数据实战:ETL 全流程 + BI 可视化从 0 到 1 搭建
1 实验说明
1.1 实验目的
基于已完成 K-Means 聚类并标注考勤群体的学生考勤主题标签表,本实验聚焦“纪律高危型”群体,分析其行为特征。相比其他群体,该群体存在高频违纪、多维度异常叠加等行为特征,是校园考勤管理中风险最高、影响最大的群体。通过专项画像分析,可为精准干预和重点整治提供数据支撑,助力校园精细化管理。
1.2 实验环境
工具:助睿数智(Uniplore)在线实验平台:https://lab.guilan.cn/, 助睿数智(Uniplore)是AI驱动的一站式数据科学平台,覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能,产品官网为 https://www.uniplore.com/,本次实验主要用到 助睿BI (数据可视化探索平台)、MySQL数据库
数据源:student_attendance_stats 学生考勤主题标签表
实验设备:计算机(支持助睿平台运行,具备数据库连接权限)
2 实验数据
数据结构 student_attendance_stats 学生考勤主题标签表的数据结构如下:
字段名 | 字段类型 |
|---|---|
id | int |
student_id | int |
student_name | varchar(50) |
class_id | int |
class_name | varcharr(50) |
grade | varcharr(10) |
gender | varchar(10) |
birth_date | varchar(10) |
political_status | varchar(20) |
is_boarder | varchar(10) |
campus_type | varchar(10) |
late_count | int |
early_leave_count | int |
leave_count | int |
uniform_violate_count | int |
create_time | datetime |
cluster | varchar(10) |
attendance_group | varchar(30) |
自增主键 | 10331 |
学生ID | 13012 |
学生姓名 | 张某某 |
班级ID | 794 |
班级名称 | 高一(IB) |
年级 | 高一 |
性别 | 女 |
出生日期 | 未知 |
政治面貌 | 共青团员 |
是否住校 | 否 |
校区类型 | 老校区 |
迟到次数 | 1 |
早退次数 | 0 |
请假次数 | 0 |
没穿校服次数 | 0 |
统计入库时间 | 2026/5/6 17:31:42 |
聚类簇编号 | C1 |
考勤群体分类 | 轻微波动型 |
样例数据
id | student_id | student_name | class_id | class_name | grade | gender | birth_date | political_status | is_boarder | campus_type | late_count | early_leave_count | leave_count | uniform_violate_count | create_time | cluster | attendance_group |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 10842 | 马某某 | 672 | 高三(09) | 高三 | 未知 | 未知 | 未知 | 否 | 老校区 | 1 | 0 | 3 | 0 | 2026/5/14 16:00 | C3 | 纪律高危型 |
2 | 10844 | 叶某某 | 672 | 高三(09) | 高三 | 未知 | 未知 | 未知 | 否 | 老校区 | 0 | 0 | 5 | 0 | 2026/5/14 16:00 | C3 | 纪律高危型 |
3 | 10845 | 孙某某 | 672 | 高三(09) | 高三 | 未知 | 未知 | 未知 | 否 | 老校区 | 3 | 0 | 0 | 0 | 2026/5/14 16:00 | C3 | 纪律高危型 |
is_boarder | campus_type | late_count | early_leave_count | leave_count | uniform_violate_count | create_time | cluster | attendance_group |
否 | 老校区 | 1 | 0 | 3 | 0 | 2026/5/14 16:00 | C3 | 纪律高危型 |
否 | 老校区 | 0 | 0 | 5 | 0 | 2026/5/14 16:00 | C3 | 纪律高危型 |
否 | 老校区 | 3 | 0 | 0 | 0 | 2026/5/14 16:00 | C3 | 纪律高危型 |
create_time | cluster | attendance_group |
2026/5/14 16:00 | C3 | 纪律高危型 |
2026/5/14 16:00 | C3 | 纪律高危型 |
2026/5/14 16:00 | C3 | 纪律高危型 |
3 实验步骤
3.1 进入助睿BI
进入实验平台后,点击左边菜单的“助睿BI”,进入助睿BI可视化探索平台
进入助睿BI 平台的首页,可以看到该账户下的数据情况、数据分析处理流程、支持的数据源有哪些
3.2 连接数据源
student_attendance_stats 存放于我们的团队私有数据库中,而上一个实验在“分析聚类簇编号对应的考勤群体分类”时已经创建了团队私有数据库的连接,因此,我们可以直接使用这个数据源,无需再连接数据源。
3.3 构建数据集
接下来,我们使用 student_attendance_stats 构建数据集,用于后续分析 点击左边菜单中的“数据集”
点击左上角“+” - “新建数据集”,在弹窗中输入数据集名称、所属分组、备注信息后点击“确认”
数据集创建成功后,会自动跳到该数据集的配置页面,第一步需要先选择数据源,助睿BI 平台为防止这个步骤遗漏,做了强提醒,点击“好的,我知道了”可关闭提醒
数据源的第一个选项选择我们刚刚新建的数据源“商业数据分析实验” ,第二个选项则选择student_attendance_stats 所在的目录se_group_15
数据源选择完成后,目录下的数据表自动出现在画布左边,将student_attendance_stats拖拽至画布中
查看数据的表结构及数据,由于我们之前实验中的建表语句中已经包含了字段的中文备注,因此,这里我们不需要设置字段备注,直接点击画布左上角“保存”按钮
在保存提示中点击“保存并发布”,只有发布后的数据集才能在工作表中引用
3.4 制作工作表
工作表是承载可视化图表、开展数据分析的基础单元 点击左边菜单中的“工作表”,进入工作表模块
为方便管理,相同主题分析的工作表最好都放置在一个目录下,点击左上角的“+” - “新建分组”,在弹窗中输入分组名称、选择所属分组、填写备注信息后点击“确认”
3.4.1 整体概况指标卡
指标卡是助睿BI 平台中用于直观展示核心统计数值的基础组件,能够快速呈现关键指标,便于整体把控高危群体概况。
3.4.1.1 纪律高危型总人数
右键或者点击学生考勤主题分析分组的“…”,在操作列表中点击“新建工作表
在弹窗中输入工作表名称为“自律模范型人数”、选择所属分组、填写备注信息后点击“确认”
自动跳转到工作表设计页面,点击右上角“好的,我知道了”来关闭提醒
在数据集下拉框中选择广告构建的数据集“学生考勤主题数据集”
自律模范型人数=自律模范型中的所有学生ID去重计数 在左边基础图表中点击“指标卡”
将字段“student_id(学生ID)”拖拽到值,点开字段“student_id”的聚合类型,点击“去重计数”
点击图形设置图标打开设置面板,点击过滤器中的“+”,在下拉框中选择“attendance_group(考勤群体分类)”,并点击“确认”
点击过滤器中“attendance_group”后的“···” - “编辑”,在过滤器配置中点击“包含以下选项”,并勾选“纪律高危型”,在点击“确认”
指标卡即显示纪律高危型人数
接下来,我们可以点击“样式设置”,对指标卡样式进行调整
点开基础设置,将4个边距都改为最大值16
点开标题设置,将标题字体大小改色16,字体颜色改为红色,显示位置改为顶部居中
点开值设置,将字体大小改为30,字体颜色改为红色,粗体开关保持打开,显示位置保持水平居中
点击“保存”按钮,在保存提示中点击“保存并发布”
点击“显示分组”按钮,即可看到学生总人数指标卡已经发布成功
3.4.1.2 纪律高危型男生人数
参考“3.4.1.1 纪律高危型总人数”步骤,重新新建工作表“纪律高危型男生人数”,完成指标卡的制作,只需要多一步操作:在筛选器中添加“gender(性别)”字段,并设置为包含“男”
再调整一下样式即可
3.4.1.3 纪律高危型女生人数
参考“3.4.1.1 自律模范型人数”步骤,重新新建工作表“纪律高危型女生人数”,完成指标卡的制作,只需要多一步操作:在筛选器中添加“gender(性别)”字段,并设置为包含“女”
再调整一下样式即可
3.4.1.4 纪律高危型未知性别人数
参考“3.4.1.1 自律模范型人数”步骤,重新新建工作表“高危型未知性别人数”,完成指标卡的制作,只需要多一步操作:在筛选器中添加“gender(性别)”字段,并设置为包含“未知”
再调整一下样式即可
3.4.1.5 整体指标分析
从整体指标卡可以清晰看到,纪律高危型学生总人数为 195 人,其中男生 13人、女生 11人、未知性别 171人。高危群体整体规模清晰,其中男生人数多于女生,说明高危群体存在明显的性别分布特点,需要从性别角度进一步深入分析。
3.4.2 纪律高危型学生性别特征分析
在该环节,我们制作纪律高危型学生性别占比饼图,同时结合全校性别基数数据,分析高危群体的性别倾向
3.4.2.1 纪律高危型学生男女人数占比
新建工作表“纪律高危型学生男女人数占比”
数据集选择“学生考勤主题数据集”,图表类型选择“饼图”
将字段“student_id”拖拽到值,“gender”拖拽到分类,并将“student_id”的聚合方式设置为“去重计数”
可以看到存在性别“未知”数据,需要将“未知”数据过滤掉,点击图像设置,并点击过滤器中的“+”,在下拉列表中选择“gender”,最后点击“确认”
点击过滤器中的“gender”后的“···”,并点击“编辑”,在过滤器设置中点击“排除以下选项”,勾选“未知”,点击“确认”
并点击过滤器中的“+”,在下拉列表中选择“attendance_group”,最后点击“确认”
点击过滤器中的“attendance_group”后的“···”,并点击“编辑”,在过滤器设置中点击“包含以下选项”,勾选“纪律高危型”,点击“确认”
系统默认的饼图没有百分比标签数据,我们可以点击“样式设置” - “图表元素设置” - “标签显示形式” - “勾选百分比”
其他样式可根据自身需求设置,例如图表元素设置中的内环大小设置为“50%”,扇形设置中的扇形圆角半径设置为“10”
还可以修改主题色
样式调整完毕后,点击“保存”按钮,“保存并发布”工作表
3.4.2.2 全校学生男女人数占比
为了排除性别基数差异带来的误判,我们需要分析全校学生男女人数占比 新建工作表“全校学生男女人数占比”
参考“3.4.2.1 纪律高危型学生男女人数占比”步骤,完成饼图制作,过滤器中只需要过滤掉性别“未知”的数据,考勤群体分类“attendance_group”无需做过滤
3.4.2.3 性别特征分析
排除性别未知数据的情况下:
从全校性别分布来看,男生本身基数略高于女生,占比为 53.03%,女生占比为 46.97%
在纪律高危型学生群体中,男生占比进一步上升至 54.17%,女生占比则下降至 45.83%
对比两组数据可以发现,男生在高危群体中的占比(54.22%),略高于其在全校的基数占比(53.03%);而女生在高危群体中的占比(45.78%),则低于其在全校的基数占比(46.97%)
这一结果表明,纪律高危型学生中男生占比偏高,并非由全校性别基数差异导致,而是男生在考勤违纪行为上的真实风险更高。男生规则意识、时间观念相对薄弱,更易出现高频违纪行为,因此是高危群体的主要构成对象,后续管理需针对性加强男生考勤纪律引导
3.4.3 纪律高危型学生年级特征分析
在该环节,我们制作纪律高危型学生年级分布堆叠条形图,观察不同年级高危学生的情况 新建工作表“纪律高危型学生年级特征分析”
数据集选择“学生考勤主题数据集”,图表类型选择“柱状图”
将字段“grade”拖拽到X轴,“student_id”拖拽到Y轴,并将“student_id”的聚合方式设置为“去重计数”
点击图像设置按钮,在过滤器中添加字段“attendance_group”
点击“attendance_group”后的“···” - “编辑”,在过滤器配置窗口中点击“包含以下选项”,勾选“纪律高危型”,最后点击“确认”
分析: 从年级分布柱状图可以看出,纪律高危型学生在各年级的分布存在明显差异,其中高三年级的高危学生人数最多,高一和高二年级的高危学生人数相对较少。这可能与高三学生面临的升学压力、在校时间长度以及部分学生的课程安排调整有关,例如备考节奏紧张、校外培训或特殊升学路径安排,都可能导致考勤行为出现波动。 点击“样式设置”,将主题色设置为与上一个饼图的主题色一样,并点击“图表元素设置”,将边框色设置为无边框色
点击“保存”按钮,“保存并发布”工作表
3.4.4 纪律高危型学生校区类型 + 年级交叉特征分析
在该环节,为进一步探究高危学生在不同校区、不同年级的分布规律,我们制作纪律高危型学生校区类型 + 年级交堆叠状图,直观呈现各年级下新、老校区高危学生的人数分布情况,精准定位高危行为的高发区域 新建工作表“纪律高危型学生校区类型与年级交叉特征分析”
数据集选择“学生考勤主题数据集”,图表类型选择“柱状图”
参考“3.4.3 纪律高危型学生年级特征分析”的步骤,先完成纪律高危型学生年级分布柱状图
接下来,将字段“campus_type”拖拽至“分组”
将主题色设置成与上一个图表的主题色,并取消边框色
分析: 从校区类型 + 年级交叉柱状图可以看出,纪律高危型学生的校区分布差异显著:
老校区是高危学生的主要聚集地,各年级高危人数均明显高于新校区,其中高一 28 人、高二 59 人、高三 117 人,高三年级高危人数达到峰值。
新校区的高危学生整体规模较小,仅高一 1人、高二 8 人有少量分布,高三年级无高危学生记录。 仅从高危群体的分布来看,老校区的违纪行为发生率远高于新校区,且高危人数随年级升高呈明显增长态势。为进一步判断这一差异是否由校区本身的学生基数导致,下一步将引入全校新、老校区的学生总人数数据进行交叉对比,排除基数干扰,分析校区管理模式、通勤条件、学风氛围等因素对学生考勤行为的真实影响。
先点击“保存”按钮,“保存并发布”工作表
3.4.5 不同校区类型各年级学生人数
新建工作表“不同校区类型各年级学生人数”
参考“纪律高危型学生校区类型 + 年级交叉特征分析”步骤,完成不同校区类型各年级学生人数堆叠柱状图,过滤器不添加任何字段
分析: 高一:老校区 1169 人,新校区 148 人 高二:老校区 1374 人,新校区 295 人 高三:老校区 1883 人,新校区无学生分布 结合纪律高危型学生校区类型 + 年级交叉特征分析可以发现:
高三老校区是高危行为的绝对高发区:高三年级学生全部集中在老校区,且高危学生人数达到 261 人,是所有校区和年级中的最高值,这一结果与高危群体年级分布特征高度吻合。
新校区整体风险可控:新校区学生基数较小,高危学生人数也相应较少,且高三年级无学生分布,因此不存在高三高危学生,整体考勤纪律表现优于老校区。
综合来看,老校区,尤其是高三年级,是纪律高危型学生的核心聚集区,后续管理需重点聚焦老校区高年级学生群体,结合校区通勤条件、管理模式、学风氛围等因素,制定针对性的考勤管理措施。
3.4.6 纪律高危型学生班级特征分析
接下来我们分析纪律高危型学生的班级特征,定位高危学生集中的班级
新建工作表“纪律高危型学生班级特征分析”
数据集选择“学生考勤主题数据集”,图表类型选择“水平条图”
将字段“class_name”拖拽至Y轴,“student_id”拖拽至X轴,并将“student_id”的聚合方式设置为“去重计数”
过滤器中添加字段“attendance_group”
点击“attendance_group”后的“···” - “编辑”,过滤器设置中点击“包含以下选项”。勾选“纪律高危型”,最后点击“确认”
为了方便观察高危型学生的集中班级,我们可以将“student_id”按降序排序,这样人数多的班级就排在前面
分析:
从班级水平条图可以清晰看到,纪律高危型学生高度集中在少数班级,其中高三 09 班高危人数最多(19 人),其次为高三 08 班、高三 02 班等,多数班级高危人数极少,呈现明显的班级聚集性。结合年级分布特征来看,高危学生主要集中在高三年级的部分班级,这既与高三学生升学备考节奏紧张、课程安排灵活有关,也说明高危行为与班级管理强度、班风氛围、同伴影响密切相关。少数薄弱班级需要重点整治,通过加强班主任监管、整顿班风,阻断不良风气传染。
点击样式设置,将主题色设置为同之前的图表的主题色一样
点击“保存”按钮,“保存并发布”工作表
3.5 搭建综合仪表盘
点击左边菜单栏中的“仪表盘”
点击左上角“+” - “新建仪表盘
仪表盘名字输入“纪律高危型学生用户画像分析”,备注信息输入“纪律高危型学生用户画像分析”,点击“确认”
在右边组件与工作表区域,点击“基础组件”
拖拽一个文本组件到画布中
文本内容输入“纪律高危型学生用户画像分析”,并设置字体颜色、字体大小、加粗、居中
关闭组件窗口,组件右下角可以拖动跳转组件大小,参考下图调整
点击图表组件显示按钮,切换到“工作表”,将3.4节中制作的工作表都拖拽至画布中
拖入完毕后,使用鼠标对图表大小和布局进行调整,同时将以上的分析使用“文本”组件呈现在仪表盘中,形成完成的分析仪表盘,“文本”组件可通过关闭“超出隐藏”开关来实现换行
预期效果如下:
设计完毕后,点击“发布”,保存并发布仪表盘
点击“预览”即可全屏查看仪表盘
发布成功后,可以点击“分享”,并选择不同的分享方式将仪表盘分享给其他人查看
将分享的信息复制发送给其他人,其他人即可点击仪表盘的分享链接进行查看
4 纪律高危型学生画像分析总结
4.1 整体概况
纪律高危型学生存在高频迟到、早退、请假及校服违规行为,多维度违纪叠加,是校园考勤管理中最需重点关注的群体。该群体人数占比虽可控,但行为影响大,易引发不良风气,需专项治理
4.2 核心特征
性别特征:男生为高危群体主体,占比显著高于女生,是高危行为的主要发生对象,与男生规则意识薄弱、时间观念不足相关
年级特征:高度集中于高年级,随年级升高,高危学生占比明显上升,高年级学生学业压力大、自主空间广、心态浮躁,对考勤纪律重视度下降
校区特征:在不同校区呈现明显分布差异,高危学生高度集中在老校区,新校区风险较低,与校区通勤条件、管理模式、学风氛围密切相关
班级特征:存在明显班级聚集性,集中在少数管理薄弱、班风涣散的班级,与班级管理强度、同伴效应直接相关
4.3 管理建议
重点关注高年级男生群体:针对性开展考勤纪律教育与时间管理培训,强化规则意识,减少违纪行为发生
加强老校区高年级管理:针对老校区优化通勤管理、强化考勤监督,营造严谨学风氛围,降低学生违纪风险
整治高危学生集中班级:加强班主任监管力度,整顿班风,建立班级考勤责任制,阻断不良风气传染
建立高危学生台账:一对一建档,家校联动,制定个性化矫正方案,跟踪干预效果,防止违纪行为固化
以上分析总结可以添加在仪表盘后面:
5 实现过程问题与解决
问题1:数据库连接异常,无法加载考勤数据表
问题描述:在助睿BI平台连接团队私有MySQL数据库时,出现连接超时、无法找到labs目录及student_attendance_stats表,导致数据无法接入。
解决方案:核对数据库连接参数(地址、端口、账号、密码),确认网络权限正常;重新创建数据源,正确选择“商业数据分析实验”数据源与labs目录,刷新数据表列表后成功加载。
问题2:数据缺失与异常,影响分析结果准确性
问题描述:gender、birth_date存在大量“未知”值,部分违纪计数字段为空,造成指标统计失真、图表展示异常。
解决方案:在数据集配置阶段对数值型空值置0处理;在可视化分析时通过过滤器排除“未知”类别数据,保证维度分析有效;重新发布数据集后指标计算正常。
6 实验总结
本次实验以K-Means聚类标注后的学生考勤主题标签表为数据基础,依托助睿数智Uniplore平台完成数据ETL处理与纪律高危型学生群体专项画像分析。实验依次完成数据源连接、数据集构建与发布、工作表制作、多维度可视化分析及综合仪表盘搭建,从整体规模、性别、年级、校区、班级五个维度,精准识别纪律高危型学生的行为特征与分布规律。
通过实验,我熟练掌握了BI工具的数据接入、清洗、数据集管理、图表制作与仪表盘部署全流程操作,能够运用指标卡、饼图、柱状图等组件开展多维度数据探索,实现聚类分析结果在校园考勤管理中的落地应用。实验不仅提升了数据处理与可视化分析的实践能力,也深刻理解了数据驱动在学生精细化管理中的价值,为后续开展同类教育数据挖掘与分析工作奠定了扎实基础。
