基于K-means算法的高校学生上网行为研究分析

唐鹭?李智?蒋方茂

摘  要:为了更好地了解医学类院校的学生上网行为特征,研究分析了一年内学生在校期间的上网时长和流量的变化情况,以及不同年级学生的上网时间和流量的特征,利用K-means算法对医学院校学生上网时长和上网流量进行聚类,聚类研究结果反映了各类学生在校期间的上网情况和使用特点,为科学化管理学生上网行为提供参考,为学校信息化建设提供支持。

关键词:上网行为;医学院校;大数据

中图分类号:TP391      文献标识码:A文章编号:2096-4706(2022)06-0038-03

Research and Analysis of College Students Online Behavior Based on

K-means Algorithm

TANG Lu, LI Zhi, JIANG Fangmao

(Guilin Medical University, Guilin  541199, China)

Abstract:
In order to better understand the characteristics of students online behavior in medical colleges, this paper studies and analyzes the change situation of students online time and flow during school in one year, as well as the characteristics of students online time and flow in different grades. K-means algorithm is used to cluster the online time and flow of medical college students. The clustering research results reflect the online situation and use characteristics of all kinds of students during school, and it provides reference for scientific management of students online behavior, and provides support for school information construction.

Keywords:
online behavior; medical college; big data

0  引  言

隨着教育信息化技术的不断发展,传统的校园在经过数字化校园后演变成现在的智慧校园。高校信息化基础设施的不断完善、有线无线网络已全面覆盖整个校园,影响着学生生活和学习的方方面面,为学生的校园生活和学习提供了便利。例如校园门禁、一卡通、数字图书馆、多媒体教室等。同时,基于智慧校园建立的各个业务系统在长年累月地运行过程中也产生了大量数据,诸如学生的基本信息、消费、成绩、以及学生上网行为等,这些数据客观反映出了学生的学习生活及社交活动规律。由于数据量较大且每日呈现指数级的增长,使得学生管理和网络管理变得日益复杂。而如何更好地利用这些数据,挖掘它背后所潜藏的价值信息,利用这些信息更好地开展学校的教学管理工作,给广大师生以更大的利益,成为高校信息化建设面临的难题[1]。

校园网作为互联网的重要组成部分,是学生学习和生活不可或缺的一部分,随着大数据、云计算等技术的成熟,对学校的管理来说,怎样利用大数据技术挖掘学生的上网行为,提供更优质的教学有着重要的意义。在学生上网行为分析方面,茆汉国对校园网行为分析系统的结构进行总体设计,并提出了用K-均值算法结合AGNES聚类算法的挖掘方法来分析研究校园网用户的上网行为。皇甫大鹏以校园网用户的行为特征进行聚类,为合理的分配出口带宽提供了数据依据[2-5]。

1  相关原理介绍

在相关研究中,大多数都是采用用户上网一天或者一个月为单位的上网时间,很多研究都是针对综合性的高校或者工科类高校,医学类的院校上网行为研究很少,有的甚至没有对数据进行清洗。本文首先选择校园网认证计费Drcom系统2021年的数据,并对数据进行预处理,清除掉不完整、不一致、错误乱码等数据,保证数据源的可靠性、完整性、一致性、准确性和关联性,再用K-means算法对上网时长和上网流量两方面进行聚类,分析不同年级的学生上网行为的特点进行总结,有助于教师了解学生上网行为规律特征,提升学生管理工作的精准化和科学化水平。

1.1  数据来源

本文研究的数据来源于某医学院校的校园网认证计费Drcom系统,系统的数据内容包括上网用户每次登录的账号、时间、IP地址、登陆的MAC地址、访问的URL地址等相关信息。由于寒暑假大多数学生不在校,对于网络的使用情况研究价值低,结合实际情况,因此本文只提取2021年4月—12月,一共6个月的数据作为分析对象。

1.2  数据清洗

由于获取到的用户行为记录日志属于用户访问的原始信息没有任何的加工和处理,有的数据甚至是不完整、不一致、错误乱码等数据,当然还存在一些无关的数据,这对于数据挖掘毫无意义。因此,基于数据特点和实际需求,我们对这些原始数据进行预处理,进行数据清洗工作,删除错误乱码等数据,消除数据冗余,只挑选出学生的访问信息,保证数据源的可靠性、完整性、一致性、准确性和关联性,这一步是上网行为分析过程比较重要的基础,决定分析结果高效和准确性。802F7ABF-8692-4F7E-97A3-D0100F551BBA

2  学生上网行为分析与结论

2.1  上网行为分析方法

在经典的聚类算法中,常用的距离公式有欧式距离、绝对距离、明氏距离、切氏距离、方差加权距离、马氏距离、余弦距离以及相关系数与相关距离公式。其中经典的K-means算法采用欧式距离计算样本之间的距离,这是聚类算法中使用频率最高的距离公式[6],相比较而言也具有偏小的复杂度,是一种基本的已知聚类类别数的划分算法[7]。是一种简单、收敛速度快、易实现的经典聚类算法,适用于数值型数据集聚类。该算法的核心思想是找出 K个聚类中心,使得每一个样本点和与其最近的聚类中心的平方距离和被最小化[8]。满足本文研究需要,因此,本文主要采用了K-means聚类算法。

2.2  上网行为分析结果

通过对大量学生上网数据进行整理分析发现,与学生的日常生活表现基本相符。虽然是医学类院校,女生占比较高,男女比例大概1:3.4,但上网时长也并不低,平均每人每天上网时长8~10小时,但从使用流量来看,流量使用并不算太高。

2.2.1  上网时长

在使用K-Means算法的过程中,最重要和核心的就是确定K个聚类数,经过反复的实验对比和调整,发现当K=4时使得聚类结果最为紧凑,分类也是最为独立的,可以得到最好的聚类效果。

从上网时长的数据中我们可以总结出一些学生上网行为的特点与规律:

(1)从图1可以看到,在4,5,6月上网的时长比较短,呈平稳上升趋势,而10,11,12月平均每天上网时长达到10小时。呈急剧上升趋势。从图2可以看出,在4月的时候平均每人每天上网时间8小时,而到了12月,平均每人上网时长达到了11小时。总的来说,一年内整个上网时长呈上升趋势。经分析上网主要时间集中在18:00—22:00。从22:00到23:00点有很大的回落,说明很多学生在这个时间休息,从0点到7点熬夜上网学生较少。

(2)如图3所示,大一的新生由于9月才入校,所以4,5,6月没有数据。而从10月开始呈现急剧上升的趋势,10月到11月的时候由于刚入校,在新环境结交新朋友,各种社团活动多,因此比大二、大三、大四的学生相对会上网少。大二和大三的学生上网时长最为相近。大四学生上网时长最长。而大五的学生由于要经常外出医院实习和面临着找工作、考研究生等重要事情,因此上网时长相对最少。

(3)從表1聚类来看,34%的学生每月上网时长并不算长,平均每月上网时间大概4 254分钟,只有少数6%的学生上网时间比较长。

2.2.2  上网流量

从上网流量的数据中我们可以总结出一些学生上网行为的特点与规律:

(1)从图4可以看出,从4月到6月呈平稳上升趋势,而从6月和10月对比,呈急剧下降的趋势,从10月到12月呈急剧上升趋势,总的来说在10,11,12月的流量对比4,5,6月上网的流量呈上升趋势。图5与图4类似。

(2)如图6所示,从趋势来看,大一的学生从9月开始入学,因此4,5,6月没有流量使用情况。从10月开始呈急剧上升的趋势,流量使用情况上升最快,但还是低于大四和大五的学生。大二和大三的学生使用流量情况相似,从4月到12月呈现平稳上升趋势。大四和大五的学生使用流量情况相似,4,5,6月逐渐下降,从10月最低点开始又急剧上升到12月达到最高点。

(3)从月均上网流量聚类表2分析来看,当K=4时取得了最好的效果,分为4类,其中B类只有2%的学生平均每月上网流量最大,达到了102 550 2 MB,C类72%的学生平均每月上网流量只有440 01 MB。这类用户最多,但使用网络流量和占用宽带却最小。说明大多数学生使用网络只是用于查询资料、收发邮件等学习和生活需要以及微信、QQ等社交需求。只有2%的学生,经分析研究是由于长时间开机,使用P2P下载电影等非学习资料。

3  结  论

本文主要以医学院校学生的校园网上网日志作为分析对象,通过学生在校期间的上网日志数据,对学生的上网行为进行分析,研究反映了各类学生在校期间的上网情况和使用特点。用K-means算法对使用时长和使用流量情况进行聚类分析,分析得出大二和大三的上网时间和使用流量情况是最为相似。而大五的学生使用网络资源相对最少。对于大多数学生而言,流量异常行为较少,学校应加强学生对网络安全知识的学习,发挥网络的积极作用,使其利用网络资源查找学习资源,最大程度降低其负面影响,合理健康地使用网络资源,避免沉溺网络。可为学生的管理工作提供参考,更好地开展学校的教学管理工作。

随着智慧校园的建设,各个业务系统的数据暴增,为分析学生的上网行为提供了更为丰富的数据信息,因此下一步会利用网络日志数据结合学生成绩、一卡通使用情况等做更进一步的分析。

参考文献:

[1] 周爱娟.基于计费系统的校园用户行为分析与建模 [D].北京:北京交通大学,2019.

[2] 茆汉国.基于K-均值与AGNES聚类算法的校园网行为分析系统研究 [J].现代电子技术,2016,39(23):116-120.

[3] 皇甫大鹏,陈平,王兴建.基于一种改进的K-means算法的校园网用户行为分析研究 [J].广西大学学报(自然科学版),2011,36(S1):69-72.

[4] 胡茜茜.基于学生个人大数据的行为特征分析 [D].武汉:华中师范大学,2019.

[5] 李骞,王硕,隋继学.基于机器学习算法的校园网学生上网行为评估方法研究 [J].科技创新与应用,2021,11(33):1-5+11.

[6] 凌玉龙,张晓,李霞,等.改进kmeans算法在学生消费画像中的应用 [J].计算机技术与发展,2021,31(10):122-127.

[7] 郭玉彬,吴宇航,薄傲峰,等.基于认证数据的学生上网时间特征分析 [J].计算机应用与软件,2019,36(11):101-106+133.

[8] 孙吉贵,刘杰,赵连宇.聚类算法研究 [J].软件学报,2008,19(1):48-61.

作者简介:唐鹭(1984—)女,汉族,广西桂林人,工程师,硕士研究生,研究方向:计算机应用技术;通讯作者:李智(1990—)男,汉族,广西桂林市人,高级工程师(信息系统项目管理师),工程硕士,研究方向:数据挖掘技术与信息安全;蒋方茂(1976—),男,汉族,广西桂林人,助理工程师,本科,研究方向:计算机网络、教育技术的应用。

收稿日期:2022-02-15

基金项目:2020年度广西高校中青年教师科研基础能力提升项目(2020KY12009);2021年度广西高校中青年教师科研基础能力提升项目(2021KY0506)802F7ABF-8692-4F7E-97A3-D0100F551BBA

猜你喜欢 医学院校大数据 中医药文化在高校英语教学中的导入策略中国民族博览(2022年8期)2022-07-07新医科背景下医学院校图书馆阅读推广工作实践研究课程教育研究(2021年24期)2021-04-14医学院校临床药学教育教学改革的思考科技视界(2016年22期)2016-10-18大数据环境下基于移动客户端的传统媒体转型思路新闻世界(2016年10期)2016-10-11医学院校应用心理学专业就业状况及教育对策考试周刊(2016年77期)2016-10-09基于大数据背景下的智慧城市建设研究科技视界(2016年20期)2016-09-29数据+舆情:南方报业创新转型提高服务能力的探索中国记者(2016年6期)2016-08-26微信在医学院校医院管理学课程教学中的应用科教导刊(2016年9期)2016-04-21

推荐访问:算法 高校学生 上网