数据挖掘在留学生教学管理中的应用研究
时间:2016-12-31
数据挖掘技术在留学生教学管理中的应用。随着高校教学管理提出更高要求,为合理利用积累的大量数据,本文将数据仓库及数据挖掘技术与教学管理系统相结合,通过数据挖掘技术理性分析学校教学成效与得失,多角度研究影响留学生发展的因素,深入分析留学生成绩的主次因子,获取隐藏的辅助决策知识,指导教学工作,使教学管理更具针对性,从而进一步提高教学质量。
0 引言
近几年来华留学生教育进入快速发展时期,我国已经成为国际学生流动的重要目的地国家之一。随着我校留学生规模的不断扩大,如何更有效地对来华留学生进行教学管理已成为一个重要的研究课题。而运用数据挖掘技术,从大量的留学生相关数据中挖掘出一些有价值的信息,将更有利于构建切合我校留学生实际的培养体系,更好地保证培养质量。
一方面,从招生角度上来讲。目前我校留学生的生源渠道主要分为三类:第一类是由中国国家留学基金委直接分配至我校学习的获中国政府奖学金的学生。第二类是学生自己通过网上申请,我校根据学生提供的材料进行审核录取。第三类是由国外大学或中介机构根据协议推荐来我校学习的学生。由于外国留学生来自不同的国家,之前在各自不同的教育体系中接受高中教育,文化课背景差异很大,这就导致生源的质量参差不齐。运用数据挖掘技术可以找到其中有价值的信息,如哪个国家的教育水平相对较高,来自哪个国家的学生平均申请成绩较好,使用何种母语更容易融入中国高校教学等。这为招生工作提供了参考,从招生源头提高留学生质量。
另一方面,从教学管理角度来讲。目前,我校留学生数据库中存放着历届学生的各科考试成绩,海量的数据只是单纯地记载了数据信息,对学生信息、成绩等数据的处理一般还停留在简单的数据备份和查询阶段,如传统数据库技术可以查询最高分最低分和平均分等表层信息,但却无法发现隐藏数据之间的规律或者说有指导意义的知识。大量有价值的信息被淹没在海量数据中。事实上不论是课程与课程之间,还是课程的设置之间,与学生成绩都存在着千丝万缕的联系,现阶段已有的数据并没有发挥其真正的价值,而运用数据挖掘技术则可能更好地发现隐藏在数据背后的丰富信息。通过对学生成绩数据库中所包含的各种类型数据进行相应的处理,如:抽取、转换、分析和模型化处理,从中寻找影响学生学习成绩的众多因素,以及这些因素所涉及到的相关问题。应用数据挖掘技术分析学生的成绩水平,使学生深入了解其在学生整体中的相对位置,由此来调整个人学习计划。同时,帮助教师和学校决策者洞悉教学过程中存在的问题,进而反思教学质量。还可以根据关联规则挖掘得到的一系列有价值的规则,分析检查课程体系的合理性,比如:相关课程之间的衔接与先后顺序是否恰当等,根据分析结果最大限度地优化培养计划和决策。此外,利用数据挖掘技术还可以发现数据中存在的潜在关系与规则,比如:根据学生的出勤次数和作业的上交情况预测学生成绩发展趋势等。为教师的教学环节提供建设性的意见和建议,为学生管理工作提供有价值的决策支持,从而帮助学校做出实时适时的决策调整,使得学生管理工作有的放矢。 1 数据仓库与数据挖掘
1.1 数据仓库
传统数据库在联机事务处理(OLTP)中获得了较大的成功,而传统数据库中只保留当前的管理信息,缺乏决策分析所需要的大量历史信息,故不能满足管理人员的决策分析要求。为了解决这一问题,进行相关决策分析,数据仓库应运而生。简而言之,数据仓库就是能够满足决策分析所需要的数据环境。数据仓库的概念,由“数据仓库之父”W.H.Inmom博士提出:数据仓库是一个面向主题的,集成的、与时间有关的,非易失的数据集合,为管理部门提供决策支持。它实际上是一个特殊的数据库,这种系统称为OLAP系统。本文中我们就利用留学生成绩数据库中的各种类型的数据建立相应的数据仓库,为数据挖掘提供数据平台。
1.2 数据挖掘
近年来随着信息技术的迅猛发展,人们所拥有的数据信息急剧增大。如何从大量随机的数据中挖掘出一些有价值的信息,成为一个重要的研究课题,由此带动了数据挖掘技术的产生和飞速发展。数据挖掘就是从大量的,不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又有潜在的有用信息和知识的过程,是数据库中的知识发现的核心。可以说,有数据积累的地方,就有数据挖掘技术的用武之地。
数据挖掘的分析方法分为:聚类分析,关联分析,时序模式分析和分类分析。其中聚类分析是指通过数据本身具有的相似特点把海量数据集归纳为若干个簇,即“物以类聚”。同一簇中的数据之间相距小,相似度高;不同簇中的数据之间相距较大,数据相异度高。关联分析是指利用关联规则进行数据挖掘,其主要评价标准有:支持度、置信度、兴趣度等。本文中我们将数据挖掘技术与留学生教学管理相结合,挖掘在留学生教学管理中隐藏的有价值的信息,为留学生管理提供决策指导与决策支持。
2 数据挖掘在教学领域中的应用
数据挖掘与数据仓库相结合,是完成决策分析的关键因素。教务数据主要存储在关系型数据库中,其主要任务是执行联机事务和查询处理,对其中大量的教学信息及数据的应用仅限于某些单方面的分析,而缺乏相关的综合分析,大部分数据难以再次利用,不能满足决策分析的要求,为此需要对各种类型的数据进行抽取,转换、汇总加载到留学生成绩数据仓库中,借助数据挖掘技术,为教学提供决策支持服务。
在留学生成绩数据库中,包含着多种类型的数据,它们既相互独立又相互联系。运用数据仓库的理论和方法,对这些数据进行适当的预处理,即可产生支持教学决策所需要的信息。留学生成绩仓库的应用模型如图1所示。
根据留学生成绩的特点,以学生成绩分析为主题建立星型结构的留学生成绩仓库。星型结构主要由事实表与维度表两部分构成。事实表是星型模型的核心,维度表是事实表的附属表,一个事实表一般拥有一组维度表,每个维度表都通过主键与事实表相连,维度表之间通过事实表的中介相互建立联系。该数据仓库主要涉及到的信息有:留学生基本信息,教师信息,课程信息,试卷信息,知识点信息及专业信息等。星型结构的留学生成绩数据仓库的具体构建情况如图2所示。
2.1 数据挖掘在成绩分析中的应用
定性评价在生活中有着广泛的应用,我们往往把学生成绩硬性地划分为:优、良、中、差四个等级。而这种传统的硬性区间划分法,存在着众多弊端。例如将成绩90分定为“优”,而成绩79分确定为“良”,这往往只是根据经验但却缺乏理论指导,而实际上二者之间并没有那么明显的差距。如果我们利用数据挖掘中的聚类分析法对学生成绩进行适当处理,就可以有效地对学生成绩进行等级划分,为学生学习和教师的教学提供更合理的参考标准。在合理的等级划分基础上,我们就可以利用关联规则挖掘技术对学生成绩进行多角度、多方向的深入分析,获得可以为教学工作提供决策支持的有价值的隐藏规则。比如:学生成绩的好坏跟作业上交情况有着明显的关系,该规则说明教师可以通过及时督促学生上交作业来提高学生成绩。此外,我们也可以采用决策树挖掘技术来分析影响学生某门课程成绩的主要因素。比如:针对学生出勤率,作业上交情况,国籍,学生中英文水平四个因素对学生成绩的影响程度进行决策树挖掘分析,我们发现学生出勤率、作业上交情况以及学生的中英文水平是影响学生成绩的主要因素,而国籍则是次要因素。由此说明较高的出勤率、良好的作业上交情况以及较好的中英文水平是学生取得良好成绩的重要保障。
2.2 数据挖掘在培养计划制定中的应用
培养计划对一个专业的学习至关重要,一个好的培养计划将会获得事半功倍的效果,反之,将会产生事倍功半的结果。目前我校对于本科留学生虽然部分课程有全英文授课模式,但是就培养方案、教学计划来讲,大部分课程与本专业国内学生的几乎一样。而我国大学课程大纲的起点都是按照和国内高中毕业的程度衔接制定的,特别是数理化这样衔接性很强,对基础和选修课程要求很高的课程,大部分留学生不能跟上学习进度,教学效果较差,学习困难较大。
传统的教务系统无法为留学生的培养计划的制定提供建设性的决策支持。然而,利用数据挖掘技术对留学生信息维表,课程维表和学生成绩维表进行关联规则挖掘,则可以找出不同课程之间的关联,从而为留学生单独制定一套行之有效的特殊培养方案,适当调整外国留学生的必修和选修课程,提高教学效果和质量。如对石油工程专业留学生课程成绩进行关联规则挖掘,获得等级为“优”的课程之间存在的有价值的规则,如表1所示。
相应的规则解释有:(1)规则2 表明,“高等数学(Ⅱ)I”与“高等数学(Ⅱ)II”作为“理论力学”的先行课程的信任度为88.3%,因此“高等数学(Ⅱ)I”与“高等数学(Ⅱ)II”作为“理论力学”的先行课程比较合理。(2)规则3表明,“理论力学”作为“材料力学”先行课的信任度为90.6%,所以“理论力学”作为“材料力学”的先行课程比较合理。(3)规则4表明,“理论力学”和“材料力学”作为“油田开发地质”的先行课程的信任度为86.0%,所以“理论力学”和“材料力学”作为“油田开发地质”的先行课程比较合理。综合(1)(2)(3)可知,高等数学(Ⅱ)(I ,II),理论力学,材料力学,油田开发地质这四门课程的合理开课顺序应该是:(1)高等数学(Ⅱ)(I ,II)(2)理论力学(3)材料力学(4)油田开发地质。如果对上面列出的规则进行多次推导,可以得出“石油工程”这个专业大致合理的开课顺序:(1)高等数学(Ⅱ)I、高等数学(Ⅱ)II;(2)高等数学(Ⅱ)(I ,II),理论力学,材料力学,油田开发地质;(3)测井综合解释,钻井工程、油藏工程、气藏工程,石油工程的全面设计;(4)环境保护在石油和天然气领域,强化开采理论。 由上述的关联规则及相应的结果解释,我们可以清楚地看到,相关课程成绩之间存在较高的关联程度,先行课程的学习情况将直接影响其后续课程的学习。我校即可根据上述结论为学习“石油工程专业”的本科留学生合理安排课程顺序,使其获得良好的学习效果。
2.3 数据挖掘在留学生选课方面的应用
高校愈来愈注重个性化人才培养,学校教育方式越来越人性化、多样化,学生自主选课就成为课程改革的必然产物。但由于留学生初到中国对环境的不熟悉,包括一开始的语言障碍、沟通障碍,显然对中国高校的课程设置了解有限,这样有可能致使他们选课仅仅是凭表面感觉来进行。如:学生在选择“中国概况”这门课的时候,可能仅仅是因为对中国历史文化的好奇,而并不了解应如何合理选择其他相关课程来加深对这门课程的理解。“中国概况”这门课程需要有一定中文语言基础,盲目选课将导致留学生对中国概况的学习仅限于皮毛,而不能深入了解中国历史文化。
现有的选课系统不能为学生选课提供建设性意见,但如果利用数据挖掘技术对学生汉语成绩进行关联规则挖掘,找出课程之间的关联,就可以在学生选择某门课时为其推荐相关课程,完善学生在该领域的学习体系。若获得如下规则:“中级汉语”和“中国概况”成绩等级为“优”;该规则说明汉语水平高低与中国概况的了解程度有较强的关联程度,所以我们在学生选择“中国概况”这门课程的时候,就应当向其推荐“中级汉语”,从而加强学生对该课程的学习。
2.4 数据挖掘在教学中其他方面的应用
通过对学生基本信息,学生成绩与留级或退学情况进行关联规则分析,从中分析导致学生留级或退学的因素,从而可由学生的现有情况预测其被留级或退学的可能性,及时对有退学或留级危险的学生进行适时指导,避免退学或留级情况的出现,使每个学生都能享有充实圆满的大学生活。另外,采用关联规则与决策树挖掘技术对学生基本信息,学生成绩与就业情况进行深入分析,比较国籍,专业方向,性别,专业课成绩,英语水平,参赛(参加科技比赛)情况,从中可以获得相关信息,对学校的招生工作提供参考。如:来自巴基斯坦国家的学生普遍成绩不错,就业情况较好,这样对招生部门来讲,可以提高对该国的学生的招收比例,从而提升整个高校的留学生质量。
3结论
数据挖掘技术作为一种新兴的数据分析技术,被充分应用到留学生的教学管理中。从招生管理方面来讲,通过数据挖掘技术,可以了解不同国家的生源质量,从而为学校的择优录取提供理论参考。从教学方面来讲,采用数据挖掘技术可以理性地分析在留学生教学方面的成效与得失,使留学生在学习过程中,更好地掌握理论基础和专业知识,并且可以把获得的基本的中文听、说、读、写能力运用到所学专业领域中。在教育信息化的大趋势下,数据挖掘技术在教育领域内必然有十分广阔的应用前景,而随着数据挖掘技术的发展,它也必将会在留学生教学管理中起到越来越重要的作用。
参考文献
[1]潘锋. 教务管理系统中的数据挖掘. 重庆.重庆大学.2008.36-38.
