当前位置:主页 > 教育论文 > 远程教育论文 >

基于XGBoost特征选择的幕课翘课指数建立及应用

发布时间:2021-04-17 06:15
  翘课行为反应了幕课的质量问题,也是在线教育的核心问题之一。该文通过对真实的在线教育数据进行分析,结合在线教育领域的先验知识,针对数据中的丰富海量的特征问题,提出了基于XGBoost特征重要度计算和分类的翘课特征选择方法,并建立了在线教育的翘课指数(DOI)。基于学堂在线数据集提取的海量特征的实证分析表明,基于XGBoost的特征选择方法比其他经典特征选择方法具有更好的效果。在数据集的不同时间点上使用翘课指数模型作翘课预测,验证了翘课指数的有效性。 

【文章来源】:电子科技大学学报. 2018,47(06)北大核心EICSCD

【文章页数】:6 页

【部分图文】:

基于XGBoost特征选择的幕课翘课指数建立及应用


不同FI方法配合不同分类器的性能比较0.740.72050100150200250300350特征数量c.SVM分类

最优子集,特征数,重要度


第6期宋国琴,等:基于XGBoost特征选择的幕课翘课指数建立及应用925分类值(AUC)0.900.890.880.870.8650100150200250300(135,0.8994)特征数量图4基于XGBoost特征重要度的最优子集表2最优特征子集内容特征数量用户在注册课程中的学习54最后一天行为用户在整个网站的行为4035统计信息4课程注册信息1时间信息1表3最优特征子集表现特征集数量提取时间/min分类值所有特征1339400.8998最优子集135150.8994其中,重要度最高的特征包含最后一天访问其他课程对象的用时,最后一天关闭网页的用时等是非常有指示意义的特征。从表2中可以推断出,某用户翘一门课时,在其他同期课程也可能翘课;同时,用户在课程操作、网站操作上会有不同表现,而且愈临近翘课越明显。重点关注以上方向的趋势,可在很大程度上主导对翘课的预测。如表3所示,最优特征子集只有135个特征,数量不到原来的1/10,而KDDCup2015前10名队伍的特征数量大多在1000以上[5]。因为特征子集数量小,也缩短了特征提取的时间,而分类性能却下降极少。4DOI指数的建立及应用在最优特征子集上使用XGBoost算法构造决策森林,森林中各棵树的预测值加性求和,再将结果进行逻辑回归,得到DOI指数的值。1()11Kkikikfxyfe==∈∑+F(17)式中,F为所有树的函数空间;kf为单棵树,其中包含了特征到分值的映射。取0.5为DOI指标的基准线,大于0.5表示翘课概率增加,小于0.5表示翘课概率减少。DOI值在0~1范围内变化,偏离0.5的大小表示翘课可能与否的程度。为了在更多时间点上验证DOI指数,实验在原数据集上以3天

时间点,预测结果,特征子集,课程


第6期宋国琴,等:基于XGBoost特征选择的幕课翘课指数建立及应用925分类值(AUC)0.900.890.880.870.8650100150200250300(135,0.8994)特征数量图4基于XGBoost特征重要度的最优子集表2最优特征子集内容特征数量用户在注册课程中的学习54最后一天行为用户在整个网站的行为4035统计信息4课程注册信息1时间信息1表3最优特征子集表现特征集数量提取时间/min分类值所有特征1339400.8998最优子集135150.8994其中,重要度最高的特征包含最后一天访问其他课程对象的用时,最后一天关闭网页的用时等是非常有指示意义的特征。从表2中可以推断出,某用户翘一门课时,在其他同期课程也可能翘课;同时,用户在课程操作、网站操作上会有不同表现,而且愈临近翘课越明显。重点关注以上方向的趋势,可在很大程度上主导对翘课的预测。如表3所示,最优特征子集只有135个特征,数量不到原来的1/10,而KDDCup2015前10名队伍的特征数量大多在1000以上[5]。因为特征子集数量小,也缩短了特征提取的时间,而分类性能却下降极少。4DOI指数的建立及应用在最优特征子集上使用XGBoost算法构造决策森林,森林中各棵树的预测值加性求和,再将结果进行逻辑回归,得到DOI指数的值。1()11Kkikikfxyfe==∈∑+F(17)式中,F为所有树的函数空间;kf为单棵树,其中包含了特征到分值的映射。取0.5为DOI指标的基准线,大于0.5表示翘课概率增加,小于0.5表示翘课概率减少。DOI值在0~1范围内变化,偏离0.5的大小表示翘课可能与否的程度。为了在更多时间点上验证DOI指数,实验在原数据集上以3天

【参考文献】:
期刊论文
[1]人类行为时空特性的统计力学[J]. 周涛,韩筱璞,闫小勇,杨紫陌,赵志丹,汪秉宏.  电子科技大学学报. 2013(04)
[2]基于迭代式RELIEF和相关向量机的黄瓜图像识别方法[J]. 金理钻,屠珺,刘成良.  上海交通大学学报. 2013(04)
[3]不平衡数据的降采样方法研究[J]. 林舒杨,李翠华,江弋,林琛,邹权.  计算机研究与发展. 2011(S3)
[4]用修正的RELIEF方法测量高速空气流瞬时速度的理论研究[J]. 郑义,姚建铨,吴峰,房晓俊,施祥春.  光学学报. 1996(08)



本文编号:3142951

资料下载
论文发表

本文链接:https://www.wllwen.com/jiaoyulunwen/wangluojiaoyulunwen/3142951.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5ace5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com