当前位置:主页 > 科技论文 > 自动化论文 >

基于随机森林与梯度提升决策树的代码抄袭检测模型研究

发布时间:2022-12-08 00:43
  随着信息技术的发展,计算机显得越来越重要,计算机专业学生的编程能力也得到空前重视。为了增强编程训练,在线作业提交系统OJ系统(Online Judge System)得到广泛应用。学生可以在OJ上提交作业,系统自动判断该题是否正确,从而能大大减轻教师工作量。随着作业量的增加,学生抄袭现象越加严重,因此,需要一个机制检测抄袭并努力杜绝抄袭。抄袭的检查涉及到多个方面的因素,为了尽可能提高准确率,本文主要完成了以下工作:(1)代码相似度的计算基于数字指纹技术对学生新提交的代码计算相似度。其过程分三个步骤进行处理:数字化、指纹化、相似度计算。(2)特征提取与计算为了使用机器学习判断抄袭,定义了特征并对特征进行提取。特征包括代码相似度是否超过阈值、相似度超过或者低于阈值的百分比类别值、题目难度、代码风格相似度、历史抄题率类别值、相似集中度等。(3)机器学习模型及效果分析对OJ系统中现有代码抄袭检测方法进行改进,使用融合随机森林(Random Forest)与梯度提升决策树(Gradient Boosting Decision Tree)的改进算法,弥补单个算法的不足。并将两个算法的结果进行对比,... 

【文章页数】:66 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 课题背景
    1.2 国内外现状
    1.3 论文研究内容
    1.4 论文的组织结构
    1.5 本章小结
第2章 相关技术概述
    2.1 数字指纹技术
    2.2 决策树
    2.3 熵
    2.4 随机森林
    2.5 梯度提升决策树
    2.6 本章小结
第3章 机器学习特征提取与计算
    3.1 数字指纹计算代码相似度
    3.2 特征定义
    3.3 特征计算
    3.4 结合RF与 GBDT的学习模型
    3.5 本章小结
第4章 机器学习算法设计与测试
    4.1 OJ系统抄袭检测流程设计
    4.2 嫌疑区间上限及下限(阈值SRT)的动态调整
    4.3 机器学习算法测试
    4.4 本章小结
第5章 在线代码提交与抄袭检查系统设计与实现
    5.1 教师需求分析
    5.2 学生需求分析
    5.3 系统功能模块设计
    5.4 数据库设计
    5.5 特征处理模块实现
    5.6 特征计算模块实现
    5.7 本章小结
第6章 总结与展望
    6.1 总结
    6.2 展望
参考文献
攻读学位期间的研究成果目录
致谢


【参考文献】:
期刊论文
[1]基于随机森林算法的粮堆机械通风温度预测及控制研究[J]. 韩建军,南少伟,李建平,郭呈周.  河南工业大学学报(自然科学版). 2019(05)
[2]多元线性回归方法对北京地区PM2.5预报的改进应用[J]. 潘锦秀,晏平仲,孙峰,李云婷,刘保献,王占山,董瑞.  中国环境监测. 2019(02)
[3]采用梯度提升决策树的车辆换道融合决策模型[J]. 徐兵,刘潇,汪子扬,刘飞虎,梁军.  浙江大学学报(工学版). 2019(06)
[4]机器学习分类问题及算法研究综述[J]. 杨剑锋,乔佩蕊,李永梅,王宁.  统计与决策. 2019(06)
[5]基于决策树特征提取的支持向量机在岩性分类中的应用[J]. 韩启迪,张小桐,申维.  吉林大学学报(地球科学版). 2019(02)
[6]基于ROC曲线和驾驶行为特征的驾驶愤怒强度判别阈值[J]. 万平,吴超仲,马晓凤.  吉林大学学报(工学版). 2020(01)
[7]一种基于信息熵的关键词提取算法[J]. 吴华,罗顺,孙伟晋.  计算机与数字工程. 2019(03)
[8]面向差分隐私保护的随机森林算法[J]. 李远航,陈先来,刘莉,安莹,李忠民.  计算机工程. 2020(01)
[9]基于多元协变量和随机森林算法的宁夏用电量预测[J]. 宁永龙,邹蒙.  机电信息. 2019(06)
[10]基于贝叶斯模型组合的随机森林预测方法[J]. 董娜,常建芳,吴爱国.  湖南大学学报(自然科学版). 2019(02)

硕士论文
[1]基于分词频的特征选择算法在文本分类中的研究[D]. 刘艺彬.西安理工大学 2018
[2]基于python的Web数据挖掘技术研究与实现[D]. 刘熠.长江大学 2018
[3]基于子树追踪的代码抄袭检测研究与实现[D]. 张振祥.江苏大学 2018
[4]基于CNN的代码相似度检测研究与代码查重系统[D]. 殷丹平.北京邮电大学 2018
[5]C语言查重与自动评分算法研究[D]. 朱林琴.湘潭大学 2017
[6]基于编辑距离的C代码相似度度量算法研究[D]. 张建雄.华中科技大学 2017
[7]基于源码结构相似度检测系统的设计与实现[D]. 孙芬芬.内蒙古大学 2017
[8]基于代码复杂度的软件演化评估与分析[D]. 何磊.东南大学 2016
[9]基于SVM的抄袭检测研究[D]. 王素红.哈尔滨工程大学 2015
[10]基于数字指纹的C程序克隆检测技术的研究[D]. 黄柳柳.南京理工大学 2011



本文编号:3713192

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3713192.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6eed6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com