当前位置:主页 > 科技论文 > 搜索引擎论文 >

Web挖掘在检测网络广告欺诈行为中的研究与应用

发布时间:2016-06-06 20:04

  本文关键词:商业搜索引擎的点击欺诈问题研究,由笔耕文化传播整理发布。


《广东工业大学》 2011年

Web挖掘在检测网络广告欺诈行为中的研究与应用

李爱春  

【摘要】:随着互联网的发展,网络广告已经成为一种新的市场推广手段。各行各业的市场人员通过多姿多彩的网络广告宣传自己的产品和品牌的同时,也为这些广告支付广告费用,其中按点击付费广告是目前互联网界简单易行且流行的广告计费方式,它以每次网页上的广告被点击并连接到相关网站或者详细内容页面为基准的网络广告收费模式。点击欺诈(Click Fraud)存在于网络广告的按点击付费模式中,当一个人对广告本身没有兴趣,而只是为了某种利益,采取手动或者利用计算机程序的方式模仿正常用户点击广告时,点击欺诈便产生了。点击欺诈的出现和泛滥,极大地危害了互联网的健康发展。 本文主要是研究Web挖掘应用于网络广告中的点击欺诈,针对国内外有关点击欺诈检测方法进行深入研究,结合Web挖掘的离群点挖掘、多元线性分析、时序分析等算法,设计了一套基于Web挖掘的网络广告欺诈点击检测模型,同时系统地介绍了该模型的检测体系。此检测体系分为两大步:初步评估、评估修正。初步评估主要是根据当前点击流和短时间内点击流进行分析,然后给出此点击的初步评估分,并反馈到前台。评估修正主要的工作是利用Web挖掘技术对初步评估进行修正和预测。在数据处理上,首先对数据进行预处理,由于采集过来的数据属性标识的很明确,我们需要做的有数据清洗、会话识别、属性选择、格式转换、归一化等操作,但由于我们采集的数据集有服务器日志和脚本点击流两部分组成,所以我们还需要完成数据整合的任务,同时还要完成数据补充和校对的功能。在算法上,首先分离出离群点,然后对这些离群点单独分析,而对于新进来的数据我们需要结合历史数据集进行多元线性回归分析,从而预测出可能是点击欺诈行为的数据,通过修正初步评估分把预测结果反馈到前台。前台是相对于服务器而言的,包括网站主、广告主和广告联盟。 通过本文涉及的点击欺诈检测模型能有效检测或屏蔽各类点击欺诈行为,有效屏蔽无意识的无效点击,并且在不影响广告展示速度的基础上显著提高检测点击欺诈的效率。本文通过多组实验对检测模型进行了测试,并对实验结果进行了对比和分析。实验结果也表明,本文提出的解决方案可以有效检测采用手动或者利用计算机自动点击程序的方法模仿正常用户进行点击欺诈的行为,从而证明了该模型的可行性和方案的有效性。 本文最后对论文阐述的内容做了简要总结,针对欺诈点击检测的发展趋势和发展方向做出展望,对本文的检测脚本、用户识别、挖掘算法、后续分析等不足之处进行了分析探讨,这些都将成为下一步继续研究的工作重点。

【关键词】:
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.09
【目录】:

  • 摘要4-6
  • ABSTRACT6-14
  • 第一章 绪论14-18
  • 1.1 引言14-15
  • 1.2 当前研究现状15-16
  • 1.3 论文主要内容及章节安排16-18
  • 第二章 Web挖掘与网络广告18-32
  • 2.1 数据挖掘18-23
  • 2.1.1 数据挖掘定义18-19
  • 2.1.2 数据挖掘分类19-21
  • 2.1.3 数据挖掘的一般流程21-23
  • 2.2 Web挖掘23-28
  • 2.2.1 Web挖掘定义23-24
  • 2.2.2 Web挖掘分类24-26
  • 2.2.3 Web挖掘的一般流程26-28
  • 2.3 网络广告28-30
  • 2.3.1 网络广告定义28-29
  • 2.3.2 网络广告分类29
  • 2.3.3 网络广告存在的问题29-30
  • 2.4 小结30-32
  • 第三章 欺诈点击检测模型32-36
  • 3.1 网络广告流程32-33
  • 3.2 检测体系33-35
  • 3.2.1 体系概述33-34
  • 3.2.2 数据采集34
  • 3.2.3 初步评估34
  • 3.2.4 评估修正34-35
  • 3.2.5 数据存储35
  • 3.2.6 信息反馈35
  • 3.3 小结35-36
  • 第四章 数据集及预处理36-43
  • 4.1 数据集36-37
  • 4.2 预处理37-42
  • 4.2.1 数据补充和校对38-40
  • 4.2.2 数据清洗40
  • 4.2.3 会话识别40-41
  • 4.2.4 属性选择41
  • 4.2.5 格式转换41-42
  • 4.2.6 归一化42
  • 4.3 小结42-43
  • 第五章 检测模块43-53
  • 5.1 点击流初步评估43-45
  • 5.2 点击流评估修正45-52
  • 5.2.1 离群点检测45-49
  • 5.2.2 多元线性回归分析49-52
  • 5.3 小结52-53
  • 第六章 实验及数据分析53-57
  • 6.1 实验环境53
  • 6.2 实验结果及分析53-56
  • 6.2.1 点击流初步评估53-55
  • 6.2.2 点击流评估校对55-56
  • 6.3 小结56-57
  • 总结与展望57-60
  • 结论57
  • 未来工作展望57-59
  • 小结59-60
  • 参考文献60-64
  • 攻读学位期间发表论文64-67
  • 致谢67
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【引证文献】

    中国硕士学位论文全文数据库 前2条

    1 苏青章;社会网络多策略视频推荐系统研究与设计[D];广东工业大学;2012年

    2 王辛;基于密度的职位可信度挖掘[D];暨南大学;2013年

    【参考文献】

    中国期刊全文数据库 前10条

    1 王惠文;孟洁;;多元线性回归的预测建模方法[J];北京航空航天大学学报;2007年04期

    2 江峰;杜军威;眭跃飞;曹存根;;基于边界和距离的离群点检测[J];电子学报;2010年03期

    3 陈光平;叶东毅;;一种改进的离群点检测方法[J];福州大学学报(自然科学版);2007年03期

    4 张宁;;离群点检测算法研究[J];桂林电子科技大学学报;2009年01期

    5 于浩;王斌;肖刚;杨晓春;;基于距离的不确定离群点检测[J];计算机研究与发展;2010年03期

    6 胡彩平;秦小麟;;一种基于密度的局部离群点检测算法DLOF[J];计算机研究与发展;2010年12期

    7 樊纪香;张宏;李辉;王兵团;;BP网络和多元线性回归在产量预测中的应用[J];计算机工程与应用;2007年23期

    8 李学俊;李龙澍;徐怡;;基于粗糙集的Web用户行为预测研究[J];计算机工程与应用;2008年13期

    9 曾颖;罗可;邹瑞芝;;基于K-均值聚类和凝聚聚类的离群点查找方法[J];计算机工程与应用;2009年29期

    10 任仲晟;薛永生;;基于页面标签的Web结构化数据抽取[J];计算机科学;2007年10期

    中国硕士学位论文全文数据库 前6条

    1 韩红霞;基于距离离群点的分析与研究[D];江苏大学;2007年

    2 纪永凤;灰多元线性回归分析及其应用研究[D];东北师范大学;2008年

    3 连凤娜;离群点挖掘及其内涵知识发现研究[D];厦门大学;2008年

    4 姚林;离群点快速挖掘算法的研究[D];江苏大学;2008年

    5 舒正勇;商业搜索引擎的点击欺诈问题研究[D];辽宁师范大学;2008年

    6 王雪英;离群点预处理及检测算法研究[D];西南交通大学;2009年

    【共引文献】

    中国期刊全文数据库 前10条

    1 干娟;;基于决策树算法的学生综合测评系统的设计[J];安徽电子信息职业技术学院学报;2011年04期

    2 李玲玲;辛浩;;FCM算法及其有效性度量方法[J];安徽电子信息职业技术学院学报;2011年05期

    3 李隽波;孙丽娜;;基于多元线性回归分析的冷链物流需求预测[J];安徽农业科学;2011年11期

    4 郭有强;胡学钢;;基于项目增长法高效求解最大频繁项集[J];安徽科技学院学报;2006年06期

    5 张友志;钱萌;程玉胜;;基于关联规则web日志挖掘方法的研究[J];安庆师范学院学报(自然科学版);2006年01期

    6 曹丹阳;李晋宏;魏金强;张艳芳;;基于决策树的英语四级成绩分析[J];北方工业大学学报;2007年01期

    7 钟雁;郭雨松;;数据挖掘技术在铁路货运客户细分中的应用[J];北京交通大学学报;2008年03期

    8 黄江涛,刘自伟,黄晓芳;用于数据挖掘的多维数据可视化技术[J];兵工自动化;2005年03期

    9 左伟;冯金富;张佳强;;制导弹药允许发射区参数模型设计[J];兵工学报;2011年05期

    10 万雅奇;侯亚荣;王勇;张书杰;;教育考试数据挖掘系统研究与实现[J];北京工业大学学报;2009年05期

    中国重要会议论文全文数据库 前10条

    1 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年

    2 王玲;郭辉;付冬梅;;基于IGA-KPLS的钢材淬透性预测建模[A];第二十九届中国控制会议论文集[C];2010年

    3 赵云鹏;石丽;刘莹;;基于数据挖掘的高校规模分析及应用研究[A];第九届全国信息获取与处理学术会议论文集Ⅰ[C];2011年

    4 王皓;曹永锋;孙洪;;基于流域变换的聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年

    5 吴栋;张京华;王玉成;胡伍生;;前兆信息模型在地震预测中的应用[A];数字测绘与GIS技术应用研讨交流会论文集[C];2008年

    6 孟少朋;骆红云;李盛;;基于数据挖掘的汽车可靠性分析方法研究[A];2007年全国失效分析学术会议论文集[C];2007年

    7 杨纪军;朱培栋;;关联规则挖掘技术在蜜罐系统中的应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年

    8 朱攀;陈跃新;;Apriori算法在参保人信用度评价中的应用[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

    9 张文东;袁春风;武港山;;基于视觉的网页数据抽取[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

    10 张敏;陆向艳;周敏;潘林琳;农冬冬;王彬彬;陈晓江;;数据挖掘在智能题库系统中的应用[A];广西计算机学会2004年学术年会论文集[C];2004年

    中国博士学位论文全文数据库 前10条

    1 孟凡文;面向光栅投影的点云预处理与曲面重构技术研究[D];南昌大学;2010年

    2 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年

    3 王冬丽;基于可扩展的支持向量机分类算法及在信用评级中的应用[D];东华大学;2011年

    4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年

    5 倪同和;道路交通规划关键指标预测方法研究[D];吉林大学;2011年

    6 闫顺林;多元扰动下的热力系统能效分析模型及应用研究[D];华北电力大学(北京);2011年

    7 欧海鹰;互联网环境下在线广告位置管理研究[D];北京邮电大学;2011年

    8 金海浩;五行相生间接补法古代应用规律研究[D];南京中医药大学;2011年

    9 陈聆;地球化学矿致异常非线性分析方法研究[D];成都理工大学;2011年

    10 孟京辉;经营单位级森林经营数据仓库研建及应用研究[D];中国林业科学研究院;2011年

    中国硕士学位论文全文数据库 前10条

    1 蔡浩;基于Web使用挖掘的协同过滤推荐算法研究[D];浙江理工大学;2010年

    2 李翠;基于车辆自动识别的智能计重监控系统的研究与设计[D];郑州大学;2010年

    3 刘春燕;教学网络DIDS数据分析方法的研究与改进[D];郑州大学;2010年

    4 史文财;省级政务网安全检测系统的设计与实现[D];哈尔滨工程大学;2010年

    5 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年

    6 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年

    7 姜雪飞;基于SNMP的网络安全态势可视化技术[D];哈尔滨工程大学;2010年

    8 周东海;基于记账凭证的高校教育成本数据挖掘研究[D];哈尔滨工程大学;2010年

    9 李红;数据挖掘中特征选择与聚类算法研究[D];大连理工大学;2010年

    10 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年

    【同被引文献】

    中国期刊全文数据库 前10条

    1 田兆福;网络招聘的现状及应注意的问题[J];商业研究;2004年09期

    2 赵清斌;纪汉霖;刘东波;;我国网络招聘产业:发展现状、趋势与策略[J];商业研究;2012年09期

    3 王世卫;李爱国;;基于SVM的报税欺诈检测[J];计算机工程;2006年09期

    4 张克涵;吴迪;李爱国;宋保维;;基于贝叶斯分类器的报税欺诈检测[J];计算机仿真;2010年09期

    5 黄洪宇;林甲祥;陈崇成;樊明辉;;离群数据挖掘综述[J];计算机应用研究;2006年08期

    6 曾依灵;许洪波;白硕;;改进的OPTICS算法及其在文本聚类中的应用[J];中文信息学报;2008年01期

    7 肖可砾;熊辉;;运用数据挖掘技术检测金融欺诈行为[J];金融电子化;2010年08期

    8 吴晓颖;;基于博弈论的知识溢出效应解构及约束机制[J];情报杂志;2008年01期

    9 安哲锋;;国内外网络招聘研究进展综述[J];上海商学院学报;2010年01期

    10 李爱春;滕少华;;Web挖掘在网络广告点击欺诈检测中的应用[J];计算机工程与设计;2012年03期

    中国硕士学位论文全文数据库 前4条

    1 蒋斌;基于数据库有限泄露机制的P3P隐私保护策略的研究[D];湖南大学;2006年

    2 吴婷;数据挖掘在信用卡欺诈识别上的应用研究[D];东南大学;2006年

    3 周书勇;高维孤立点检测算法研究[D];江苏大学;2007年

    4 王燕霞;基于相关主题模型的文本分类方法研究[D];苏州大学;2010年

    【二级参考文献】

    中国期刊全文数据库 前10条

    1 林和平;刘丁慧;鲍乃源;;灰色相关分析及其应用研究[J];吉林大学学报(信息科学版);2007年01期

    2 金龙海,林和平;灰色系统的OOP实现[J];长春光学精密机械学院学报;1999年03期

    3 赵姚阳;濮励杰;胡晓添;;BP神经网络在城市建成区面积预测中的应用——以江苏省为例[J];长江流域资源与环境;2006年01期

    4 程瑜蓉,郭双冰;基于混沌时间序列分析的股票价格预测[J];电子科技大学学报;2003年04期

    5 刘大峰;廖文和;戴宁;程筱胜;;散乱点云去噪算法的研究与实现[J];东南大学学报(自然科学版);2007年06期

    6 李广原,李文敬;一个基于属性相似性的聚类分析方法[J];电脑与信息技术;2002年04期

    7 朱喜龙;刘洪久;;利用BP神经网络模型预测我国油气管道的投资规模[J];大庆石油学院学报;2006年01期

    8 樊爱军,王开发;多因素时间序列资料GM(1,N)预测模型及其应用[J];第三军医大学学报;2003年19期

    9 黄毅群;卢正鼎;胡和平;李瑞轩;;分布式异常检测中隐私保持问题研究[J];电子学报;2006年05期

    10 陶新民;陈万海;郭黎利;;一种新的基于模糊聚类和免疫原理的入侵监测模型[J];电子学报;2006年07期

    中国重要报纸全文数据库 前1条

    1 刘怡佳;[N];上海证券报;2007年

    中国博士学位论文全文数据库 前5条

    1 王晓晔;时间序列数据挖掘中相似性和趋势预测的研究[D];天津大学;2003年

    2 姚卫新;智能数据分析中异常数据的集成化管理方法研究[D];复旦大学;2004年

    3 胡国飞;三维数字表面去噪光顺技术研究[D];浙江大学;2005年

    4 贺美芳;基于散乱点云数据的曲面重建关键技术研究[D];南京航空航天大学;2006年

    5 汤俊;基于可疑金融交易识别的离群模式挖掘研究[D];武汉理工大学;2007年

    中国硕士学位论文全文数据库 前6条

    1 温丽华;灰色系统理论及其应用[D];哈尔滨工程大学;2003年

    2 韩超;基于时间序列分析的短时交通流量实时自适应预测[D];北京工业大学;2004年

    3 陆声链;孤立点挖掘及其内涵知识发现的研究与应用[D];广西师范大学;2005年

    4 戴静兰;海量点云预处理算法研究[D];浙江大学;2006年

    5 储晶;组合预测模型及其在股票收益率预测中的应用研究[D];南京信息工程大学;2006年

    6 黄薇;搜索引擎传播与盈利模式研究[D];四川大学;2006年

    【相似文献】

    中国期刊全文数据库 前2条

    1 袁健;张劲松;马良;;一种有效预防点击欺诈的策略[J];计算机应用;2009年07期

    2 张祖莲;卡米力·木衣丁;王命全;;一种有效预防点击欺诈的算法[J];计算机应用;2010年07期

    中国博士学位论文全文数据库 前1条

    1 林宏伟;网络广告运作的若干关键问题研究[D];电子科技大学;2013年

    中国硕士学位论文全文数据库 前7条

    1 舒正勇;商业搜索引擎的点击欺诈问题研究[D];辽宁师范大学;2008年

    2 李爱春;Web挖掘在检测网络广告欺诈行为中的研究与应用[D];广东工业大学;2011年

    3 张祖莲;网络点击欺诈及预防策略的研究[D];新疆大学;2011年

    4 贺文军;连续隐马尔科夫模型在点击欺诈识别中的应用研究[D];上海交通大学;2013年

    5 李宝镜;搜索引擎广告中策略性出价和点击欺诈问题的研究[D];重庆大学;2013年

    6 鹿庆超;营造互利多赢的(防点击欺诈)广告联盟[D];大连理工大学;2011年

    7 林坚逢;论搜索引擎竞价排名的法律规制[D];浙江大学;2011年


      本文关键词:商业搜索引擎的点击欺诈问题研究,由笔耕文化传播整理发布。



    本文编号:54104

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/54104.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户4e1d0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com