流量识别特征选择算法的研究与改进

发布时间：2024-03-26 22:08

　　为了对移动互联网进行更细粒度的网络管理，流量识别和检测技术被广泛应用，其根据应用类型的不同可将网络流量划分成不同的类。流量识别有很多实现的技术，如基于端口，基于载荷，基于主机行为的识别方法。在这其中，机器学习法由于它较高的准确率得到人们的广泛关注。特征选择为机器学习法选择最优特征子集，其对算法的准确率和效率有非常大的影响。为了获得最优特征子集，往往需要对所有可能的特征组合进行测试。当特征数过多时，特征选择将会耗费大量的时间和计算资源。本文首先简单介绍了流量识别的相关技术，对机器学习分类算法和常见特征选择算法进行了概括和比较。在此基础上提出两种新的特征选择法： 1、基于C4.5决策树的组合树算法。该算法主要利用了C4.5算法的结构特性，在没有实际训练和测试分类器前，可以排除原始特征集中的一些冗余属性。 2、基于SVM-Wrapper与粗糙集相结合的RSF算法。基于粗糙集的属性约简方法简单易用，但当特征数过多时，计算量则会指数级增长。而本文所提出的RSF算法首先通过SVM-Wrapper对原始特征集进行初步约简，在此基础上再使用粗糙集进行属性约简，可以解决属性约简过程中特征数过多所引起...

【文章页数】：62 页

【学位级别】：硕士

【部分图文】：

图2.2Adaboost流程图

图2.2Adaboost流程图其中Di为第i轮各个样本在样本集中参与训练的概率。算法流程：1.按照均匀分布从初始样本集中选取子集作为该次的训练集；....

图2.3二维空间的线性分类器

图2.3二维空间的线性分类器需要区分的类别，中间的直线就是一个分类函性函数所区分则为线性可分，否则为线性不可分统一的名称--超平面。平面[17....

图2.4线性可分情况下的最优分类线

图2.4线性可分情况下的最优分类线而H1和H2是平行于H，且过离H最近的两类样本间的距离就是几何间隔。易看出，几何间隔越大，表示该分类函数性能越最....

图2.5两类样本处于同一直线上

图2.5两类样本处于同一直线上c1x+c2x2。==2102,1cccaxyx，则：g(x)=f(y)=y维空间后就线性可分了。<w',x'>....

本文编号：3939753

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/3939753.html

上一篇：新浪微博社群发现方法研究
下一篇：基于微博引用的个性化推荐

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|