当前位置:主页 > 经济论文 > 产业经济论文 >

基于社交网络和决策树的中国电影产业研究

发布时间:2021-08-23 13:42
  本文提出了一种基于社交网络和决策树的中国电影产业分析方法,结合可视化技术从多种角度分析影响电影票房和质量的因素。本文旨在从多个维度挖掘中国电影市场的特点,分析电影票房和电影质量、电影类型、演员阵容、上映时间的关系,利用社交网络构建演员关系图谱,智能化推荐符合观众口味的电影。实验结果表明,本文的研究成果具有重要的理论研究意义和实际应用价值,该算法可以广泛应用于电影市场分析、文本挖掘、电影智能推荐等领域,同时可以优化中国电影市场,为观众提供更好的精神食粮。 

【文章来源】:电影文学. 2019,(05)北大核心

【文章页数】:10 页

【部分图文】:

基于社交网络和决策树的中国电影产业研究


电影数据分析系统框架图表1中国电影网票房电影名年份票房/万元类型

豆瓣,电影,信息,喜剧


?。4.数据分析主要包括可视化分析和机器学习分析两块,通过Echarts、社交网络、热点词云等直观地展示影响电影市场的因素,利用决策树分类算法挖掘深层次的电影规律。5.最后对实验结果进行评估,并得出结论。(二)数据采集本文使用基于Python语言的Selenium、BeautifulSoup、Xpath技术抓取豆瓣网电影及中国电影网的电影信息,通过分析网页DOM树结构抓取指定的字段,再利用自动化测试技术模拟浏览器操作获取演员详情,并调用Python的第三方库将信息存储至本地Excel文件。图2是豆瓣网电影《肖申克的救赎》对应的页面,包括电影名称、导演、编剧、主演、评分、上映日期等字段,经过数据采集之后存储至本地如图3所示。中国电影网票房前10名的电影信息抓取至本地后如表1所示。图2豆瓣网电影《肖申克的救赎》信息表1中国电影网票房前10名的电影信息电影名年份票房/万元类型片长上映时间评分评论数战狼22017567886.1动作/战争/军事123min2017/7/277.1539871红海行动2018364730.6动作/剧情/犯罪138min2018/2/168.3440990唐人街探案22018339666.2喜剧/动作/悬疑120min2018/2/166.7393340美人鱼2016339210.9喜剧/爱情/科幻/怀旧93min2016/2/86.7446016捉妖记2015244001.7奇幻/喜剧118min2015/7/166.7293881捉妖记22018223665.6喜剧/奇幻111min2018/2/165.0150994005

决策树算法,分析流程


XUESHULUNTAN学术论坛|图4词云分析流程图(五)决策树算法决策树(DecisionTree)是在已知各种情况发生概率的情况下,采用树状结构构建决策模型,判断每种可行性的概率。它是一种监督学习方法,常用来解决分类和回归问题。常见的决策树算法包括:分类及回归树(ClassificationAndRegressionTree,简称CART)、ID3算法(IterativeDichotomiser3)、C4.5算法、随机森林算法(RandomForest)、梯度推进机算法(GradientBoostingMachine,简称GBM)等。决策树构建的基本步骤如下:第一步:开始时将所有记录看作一个节点。第二步:遍历每个变量的每一种分割方式,找到最好的分割点。第三步:分割成两个节点N1和N2。第四步:对N1和N2分别继续执行第二步和第三步,直到每个节点足够“纯”为止。本文将调用Sklearn.tree机器学习库中决策树分类算法对电影信息进行分类预测。四、实验分析及结果评估本文数据集采用Python自定义爬虫抓取豆瓣网电影及中国电影网的电影信息,所抓取的字段包括电影名称、导演、编剧、主演、评分、上映日期等,其中豆瓣网电影共抓取评分前250部的电影信息,中国电影网共抓取票房前500部的电影信息。紧接着进行异常值处理、数据清洗和中文分词,将缺失的数据填充,不符合逻辑的数据校正,不常用的词语和特色符号过滤,并导入专有名词词典进行中文分词,利用Jieba分词工具进行数据预处理。数据清洗为后面的分析提供良好的数据基础,接下来是详细的实验分析及结果评估。(一)中国电影市场近十年综述分析首先我们将对中国电影市场近十年的发展情况做一个概括性?

【参考文献】:
期刊论文
[1]基于Python爬虫的电影评论情感倾向性分析[J]. 涂小琴.  现代计算机(专业版). 2017(35)
[2]基于Hadoop和Python的多角度电影数据可视化分析[J]. 陈豪,吴健.  现代信息科技. 2017(05)
[3]基于Movielens电影数据的可视分析[J]. 许冰晗,尚鸿运,马灿,李尚.  计算机工程与科学. 2017(11)
[4]电影预告片在线投放对票房的影响——基于文本情感分析方法[J]. 孙春华,刘业政.  中国管理科学. 2017(10)
[5]基于词向量的电影评论情感分析方法[J]. 殷复莲,潘幸艺,柴剑平.  现代电影技术. 2017(08)
[6]基于k-means和关联度分析的网络招聘信息数据挖掘[J]. 章胤,赵文慧,包恒玥,李亚健,周克强.  软件工程. 2017(05)
[7]基于SPSS的电影聚类分析研究[J]. 龚晓,郭进利.  改革与开放. 2017(07)
[8]中国电影圈主要导演和演员合作网络的结构特征分析[J]. 周静,袁瑛,涂平.  复杂系统与复杂性科学. 2016(03)
[9]情感分析在电影推荐系统中的应用[J]. 雷鸣,朱明.  计算机工程与应用. 2016(10)
[10]网络口碑与产品销售的灰色关联分析——以电影数据为例[J]. 侯乃聪,张旭,夏恩君.  管理现代化. 2015(02)

硕士论文
[1]国内电影产业中大数据应用现状分析[D]. 马健雯.河北大学 2016



本文编号:3357978

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/chanyejingjilunwen/3357978.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d0fb8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com