当前位置:主页 > 科技论文 > 搜索引擎论文 >

电商搜索引擎中长尾类目预测系统的设计与实现

发布时间:2017-04-15 16:03

  本文关键词:电商搜索引擎中长尾类目预测系统的设计与实现,,由笔耕文化传播整理发布。


【摘要】:在电商搜索环境下,用户与搜索系统的交互主要是通过查询来完成,为此,需要对用户查询的类目意图做准确判断。由于“马太效应”,处于流量顶部的query的类目意图积累足够的数据,类目预测结果比较准确。但是长尾query由于积累数据不够,无法准确识别类目意图。因此,需要针对长尾query的类目预测算法做专门的优化。本文对中文query分析的相关技术,尤其是tagging相关的技术进行了调研,并总结了目前query意图识别的研究成果、实际应用领域的发展,对长尾query的类目预测提出一个完整的解决方案。具体做法是将低频的长尾query转化为相对高频的“模式”,在模式的层面上作出类目意图的识别,最后再把模式还原到query层面上。本文介绍了基于Hadoop平台的算法实现,包括离线tagging模型的训练和预测,对挖掘到的query模式进行分析,得到类目意图预测结果。实验数据表明,改进的长尾query类目预测算法在准确率和召回率上都有较大提升,可以满足线上应用的基本要求。
【关键词】:query分析 短文本标注 文本分类
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.52
【目录】:
  • 摘要5-6
  • Abstract6-11
  • 第一章 引言11-16
  • 1.1 项目背景11
  • 1.2 类目预测问题介绍11-12
  • 1.3 类目预测系统概述12-14
  • 1.4 本文的主要工作14
  • 1.5 本文的组织结构14-16
  • 第二章 技术综述16-23
  • 2.1 中文query分析基础技术16-18
  • 2.1.1 分词16-17
  • 2.1.2 Term Weighting17-18
  • 2.2 HMM18-19
  • 2.3 文本分类技术19-21
  • 2.4 Hadoop MapReduce21-22
  • 2.5 本章小结22-23
  • 第三章 长尾类目预测系统的分析与设计23-39
  • 3.1 项目总体规划与需求分析23-25
  • 3.1.1 项目总体规划23
  • 3.1.2 功能需求23-24
  • 3.1.3 非功能需求24-25
  • 3.2 系统总体设计与模块设计25-27
  • 3.2.1 系统总体架构25-27
  • 3.2.2 系统模块划分27
  • 3.3 离线子系统的分析与设计27-36
  • 3.3.1 HMM模型训练模块的设计28-30
  • 3.3.2 QueryTagging模块的设计30-31
  • 3.3.3 模式挖掘模块的设计31-34
  • 3.3.4 索引生成模块的设计34-36
  • 3.4 在线子系统的分析与设计36-38
  • 3.5 本章小结38-39
  • 第四章 长尾类目预测系统的实现39-55
  • 4.1 离线子系统的实现39-49
  • 4.1.1 HMM训练模块的实现39-42
  • 4.1.2 QueryTagging模块的实现42-44
  • 4.1.3 模式挖掘模块的实现44-47
  • 4.1.4 索引生成模块的实现47-49
  • 4.2 在线子系统的实现49-52
  • 4.2.1 触发逻辑的实现50
  • 4.2.2 类目预测逻辑的实现50-51
  • 4.2.3 合并逻辑的实现51-52
  • 4.3 项目效果52-53
  • 4.3.1 长尾类目预测效果展示52-53
  • 4.3.2 类目预测效果指标53
  • 4.3.3 对系统性能的影响53
  • 4.4 本章小结53-55
  • 第五章 总结与展望55-56
  • 5.1 总结55
  • 5.2 进一步工作展望55-56
  • 参考文献56-58
  • 致谢58-60

【相似文献】

中国期刊全文数据库 前10条

1 ;An Ontology-Based Service Matching Strategy in Grid Environments[J];Wuhan University Journal of Natural Sciences;2004年05期

2 苏斐;慈林林;朱丽萍;赵欣欣;;Data Caching for XML Query[J];Journal of Beijing Institute of Technology(English Edition);2006年03期

3 ;Distributed GEP query optimization on grid service[J];The Journal of China Universities of Posts and Telecommunications;2010年03期

4 周傲英,施伯乐;Query Optimization for Deductive Databases[J];Journal of Computer Science and Technology;1995年02期

5 JEON Se gil ,LEE Chung woo ,NAH Yunmook ,KIM Moon hae ,HAN Ki joon;Distributed location-based query processing on large volumes of moving items[J];重庆邮电学院学报(自然科学版);2004年05期

6 ;A solution of spatial query processing and query optimization for spatial databases[J];重庆邮电学院学报(自然科学版);2004年05期

7 ;Implementation of an Autocorrelation Pitch Detector in Application to Query by Humming[J];Wuhan University Journal of Natural Sciences;2005年03期

8 ;GQL:Extending XQuery to Query GML Documents[J];Geo-Spatial Information Science;2006年02期

9 ;Processing Constrained K Closest Pairs Query in Spatial Databases[J];Wuhan University Journal of Natural Sciences;2006年03期

10 ;Bottom-up mining of XML query patterns to improve XML querying[J];Journal of Zhejiang University(Science A:An International Applied Physics & Engineering Journal);2008年06期

中国重要会议论文全文数据库 前10条

1 ;Fast Discovering Frequent Patterns for Incremental XML Queries[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年

2 ;Identifying Machine Query for an Intelligent Web Browser System[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年

3 ;Design and Optimization of Query System Architecture based on Multi-tier Metadata[A];第二十七届中国控制会议论文集[C];2008年

4 ;Query Through Heterogeneous Ontologies Using Association Matrix[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年

5 ;Mining Synonymous Entities using Search Engine Query Logs[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年

6 Yongjian Fan;Xiaoying Zhang;Hong Chen;;Aggregation-Based Privacy-Preservation Approximate Query Protocol in Wireless Sensor Networks[A];2013年中国智能自动化学术会议论文集(第一分册)[C];2013年

7 Ce Fan;Xiaorong Wu;;An optimal Scheme Based on Local Query for Computer Graphics[A];proceedings of 2010 3rd International Conference on Computer and Electrical Engineering (ICCEE 2010 no.1)[C];2012年

8 Du Xuedong;Xie Tingting;;Based on the Half-space Pruning to Continuously Monitoring Reverse KNN[A];2012年计算机应用与系统建模国际会议论文集[C];2012年

9 ;The Semi-join Query Optimization in Distributed Database System[A];Information Technology and Computer Science—Proceedings of 2012 National Conference on Information Technology and Computer Science[C];2012年

10 ;Variable and Index Processing in XML-QL Join[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

中国重要报纸全文数据库 前2条

1 江苏 王鑫;Delphi控件使用点滴[N];电脑报;2002年

2 福建 曾晓萌;优化你的 Delphi 程序[N];电脑报;2001年

中国博士学位论文全文数据库 前1条

1 熊文新;信息检索Query语言分析[D];北京语言大学;2006年

中国硕士学位论文全文数据库 前6条

1 严昕;电商搜索引擎中长尾类目预测系统的设计与实现[D];南京大学;2016年

2 阚长城;Query Engine的设计与实现[D];电子科技大学;2012年

3 朱亮;基于马尔科夫随机游走模型的query-doc关联挖掘[D];吉林大学;2014年

4 唐国华;Query语义依存分析技术研究[D];哈尔滨工业大学;2012年

5 刘建柱;基于Query分析的中心词与需求词搭配关系的自动挖掘[D];东北大学;2008年

6 梁国蓉;一个基于Dataflow的大数据Query Engine系统的设计与实现[D];南京大学;2015年


  本文关键词:电商搜索引擎中长尾类目预测系统的设计与实现,由笔耕文化传播整理发布。



本文编号:308729

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/308729.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ccfcb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com