当前位置:主页 > 科技论文 > 搜索引擎论文 >

邮址精确提取及邮件针对性发送系统开发

发布时间:2017-04-24 16:08

  本文关键词:邮址精确提取及邮件针对性发送系统开发,由笔耕文化传播整理发布。


【摘要】:邮件针对性发送是以电子邮件为传播载体的一种网络营销形式,应用非常广泛。对于邮件营销来说,用户邮箱地址的获取至关重要,直接影响邮件营销的效果。一方面,如果盲目地获取大量邮箱地址,,不仅会造成资源的浪费,还会遭到用户的反感。另一方面,如果仅仅通过电子邮件订阅方式获取用户邮址,可能会错失大量潜在客户。因此,我们希望找到一种获取潜在用户邮址的方式,既能精准地获取目标用户的邮址,让潜在客户有机会获取到感兴趣的资讯信息,又可以最大限度地保证不打扰到其他用户。 本系统旨在精确提取到潜在客户的邮箱地址,主要包括邮址精确提取和邮件针对性发送两大模块。在邮址精确提取模块,本系统采用基于搜索引擎关键字的搜索方式,提取到与该关键词相关的邮箱地址,并且通过多种过滤方式及有效性检测实现邮址的精准提取。在邮件针对性发送模块,系统首先向用户试探性发送一封资讯信息,然后根据用户退信、回复以及退订标记剔除非潜在客户邮址,提高邮件发送的针对性。 为了提高系统的精准性和针对性,本文主要做了以下几点工作: 第一,通过链接过滤来提高邮址的精准度。首先,本系统会对搜索引擎返回结果页面上的无关链接进行过滤,然后,本系统会将关键词与获取链接的标题进行匹配,进一步过滤无关链接,从而提高邮址与输入关键词的相关度。 第二,采用多线程抓取提高邮址提取的效率。在获取到超链接队列后,本系统采用多线程技术实现批量工作的分配,提高了解析链接的效率。同时为了避免出现占用资源超过系统限制导致的程序假死状态,对多线程的数量做了限制。 第三,采用深度搜索技术。深度搜索即获取搜索结果链接对应页面内的链接以及其展开的下级链接的过程。用户可以根据需要设置不同的搜索深度。但为了提高提取邮箱地址的相关度,本系统对搜索深度的最大值做了限制(最大搜索深度3)。 第四,对页面进行邮箱地址匹配时,采用HTMLParser与正则表达式结合的方式,提高了提取效率。和采用输入流逐行匹配的方式相比,使用HTMLParser直接抽取纯文本内容进行匹配的方式,效率更高。 第五,通过邮址纠错、邮址校验和邮址有效性检测来提高邮址的质量。 第六,系统可以实时标记发送状态、退信情况以及回复情况,并及时剔除非目标用户的邮址,提高后续邮件发送的精准度。
【关键词】:搜索引擎 邮址提取 HTML Parser 正则表达式 邮件发送
【学位授予单位】:浙江理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.098
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 第1章 绪论9-17
  • 1.1 课题研究的背景及意义9-11
  • 1.2 研究现状11-15
  • 1.2.1 WEB 信息提取研究现状11-12
  • 1.2.2 信息发送研究现状12-15
  • 1.3 本文主要内容15-16
  • 1.4 论文组织结构16-17
  • 第2章 Web 信息提取及相关技术17-30
  • 2.1 Web 信息提取概述17-20
  • 2.1.1 Web 信息提取步骤17-18
  • 2.1.2 Web 信息提取分类18-20
  • 2.2 Web 页面结构20-24
  • 2.2.1 HTML 简介21-22
  • 2.2.2 HTML 标签和特点22-23
  • 2.2.3 HTML 超链接标记23-24
  • 2.3 HTML Parser 开源项目24-26
  • 2.3.1 HTML Parser 简介24
  • 2.3.2 HTML Parser 相关类24-26
  • 2.4 正则表达式26-29
  • 2.4.1 正则表达式简介26-28
  • 2.4.2 Java 中的正则表达式 API28-29
  • 2.5 HTML Parser 和正则表达式的结合29
  • 2.6 本章小结29-30
  • 第3章 邮件发送及相关技术30-37
  • 3.1 邮件发送相关原理30-34
  • 3.1.1 邮件系统概念30-31
  • 3.1.2 邮件发送相关协议31-34
  • 3.2 JavaMail API34-36
  • 3.2.1 JavaMail API 简介34-35
  • 3.2.2 JavaMail API 核心类35-36
  • 3.3 本章小结36-37
  • 第4章 系统需求和总体设计分析37-43
  • 4.1 系统可行性分析37-38
  • 4.2 系统需求分析38-42
  • 4.2.1 邮址提取需求分析38-40
  • 4.2.2 邮件发送需求分析40-42
  • 4.3 系统的总体功能设计研究42
  • 4.4 本章小结42-43
  • 第5章 邮址精准提取及邮件发送系统的实现43-62
  • 5.1 系统实现的基本思路43-45
  • 5.1.1 邮址提取实现思路43-44
  • 5.1.2 邮件发送实现思路44-45
  • 5.2 用户邮址提取主要模块的实现45-57
  • 5.2.1 获取搜索引擎结果页面45-47
  • 5.2.2 链接的过滤47-48
  • 5.2.3 底层链接的获取48-50
  • 5.2.4 任务加入线程池50-51
  • 5.2.5 正则表达式匹配邮址51-52
  • 5.2.6 邮址导出52-56
  • 5.2.7 邮址有效性检测56-57
  • 5.3 邮件发送主要模块的实现57-61
  • 5.3.1 发送基本设置57
  • 5.3.2 收件人邮址载入57-58
  • 5.3.3 邮件内容编辑58-59
  • 5.3.4 邮件发送59
  • 5.3.5 退信回复标记59-61
  • 5.3.6 整理邮箱列表61
  • 5.4 本章小结61-62
  • 第6章 系统的基本功能演示及性能分析62-75
  • 6.1 系统的环境62-63
  • 6.2 系统基本功能演示63-69
  • 6.3 邮址提取的效果评价69-72
  • 6.3.1 信息提取的评价标准69-70
  • 6.3.2 系统提取邮址的效果70-72
  • 6.4 邮件发送效果分析72-74
  • 6.4.1 影响发送效果的重要因素73
  • 6.4.2 邮件追踪技术73-74
  • 6.5 本章小结74-75
  • 第7章 总结与展望75-77
  • 7.1 结论75-76
  • 7.2 工作展望76-77
  • 参考文献77-80
  • 致谢80-81
  • 攻读硕士期间发表及录用论文#@@

【参考文献】

中国期刊全文数据库 前10条

1 胡军伟;秦奕青;张伟;;正则表达式在Web信息抽取中的应用[J];北京信息科技大学学报(自然科学版);2011年06期

2 王改香;;搜索引擎的体系结构与索引技术探析[J];长江大学学报(自然科学版);2011年03期

3 刘霞 ,李永刚;Java SMTP协议电子邮件传送剖析[J];电脑编程技巧与维护;2004年01期

4 孙卫琴;;JavaMail API电子邮件的收发[J];电脑编程技巧与维护;2007年12期

5 陈玉清;;基于Java的Web邮件系统的设计与实现[J];河南师范大学学报(自然科学版);2009年04期

6 杨宁;使用Java Mail API实现电子邮件客户端[J];晋东南师范专科学校学报;2004年02期

7 陈佳;吴军华;;一种新的预测用户浏览模式的度量方法[J];计算机工程与应用;2010年10期

8 李晶;陈恩红;;Web信息抽取[J];计算机科学;2003年06期

9 冀高峰;汤庸;道炜;吴桂宾;黄帆;王鹏;;基于XML的自动学习Web信息抽取[J];计算机科学;2008年03期

10 周明建,高济,李飞;基于本体论的Web信息抽取[J];计算机辅助设计与图形学学报;2004年04期

中国硕士学位论文全文数据库 前5条

1 郎凤举;基于热点网站内容分析的超链接提取研究[D];中国海洋大学;2010年

2 王琳琳;基于HTML Parser的Web信息提取技术[D];北京邮电大学;2007年

3 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年

4 苗苗;基于页面分块的网页内容提取的研究与实现[D];武汉理工大学;2010年

5 刘冉;基于搜索引擎的邮箱地址自动提取系统开发[D];浙江理工大学;2013年


  本文关键词:邮址精确提取及邮件针对性发送系统开发,由笔耕文化传播整理发布。



本文编号:324527

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/324527.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c6019***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com