当前位置:主页 > 社科论文 > 图书档案论文 >

基于关键短语的文本内容标引研究

发布时间:2023-02-13 17:43
  爆炸式增长的信息资源缺乏内容的结构化,大大降低了人们的检索效率。因此,如何将庞杂无序的资源组织起来,提高人们利用信息的效率,成为信息科学当前的一个重要课题。 良好的信息组织和资源表示是高质量信息检索的基石,文本内容标引,特别是其内部特征如类目和主题词的标引,是信息组织和资源表示的核心。本文利用特征提取方法,在大规模分类语料库中将具有较强特征表示功能的关键短语(Key Phrase)提取出来,并按主题聚类。在此基础上,完成了一个知识与统计相结合的文本分类和主题词标引系统,从而将文本内容以精练准确的形式标引出来,方便用户只须查看容量少信息量大的类目和主题词,即可快速把握文本内容, 围绕分类主题一体化,本文主要取得了以下研究成果: 1、提出并证明了关键短语比词更适合作为文本表示特征的观点。 关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的內容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来。关键短语具有结构稳定、语义完整和强统计意义的特点,在较大程度上可以克服向量空间模型和贝叶斯假设的缺点,比词更适合作为文本表示的特征,有利于提高文本分...

【文章页数】:106 页

【学位级别】:博士

【文章目录】:
摘要
Abstract
第一章 引言
    1.1 研究课题的提出
        1.1.1 网络浏览与网络门户网站
        1.1.2 信息爆炸与信息检索
    1.2 国内外研究现状
        1.2.1 文本内容标引界定
        1.2.2 文本内容标引相关研究综述
    1.3 本研究的目标和内容
    1.4 本研究的意义
第二章 关键短语与词语表构建
    2.1 短语的相关研究
        2.1.1 短语本位语法体系关于短语的论述
        2.1.2 计算语言学关于短语的研究
        2.1.3 认知心理学关于短语的研究
        2.1.4 言语习得和教育学关于短语的研究
        2.1.5 信息处理应用领域对短语的研究
    2.2 本研究对关键短语的界定
    2.3 关键短语与其它相关成分的关系
        2.3.1 关键短语与命名实体
        2.3.2 关键短语与本体
        2.3.3 关键短语与术语
        2.3.4 关键短语与主题词、关键词
        2.3.5 关键短语与短语
    2.4 关键短语的获取
    2.5 关键短语与词语表
        2.5.1 基于关键短语的词语表构建
        2.5.2 切分结果分析
第三章 基于统计的主题领域知识获取
    3.1 超大规模层级分类语料库建立
        3.1.1 网页内容解析
        3.1.2 语料信息字段定义
        3.1.3 网页分类体系建立
        3.1.4 语料归类建库
        3.1.5 语料库信息汇总
    3.2 基于主题依存分析的领域词语聚类
        3.2.1 主题依存分析
        3.2.2 利用文本分类的特征提取方法进行词语聚类
        3.2.3 词语的类别区别度
    3.3 扩展的词语聚类
        3.3.1 聚类算法简介
        3.3.2 基于主题依存分析的聚类算法改进
        3.3.3 聚类结果分析
第四章 文本分类实现
    4.1 文本分类综述
        4.1.1 本文对文本分类的界定
        4.1.2 文本分类综述
        4.1.3 主题标引综述
        4.1.4 主要问题分析
    4.2 分类算法实现与训练(测试)集
        4.2.1 分类算法实现
        4.2.2 训练(测试)集
        4.2.3 测试方法
    4.3 分类结果分析比较
        4.3.1 分类算法比较
        4.3.2 特征本身(词表)对分类影响的比较
        4.3.3 小类校正对分类影响的比较
        4.3.4 兼类阈值对分类影响的比较
    4.4 结论
    4.5 分类系统自适应
        4.5.1 分类系统自适应原理
        4.5.2 分类系统自适应示例
第五章 主题词标引实现
    5.1 主题词标引综述
        5.1.1 本文对主题词标引的限定
        5.1.2 主题词标引综述
    5.2 主题词标引实现
    5.3 主题词标引测试及结果
第六章 系统设计与实现
    6.1 系统简介
    6.2 系统总体流程图
    6.3 系统截图
第七章 结束语
    7.1 全文总结
    7.2 存在的问题和尚需改进的地方
        7.2.1 关键短语的界定方面
        7.2.2 词语切分对比测试方面
        7.2.3 词语领域聚类的特征选择方面
        7.2.4 文本分类系统的评测方面
        7.2.5 主题词标引方面
    7.3 进一步的工作
        7.3.1 文本内容的语义标注
        7.3.2 自动文摘模块补充
        7.3.3 基于 XML的文本表示和智能信息检索
        7.3.4 词典编撰辅助系统构建
        7.3.5 对外汉语教学资源平台建设
参考文献
附录
    附录1:切分对比示例
    附录2:网页分类系统之类别汇总
    附录3:大类词表一
    附录4:大类词表二
    附录5:“经济”类中“保险”关键词聚类词表前一百个词语
    附录6:“经济”类中“银行卡”关键词聚类词表前一百个词语
    附录7:“国内新闻”类“春运”关键词聚类词表的前一百个词语
    附录8:“汽车”类中“轮胎”关键词聚类词表前一百词语
    附录9:“科技”类“病毒”关键词聚类词表前一百词语
    附录10:“科技”类“芯片”关键词聚类词表前一百词语
    附录11:“房产”类关键词“木地板”聚类词表前一百词语
    附录12:“国际新闻”类中“恐怖袭击”关键词聚类词表前一百词语
    附录13:“教育”类中“性教育”关键词聚类词表前一百词语
    附录14:“军事新闻”类中“直升机”关键词聚类词表前一百词语
    附录15:“旅游”类中“红色之旅”关键词聚类词表前一百词语
    附录16:“生活男女”类中“美发”关键词聚类词表前一百词语
    附录17:“社会新闻”类中“自杀”关键词聚类词表前一百词语
    附录18:“文艺”类中“遗址”关键词聚类词表前一百词语
    附录19:“游戏”类中“敏捷篇(迷你游戏)”关键词聚类词表前一百词语.
    附录20:“娱乐”类中“摇滚”关键词聚类词表前一百词语
    附录21:“体育”类中“北京奥运”关键词聚类词表前一百词语
致谢
科研成果



本文编号:3742021

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3742021.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户633ee***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com