您好、欢迎来到现金彩票网!
当前位置:21点 > 自动标引 >

能不能介绍下:单文档自动文摘系统 这是我的毕业论文 希望有高手

发布时间:2019-07-22 08:04 来源:未知 编辑:admin

  能不能介绍下:单文档自动文摘系统 这是我的毕业论文 希望有高手指点下!!

  能不能介绍下:单文档自动文摘系统 这是我的毕业论文 希望有高手指点下!!

  数字5000~10000左右希望高手能知道下该下哪找这类型的资料。谢谢!!...

  数字5000~10000左右 希望高手能知道下该下哪找这类型的资料。谢谢!!

  可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

  其中,自动摘录(Automatic Extraction)将文本视为句子的线性序列,将句子视为词的

  线性序列.然后通过计算句子的权值,对原文中的所有句子按权值高低降序排列,权值最高

  的若干句子被确定为文摘句,然后将所有文摘句按照它们在原文中的出现顺序输出.

  基于理解的自动文摘方法是以人工智能,特别是自然语言理解技术为基础而发展起来的

  文摘方法.这种方法与自动摘录的明显区别在于对知识的利用,它不仅利用语言学知识获取

  语言结构,更重要的是利用领域知识进行判断,推理,得到文摘的意义表示,最后从意义表

  基于理解的文摘方法需要对文章进行全面的分析,生成详尽的语义表达,这对于大规模

  真实文本而言是很难实现的.与之相比,信息抽取(Information Extraction)只对有用的文本

  篇章是一个有机的结构体,篇章中的不同部分承担着不同的功能,各部分之间存在着错

  综复杂的关系.篇章结构分析清楚了,文章的核心部分自然能够找到.但是语言学对于篇章

  结构的研究还很不够,可用的形式规则就更少了,这使得基于结构的自动文摘到目前为止还

  基于以上的介绍,我们决定使用自动摘录的文摘方法,因为其实现简单,效率较高,适

  用于网际新闻快车系统待文摘文章数目巨大,准确率要求不苛刻的应用环境.

  Hawk单文档自动文摘系统的系统流程如图1所示,包括预处理,加权,排序,文摘选

  预处理的主要是进行分词以及划分章节,段落句子等原文本处理工作.将输入的原文本

  其中在分词阶段,进行未登陆词的识别对于文摘的抽取,特别是关键词的标引有非常重

  散串的定义为文本经过分词之后,在文本中连续出现的若干个单字或单字词构成散串,

  5. 对每个子串进行加权计算,加权公式:Lc,L是子串的汉字个数,C是子串的频度,

  如果仅包含一个关键词,但该关键词在该段落中出现很多次,说明这个段落只是针对文

  章中的每一个分论点进行阐述,价值不大.重要的段落一定要包括多个不同的关键词,在阐

  可能一个词在一个段落里出现了很多次,但在其它段落里几乎不出现,说明这个词和该

  通过加权步骤,我们可以获得每个词汇的权重信息和句子的权重信息,通过这些权重信

  因此排序,文摘选取,句子重排等步骤只是一个简单的排序工作,这里就不详细赘述了.

  后处理步骤的主要工作是进行指代词的消解和句首关系连词的删除,以使得文摘的结果

  所谓指示代词包括人称代词(你我他),一般代词(前者,后者)等等.我们采用的方

  法是如果一个被抽取的文摘句中前面n个词中含有这些代词,则将改句的前一个句子也作为

  句首关系连词包括换言之,因此等等连词,如果其出现在文摘句句首,则显得非

  为了便于调试和演示,我们开发了Hawk单文档自动文摘系统的演示界面,如图3所示.

  以及文摘的长度,文摘长度可以有3种选择方式,分别为根据百分比提取文摘,设定文

  摘结果的词数和自动配置,所谓自动配置即是系统根据文章的长度,自动给出一个比较合适

  单击执行按钮,系统一次性给出标引的关键词以及文摘的结果.并且在原文中标识出文

http://mervynsons.com/zidongbiaoyin/278.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有