您好、欢迎来到现金彩票网!
当前位置:21点 > 自动标引 >

Chapter4 信息组织自动化技术

发布时间:2019-06-27 05:49 来源:未知 编辑:admin

  信息组织自动化技术张金柱2014 Autumn 信息组织自动化技术本章要求: 第一节 信息采集与自动化技术 自动采集技术第二节 信息内容分析与揭示技术 信息采集信息描述 信息存储 信息揭示 信息分析 信息服务 前提 初级组织 核心 空间组织 深化 宗旨 信息组织的过程 4.1信息采集与自动化技术 4.1.1 信息采集概述 4.1.2 自动采集技术 4.1.1信息采集概述 信息采集,简而言之,就是信息的选择和提取的过 程,是根据特定目的和要求将分散蕴含在不同时空领域 的有关信息采掘和积累起来的连续过程。 信息采集是信息资源能够得以充分开发和有效利用 的基础,也是信息产品开发的起点。信息采集这一环节 的工作好坏,对整个信息组织活动的成败将产生决定性 的影响。 概念 4.1.1信息采集概述 信息源:是人们获取信息的来源。 人脑 实物 供记录的各种载体 信息源分类 1.根据载体的形式分为:文献型源和非文献型信息 2.根据不同加工层次分为:一次信息源、二次信息 源、三次信息源 3.从信息源的类型划分为:个人信息源、实物信 息源、文献信息源、数据库信息源、组织机构信息 4.1.1信息采集概述 主动、及时的原则 信息是时效的。信息采集应能及时反映事物发展的最新情况, 方能使信息的效用得到最大发挥。 真实、可靠的原则 真实可靠的信息是正确决策的重要保证。 信息采集原则 4.1.1信息采集概述 针对、适用的原则 根据使用者的实际需要有目的、有重点、有选择地采集利用 价值大的、适合当时当地环境条件的信息,做到有的放矢。 系统、连续的原则 信息采集是信息整序的基础。只有系统、连续的信息来源, 才能有所选择、有所比较、有所分析,产生有序的信息流。 信息采集原则 4.1.1信息采集概述 适度、经济的原则 信息环境复杂,必需加以选择才能避免浪费,分清主次与 真伪。 计划、预见的原则 计划性原则,要求制定科学合理的采集计划,有目的有步骤 地采集;预见性原则,要求信息采集者不仅要研究用户的当 前信息需求,还要研究用户未来的信息需求 4.1.1信息采集概述 信息采集方法 人工采集 咨询采集法10 4.1.1 信息采集概述 信息采集方法 自动采集是针对网络信息资源,采用专用的信息采集程序,比如网络 机器人(robot)、蜘蛛(sprider)、爬虫(worm)等,不 断地从网络自动采集信息并及时送回相关信息。 网络信息采集 将非结构化的信息从大量的网络信息资源中抽取出来保存到 结构化的数据库中的过程。 11 4.1.2 自动采集技术 搜索引擎数据采集机制 搜索引擎采集标引机制 数据组织机制 用户检索机制 点新闻组站点 Gopher站 FTP站点WWW站点 WWW站点 搜索引擎基本结构 12 4.1.2 自动采集技术 13 4.1.2 自动采集技术 搜索引擎数据采集机制 策略 从基本网址集开始,用“滚雪球”的方式逐步扩大,直至 整个互联网。 步骤 重复上述3个步骤,直到再没有新的URL发现或超出了某些限制(时间或磁盘空间); 给索引数据库加上查询接口,向网上用户发布。14 4.1.2 自动采集技术 专用软件定制采集 RSS (Really Simple Syndication 真正简易聚合) 技术,可以简化 地理解为“两点直接信息传递” 内容商一端将各种信息用RSS格式打包,“推”送到用户一端的本地阅读器软件中。 用户不需要了解任何具体技术细节就可以享受RSS技术带来的良多受益: 在用户不知道有新闻发生时将新闻送到用户面前,帮助用户毫不费力地第一时间了解新人,新事,新产品,新信息; 信息源的选择和信息内容的过滤完全由用户自主配置,保证信息的“无垃圾”和“个性化”; 信息的本地存储和管理功能为用户建立起一个“随身资料库”,毋需上网也可纵览天下风云。 15 16 17 18 4.1.2 自动采集技术 专用软件定制采集 网络信息自动采集系统 网络信息采集专家 网络信息采集万能器 网络信息采集大师 19 20 21 22 23 4.2 信息内容分析与揭示技术 4.2.1 汉语自动分词技术 4.2.2 自动标引与自动分类技术 4.2.3 自动文摘技术 4.2.4 深层次分析技术 24 4.2 信息内容分析与揭示技术 信息组织自动化研究和应用的特点 多以理论研究和实验系统为主,实际的应用系统和商业化产品不多。 当前基于电子化文本的信息组织问题仍以手工操作为主,计算机系统主要充当辅助组织的角色。 25 分词的意义 正确的机器自动分词是正确的中文信息处理的基础 文本检索 和服 于三日后裁制完毕,并呈送将军府中。王府饭店的设施 是一流的。如果不分词或者“和服务”分词有误,都会导致荒谬的检索结 远近闻名。(“查”读音为zha)4.2 信息内容分析与揭示技术 26 4.2.1 汉语自动分词技术 从目前的切分技术来看,大概有这三大类:一元切分、 二元切分和词表切分。 时间就是生命。 一元切分 二元切分时间就是生命。 词表切分 时间/就/是/生命/。 27 4.2.1 汉语自动分词技术 汉语歧义 北京大学生 北京^大学生 北京大学^生 北京^大学^生 北京^大^学生 28 4.2.1 汉语自动分词技术 最大匹配法(Maximum Matching method, MM法): 选取包含6-8个汉字的符号串作为最大符号串,把最 大符号串与词典中的单词条目相匹配,如果不能匹配, 就削掉一个汉字继续匹配,直到在词典中找到相应的 单词为止。匹配的方向是从左向右。 逆向最大匹配法(Reverse Maximum method, RMM法) 匹配方向与MM法相反,是从右向左。实验表明:对于 汉语来说,逆向最大匹配法比最大匹配法更有效。 双向匹配法(Bi-direction Matching method, BM法) 比较MM法与RMM法的分词结果,从而决定正确的分词。 基于词典的汉语分词方法 29 4.2.1 汉语自动分词技术 输入字串: 输出词串:查词典 yes 生命/最大匹配法 30 4.2.1 汉语自动分词技术 双向匹配法 中国/ 大学/ 生活 最大匹配法 中国/大学生/活 逆向最大匹配法 中国/大学/生活 双向匹配法的选择原则: 大颗粒度词越多越好 非词典词和单字词越少越好 切分总词数越少越好 31 4.2.1 汉语自动分词技术 最大概率法分词 结合成分子时 结/合/成分/子/时结/合成/分/子时 结/合/成/分/子时 结/合成/分/子/时 结/合/成分/子时 结/合/成/分子/时 结/合成/分子/时 结合/成/分/子/时 结合/成/分/子时 结合/成/分子/时 结合/成分/子/时 结合/成分/子/时 32 4.2.1 汉语自动分词技术 最大概率法分词33 4.2.1 汉语自动分词技术 最大概率分词路径示意 结合 合成 成分 子时分子 344.2.1 汉语自动分词技术 最大概率分词算法 对一个待分词的字串S,按照从左到右的顺序取出全部候 选词w1, w2 按照公式计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词; 如果当前词wn是字串S的尾词,且累计概率P(wn)最大,则wn就是S的终点词; 从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即为S的分词结果。 35 4.2.1 汉语自动分词技术 最大概率分词算法 Max(P(W1S), P(W2S),…… P(W2S),) 语料库中的总词数在语料库中的出现次数 序号候选词 费用 累计费用 最佳左邻 3.5733.573 -1 结合3.543 3.543 -1 3.5187.091 合成4.194 7.767 2.8006.343 成分3.908 7.451 2.8629.205 分子3.465 9.808 3.30410.755 子时6.000 13.451 2.47812.286 最大概率分词中间结果的列表表示法4.2.1 汉语自动分词技术 37 自动标引概述 所谓自动标引,是指利用计算机从各种文献中自动提取出文 献标识的过程。 自动赋词标引 自动标引 主题自动标引 分类自动标引 自动赋号标引 自动抽词标引 自然语言词与 规范词对应表 词串与分类号对应表和自动分类规则 自动标引方式及其关系 4.2.2 自动标引与自动分类技术 38 自动标引概述 1957年,美国卢恩(H.P.Luhn)提出了基于词频统计的抽词 标引法,率先进行了自动标引的探索。 20世纪60年代后期到70年代末,自动标引技术取得了重大进展,提出了概率统计标引法、句法分析标引法以及各种加权 模型,并建立了一批实验系统。 1983年,王永成,肖玮英建立了“中文自动标引于检索软件实验系统” 4.2.2 自动标引与自动分类技术 39 自动标引的方式----自动抽词标引 4.2.2 自动标引与自动分类技术 由计算机程序将文本与停用词表对照,除去介词、连词等虚词,然后统计出文本中词语出现的频率,按词语出现的频率排序。排在最前面的词为“高频词”, 可选作文献的“标引词”。 绝对频率法有一个缺点,根据绝对频率法抽取出来的某些词可能无法很好区 分数据库中的不同文献,亦即专指度可能不强。 当某个词或短语在某一文献资源中出现的频率高于它在整个数据库中出现的频率时,这个词或短语就可以被选作标引词,这就是相对频率抽词法。 即利用词语在文献中出现的位置来进行选择。例如,从标题、文摘、图表解说词、主题句中进行词语的抽取。 40 自动标引的方式---自动赋词标引 4.2.2 自动标引与自动分类技术 当对一篇文献进行标引时,利用计算机根据词频法从文献中抽取出来的重要的词语,与受控词表的关联词条目集合进行匹配,当某个叙词的关联词表与之匹配超过一定 阀值时,就将这个叙词赋予这篇文献作为标引词。 在进行自动赋词标引时,使用一个中介词典(如语义词表),与文献中的词进行匹配,同时将中介词典的词与某一个主题词表的词进行对应,这样通过中介 词典,就可以将文本词指引向受控词表中的词。 中介词典的覆盖面一般比较小,难以编制一个能满足各方面需求的词典,所以用中介词典进行的自动赋词标引一般会局限于某一特定的学科领域。 41 中文自动标引的有关问题 ——中文自动分词的难点 4.2.2 自动标引与自动分类技术 词的切分问题 难以进行比较全面的语法分析 汉语用词的灵活性 主题词选择和隐含标引问题 42 4.2.2 自动标引与自动分类技术 文本自动分类(Automatic Text Categorization) 利用计算机对文本集(或其他实体或对象,如网页文本等)按照一 定的分类体系或标准进行自动分类,属于同一类别的文本被标上相 同的类别标记,为文本信息资源的检索提供系统化的解决方案。 自动分类一般包括自动聚类、自动归类。 自动聚类是指从待分类对象中提出特征,再将提出的全部特征进行 比较,并根据一定的原则将具有相同或相近特征的对象定义为一类, 设法使各类中包含的对象大体相等。 自动归类是指先分析被分类对象中的特征,将其与各种类别中对象 所具有的共同特征或一定的分类标准、分类参数进行比较,然后将 被分类对象划归为特征最相近的一类(或最符合标准参数的一类), 并赋予相应的分类号。 43 国内外自动分类的研究和发展概况 4.2.2 自动标引与自动分类技术 自动分类研究始于20世纪50年代。H.P.Luhn在这一领域进行了开创性研究,它提出了词频统计思想,主要用于自动分类。 主要从文本的词频统计分析、句法分析和语义分析等三个层次上进行研究。其中,以基于词频统计分析的自动分类试验较为成功。 自20世纪90年代以来,随着世界范围内出现了一轮又一轮的数字图书馆研究热,国外计算机界和信息管理、图书情报界陆续展开了对因特 网信息资源自动分类的研究. 从实现技术上划分,可分为基于词典法的自动分类系统和基于专家系统的自动分类系统两大类;从用户参与的程度上划分,可分为辅助分 类系统和自动分类系统两大类。 44 4.2.2 自动标引与自动分类技术 基于词语特征的自动聚类:文献聚类可以在文献所包含的词的基础 上形成。两篇文献所拥有的共同的标引词的数量越多,说明这两篇文 献的距离越近,也就是他们的相关性越大。 基于非词语特征的自动聚类:文献分类还可以在非词语特征的基础上形成,尤其是基于各种形式的引文链接。 根据一定的分类规则,赋予文献分类号。45 自动分类基本原理 4.2.2 自动标引与自动分类技术 自动归类根据所依赖的基础不同,可以分为: 基于词典的自动归类。主要是基于主题词与分类号的关系表。 基于专家系统的自动归类。通过谓词逻辑构建专家系统的知识推理规则,并用以指导文本自动 归类。 46 4.2.2 自动标引与自动分类技术 将文档类的匹配问题转化为向量空间中的向量匹配问题。假设已知文档类为Q,未知文档为D,两者的相似程度可用向量之间的夹角来度量,夹角越小说明相 似度越高。 NaiveBayes算法模型 假设集合C为文本类的集合,判断一个文档是否属于某个类别Ci,可通过计算P(Cid)的概率完成,即给定文档d,它属于文档类Ci的概率是多少。 计算待分文档向量与各文档类向量的相似度,根据阀值条件生成输出结果。47 自动分类的典型算法和系统原型 4.2.2 自动标引与自动分类技术 48 4.2.3 自动文摘技术 文摘是准确全面地反映某一文献中心内容的简洁 连贯的短文。 自动文摘就是利用计算机自动地从原始文摘中提 取文摘。 自动文摘系统应能将原文的主题思想或中心内容 自动提取出来。 文摘应具有概括性、客观性、可理解性和可读性。 系统适用于任意领域。 49 4.2.3 自动文摘技术 文摘是准确全面地反映某一文献中心内容的简洁 连贯的短文。 自动文摘就是利用计算机自动地从原始文摘中提 取文摘。 自动文摘系统应能将原文的主题思想或中心内容 自动提取出来。 文摘应具有概括性、客观性、可理解性和可读性。 系统适用于任意领域。 50 4.2.3 自动文摘技术 51 4.2.3 自动文摘技术 自动摘录 基于理解的自动文摘 信息抽取 基于结构的自动文摘 52 4.2.3 自动文摘技术 自动摘录(Automatic Extraction)将文本视为句子的线 性序列,将句子视为词的线步进行: 对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句; 将所有文摘句按照他们在原文中的出现顺序输出。自动摘录的不足: 不连贯53 自动摘录 4.2.3 自动文摘技术 这种方法利用语言学知识获取语言结构,更重要的 是利用领域知识进行判断、推理,得到文摘的意义 表示,最后从意义表示中生成摘要。 基于理解的自动文摘通常有以下步骤: 文本生成。54 基于理解的自动文摘 4.2.3 自动文摘技术 这种方法利用语言学知识获取语言结构,更重要的 是利用领域知识进行判断、推理,得到文摘的意义 表示,最后从意义表示中生成摘要。 基于理解的自动文摘通常有以下步骤: 文本生成。55 基于理解的自动文摘 4.2.3 自动文摘技术 信息抽取的自动文摘以文摘框架(Abstract Frame)为中 枢,分为选择与生成两个阶段。文摘框架是一张申请单, 它以空槽的形式提出应从原文中获取的各项内容。 在选择阶段,利用特征词从文本中抽取相关的短语或句子 填充文摘框架。 在生成阶段,利用文摘模板将文摘框架中的内容转换为文 摘输出。 由于文摘框架的编写完全依赖于领域知识,所以信息抽取 仍然是受领域限制的,只不过文摘框架比理解文摘中的脚 本等要简单得多,更易于编写。 56 基于信息抽取的自动文摘 4.2.3 自动文摘技术 信息抽取的自动文摘以文摘框架(Abstract Frame)为中 枢,分为选择与生成两个阶段。文摘框架是一张申请单, 它以空槽的形式提出应从原文中获取的各项内容。 在选择阶段,利用特征词从文本中抽取相关的短语或句子 填充文摘框架。 在生成阶段,利用文摘模板将文摘框架中的内容转换为文 摘输出。 由于文摘框架的编写完全依赖于领域知识,所以信息抽取 仍然是受领域限制的,只不过文摘框架比理解文摘中的脚 本等要简单得多,更易于编写。 57 基于信息抽取的自动文摘 4.2.3 自动文摘技术 将文章视为句子的关联网络,选择和很多句子都有 联系的中心句即可构成文摘。句子间的关系可通 过词间关系、连接词等确定。对于篇幅较长的文 章,可将文章视为段落的关联网络。 但目前语言学对于篇章结构的研究还很薄弱,使得 基于结构的自动文摘到目前为止还没有一套成熟 的方法。 58 基于结构的自动文摘 4.2.3 自动文摘技术 1958年,美国学者Luhn研制了第一个自动文摘系 我国从1985年开始介绍国外自动文摘方面的研究情况,从80年代末开始研究自动文摘实验系统, 至今也有20余年的历史。 59 自动文摘的研究历史与现状 4.2.3 自动文摘技术 1997年研制了OA中文文献自动摘要系统OA关键技术(仿人):构造关键词词典; 从文献有关部位中 自动摘取包含关键词词典中的词的句子作为候选文摘句, 并根据其中包含的词典词的个数、相距远近、句子在文中 的部位等信息加权,再根据文摘长度要求选取权值较大的 作为文摘句 东北大学,80年代末,姚天顺教授和香港城市理工大学联合开展“中文全文自动摘要系统”研究 系统采用脚本知识表示,通过与用户交互获取文摘 60 4.2.3 自动文摘技术 北京邮电大学,钟义信教授,全信息理论 2000,基于理解的、面向神经网络学习算法领域的Ladies自动文摘系统 基于多Agent技术的自动文摘系统,200061 信息组织自动化系统在线)哈工大信息检索实验室网站上的系统演示 (2)澜科语言科技 (3)北京语言大学语言信息处理研究所网站上的 系统演示 深层次分析技术 研究网络舆情的情感倾向,主要分为情绪和情感两部 分,情绪分为喜、怒、哀、 情感分为正面、负面两个部分。 从对情感和情绪的分析,可以很清晰的知道舆情的 情感倾向以及每个地区网 民对舆情的态度,对情绪 情感相对负能量大的地区 可以间接的进行调控,为政 府维护社会稳定提供支持。 66 情感倾向性分析 4.2.4 深层次分析技术 研究网络舆情的情感倾向,主要分为情绪和情感两部 分,情绪分为喜、怒、哀、 情感分为正面、负面两个部分。 从对情感和情绪的分析,可以很清晰的知道舆情的 情感倾向以及每个地区网 民对舆情的态度,对情绪 情感相对负能量大的地区 可以间接的进行调控,为政 府维护社会稳定提供支持。 67 情感倾向性分析 4.2.4 深层次分析技术 基于大规模短文本数据分析,对文本内容进行 分词,过滤,词频统计 与相关热点发现算法等 处理,最终实现热点话 题的发现功能。可以快 速准确发现文本集中涉 及热点事件与话题,大 大提高决策针对性与效 68热点线 深层次分析技术 基于大规模短文本数据分析,对文本内容进行 分词,过滤,词频统计 与相关热点发现算法等 处理,最终实现热点话 题的发现功能。可以快 速准确发现文本集中涉 及热点事件与话题,大 大提高决策针对性与效 69热点线 深层次分析技术 利用社会网络分析法,对网民发布的信息进行统计、分 析和计算,从而生成了一个 全网的社会网络图,从中可 以识别出网民群体中的意见 领袖,得到各个意见领袖之 间、意见领袖与普通网民之 间的联系,有助于分析网络 舆情的起源、传播和趋势, 从而更好地发挥意见领袖的 舆论导向作用,引领正确的 舆论导向。 70 热点线 深层次分析技术 利用社会网络分析法,对网民发布的信息进行统计、分 析和计算,从而生成了一个 全网的社会网络图,从中可 以识别出网民群体中的意见 领袖,得到各个意见领袖之 间、意见领袖与普通网民之 间的联系,有助于分析网络 舆情的起源、传播和趋势, 从而更好地发挥意见领袖的 舆论导向作用,引领正确的 舆论导向。 71 热点线 深层次分析技术 利用社会网络分析法,对网民发布的信息进行统计、分 析和计算,从而生成了一个 全网的社会网络图,从中可 以识别出网民群体中的意见 领袖,得到各个意见领袖之 间、意见领袖与普通网民之 间的联系,有助于分析网络 舆情的起源、传播和趋势, 从而更好地发挥意见领袖的 舆论导向作用,引领正确的 舆论导向。 72 热点话题发现 本章参考文献 VisualC++实现. 北京:北京语言文化大学 出版社,2000. 北京大学计算语言学研究所.哈工大信息检索实验室.苏新宁,邹晓明.文献信息自动标引研究, 现代图书情报技术,2000(1). 李蕾,郭祥昊,钟义信.面向特定领域的理解型中文自动文摘系统.计算机研究与发展,2000,37(4):6~10. 王永成,徐慧.OA中文文献自动摘要系统.情报学报,1997,16(2):128~13. 郭燕慧,等.自动文摘综述.情报学报,2002,21(5).73 本章学习要求 了解中文分词的几种基本方法,并能结合算法实现相应的分词程序; 掌握自动文摘的步骤和四种文摘技术。74 Questions? 75

http://mervynsons.com/zidongbiaoyin/168.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有