您好、欢迎来到现金彩票网!
当前位置:21点 > 自动标引 >

信息组织(第三版)戴维民 第十章信息组织的历史发展与未来趋向p

发布时间:2019-07-07 20:21 来源:未知 编辑:admin

  1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

  1957年,卢恩在对自动标引和自动编写文摘研究的基础上,提出了基于词频统计的抽词标引法,率先进行了自动标引的探索。 从60年代后期到70年代末,自动标引研究取得了很大进展,提出了概率统计标引法、句法分析标引法及各种加权模型等,建立了一批应用与实验系统。至今,自动标引形成了抽词标引和赋词标引两大主要类型。 我国自1980年起开始从事独具特色的汉语自动标引和分词实验研究,并逐步达到了科技文献自动分词的实用水平。 北欧的WAIS/万维网自动分类项目探索利用机读UDC进行自动分类标引的方法。 1999年,美国OCLC完成蝎子计划,利用DDC的电子编辑支持系统对数字信息资源进行自动分类和主题识别,建立了以DDC和LCC为基础的知识库,开发了自动分类软件,并优化自动分类系统,使之接近于人工分类的效果,成为具有代表性的研究成果。 5.自动标引、自动分类技术的探索和应用 (二)网络信息资源组织的探讨与实践 1.传统分类法和主题法网络适用性研究 2.搜索引擎技术的发展 3.元数据的开发应用 4.语义网、本体研究 1.传统分类法和主题法网络适用性研究 USMARC一体化编目格式中特设了856字段,即电子地址及检索方式字段,通过它可实现书目记录与网络信息资源的链接。 国际上几部著名的分类法如UDC,DDC,LCC,CLC等都在谋求网络上的应用,并已取得相当进展。 主题法组织网络信息有着比分类法更突出的优势,一些传统的叙词表被改造成联机叙词表,还有的将叙词表嵌入数据库检索系统,充当检索系统的后控词表。 继分类法和主题法等传统工具之后,本体、主题地图、专家系统等新型知识组织工具陆续出现,分类法、主题法的网络化、本体化改造成为新的研究热点。 2.搜索引擎技术的发展 搜索引擎(search engines) 指采用自动化技术对点资源和其它网络资源进行采集、标引和检索的一类检索系统机制; 是提供给用户进行关键词、词组或自然语言检索的工具,是目前网络信息资源的组织和检索的主流工具。 Eg. Google; 百度、新浪爱问 搜索引擎的发展、变迁 独立型搜索引擎 混合式搜索引擎 混合式搜索引擎:兼具检索型和目录型两种检索方式。 元搜索引擎 又称为多线程式搜索引擎,是指利用统一的检索界面,实现对多个独立搜索引擎索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具。 分布式搜索引擎 分布式搜索引擎是根据地域、主题、IP地址及其它的划分标准将全网分成若干个自治区域,在每个自治区域内设立一个检索服务器,而每个检索服务器由信息搜索机器人、索引搜索软件数据库和代理三部分组成。各个代理之间可以进行查询的重定向。 3.元数据的开发应用 元数据在网络中起着对信息的描述、定位、管理作用。 都柏林核心元数据集(Dublin Core,DC)是影响最大、使用最为广泛元数据体系,现已成为解决互操作问题的元数据标准。 目前国际上已有多种类型的元数据体系,如: 描述数字文献的元数据(TEI Header、MARC、ONIX); 描述数字图象的元数据(MOA2、CDL); 描述博物馆藏品的元数据(VRA Core、CDWA); 描述地理空间信息的元数据(FGDC/CSDGM)等。 都柏林核心元数据集(Dublin Core)。 众多元数据方案在实际运用中出现的元数据间的有效共享与互操作成为关注的课题。 4.语义网、本体研究 1998年,伯纳斯李提出了“语义网”概念并在其后设计了语义网的多层架构。 语义网研究成为热点,研究内容包括:知识的表现(如XML)、知识之间关系的描述(如RDF)、机器可识别的信息的集合(如Ontology)、智能体(Agents)等。 本体(Ontology)是语义网的关键技术,有关本体构建工具、本体表示语言、本体构建方法、本体应用等研究成为热点。 语义网的瓶颈在本体,本体构建的瓶颈在于领域知识库的构建。 传统知识工具的本体化改造研究 传统知识组织工具(分类法、主题词表)是本体构建的基础或是改造源,是一条捷径,兼容改造传统的叙词表、分类表,研发知识本体、语义网络、主题图等语义工具成为网络知识组织工具研发的方向。 改造方法: 用XML Schema构建叙词标记语言,用RDFSchema表示叙词内容和关系,用SKOS、DML+OIL、OWL表示叙词关系等。 改造实践: 联合国粮农组织将AGROVOC叙词表转换为农业本体; 阿姆斯特丹大学信息科学系把《艺术和建筑叙词表》(AAT)转换为本体等; 深圳大学图书馆曾新红课题组对《中国分类主题词表》本体转换的研究; 国家图书馆对《中国分类主题词表》的SKOS改造研究。 (三)现代信息组织的特点 信息组织的出发点充分考虑用户的需要和检索习惯。 多元化的信息资源组织。 信息组织对象由单纯的印刷型文献发展磁带、光盘、数据库、网络等多媒体,信息组织内容更加广泛,从各种类型的数据发展到具有丰富内容的知识,形成了信息组织方式的多样性和多层次性。 检索语言的发展。 分面分类理论的提出,突破了传统列举式分类法的束缚,为信息组织方法提供了新的思路。 自动标引技术和分类、主题法在网络环境下的应用受到广泛关注。自然语言的研究和应用兴起。 现代信息技术的应用。 信息组织形式从数据结构发展到知识表示;信息以文件方式、数据库方式、主题树方式和超媒体方式组织。 网络信息资源的组织成为信息组织实践与理论研究的热点。 元数据技术、语义网本体技术、搜索引擎技术、数据库技术、信息挖掘、推送技术等成为信息组织领域内倍受关注的课题。 第二节信息组织的发展趋势 本节主要内容 一、以用户需求为导向的信息组织 二、信息内容揭示深入化 三、信息组织方法集成化 四、信息组织技术智能化 五、信息组织系统兼容化与标准化 六、信息组织理论研究的拓展 七、积极应对大数据时代信息组织的挑战 一、以用户需求为导向的信息组织 “用户是信息资源的主体,用户需求是信息资源组织的依据,信息资源的组织必须从用户需求出发,以服务用户为宗旨”的理念将在信息组织活动中得到全面体现。 基于个性化服务,面向用户、面向任务、面向学科的信息组织以及技术上强调人性化设计等将成为信息组织令人瞩目的课题。 用户的社会关系融入网络信息组织,实现包括用户原创资源、OA资源和商业性资源在内的多源数据的融合,将会是新一代网络信息组织的重要发展方向。 二、信息内容揭示深入化 信息的智能化不但能极大地增加所处理的信息量,同时也使信息组织能够深入到知识内部,深入到微观的知识单元中,挖掘出用户需要的有效的、新颖的和有用的知识。 未来的信息组织不再局限于文献形式,也不再仅仅满足于一般题名、作者、分类号、主题词等有限检索点的提供和一般信息特征的描述,而更注对信息实质性的特定内容进行揭示。 除了处理传统数据库中的数值型的结构化数据外,更多的半结构、非结构的动态和不规则的网络数据将得到组织利用。 三、信息组织方法集成化 信息组织将根据用户的需要,融信息描述、信息分析、信息贮存于一体,实现信息组织方法的集成化。 四、信息组织技术智能化 人工智能技术,将能促进网络信息的深层次挖掘和揭示,更好地满足用户的不同需求,如系统自动运行、不断更新用户资料库、提供个性化的主动服务等。 大量涌现的用户交互和标注等信息行为为信息组织系统提供了丰富的学习和训练数据,信息组织系统的适应性将进一步增强,由纯粹的机器智能系统向人力智能和机器智能相结合的复杂社会系统方向发展,体现出用户参与式架构特征。 个性化推送服务借助智能化技术,更多地融入用户特征,把用户作为算子纳入系统计算,从而实现用户间的经验分享和信息协同过滤与推送。 五、信息组织系统兼容化与标准化 在信息组织现代化过程中,必然遇到数据库、联机系统、检索系统和检索语言的兼容化和标准化的问题。 网络信息组织中的文件、搜索引擎、编目、学科信息门户等也都涉及标准化问题。因此,解决信息组织和检索系统的兼容和标准化问题成为信息组织发展的重要趋势。 一系列适应网络化信息服务和语义网建设需要的标准规范得以制定,信息组织体系中的信息资源加工、描述、互操作和服务等方面的标准和规范受到特别关注,如DC、XML、RDF(S)、SKOS等。 通过“联合、开放、共享”的运作模式,建立科学适用的资源共享标准体系将是大势所趋。 六、信息组织理论研究的拓展 信息组织已成为图书馆学、情报学、计算机科学、知识工程学、现代语言学、认知心理学等多学科共同研究的领域。 “信息组织学”作为一个专门的学科概念被提出,其内容不仅涵盖了以上所有学科群,而且还融入了数据库技术、超文本技术、数据仓库、自动分类、自动标引、标准置标语言、本体论、语义网等方面的研究,呈现出传统信息组织理论与现代信息技术研究密切结合、相互渗透、相互融合的发展态势。 满足用户信息需求、提高检索效率是信息组织的基本出发点和根本目的。信息技术是推动信息组织发展的动力,信息组织方法随着信息技术的更新不断变化。今后网络信息的组织利用是信息组织研究的方向和重点。 作为信息组织的一个核心问题,对检索语言的研究在网络环境下将进一步得到深化。从检索语言角度看,网络信息内容形式化和提高信息语义控制水平将是信息组织的长期任务。语义网、知识本体、元数据、置标语言等方面的研究将受到关注。 七、积极应对大数据时代信息组织的挑战 大数据时代,信息组织不仅要面对新的信息存储介质和信息记录方式,信息组织的目标正从信息的描述、存储、检索更多地向深入的数据分析、预测服务转移。 如何将传统的信息获取、存储管理、分类、索引、检索、聚类、人机交互技术等信息分析处理技术方法顺利转变到对大数据的管理和利用上来是信息组织面临的新课题。 为能做到由此及彼,迅速、准确地把握趋势,信息组织将更加注重相关关系的深度揭示。 针对每个个体的信息需求,个性化排序、个性化分析、个性化推荐技术将得到高度发展。 信息组织必须更好地体现其管理和制约功能,研究信息的取舍之道,包括对信息的定向选择、增强对不良信息的过滤和对冗余信息的删除等。 第十章信息组织的历史发展 与未来趋向 学习目的和要求 通过对本章的学习,使学生对信息组织活动的历史渊源和发展沿革有一个宏观上的了解;对信息组织的未来发展趋向和研究方向有一个基本的把握。 本章学习重点 我国古代的信息组织及其特点 近代国外信息组织及其特点; 分类法的改造、主题法的发展、分类主题一体化、自然语言; 网络信息资源组织; 现代信息组织的特点; 信息组织的发展趋势 内容安排 第一节 信息组织的历史发展 第二节 信息组织的未来趋向 第一节信息组织的发展历史 本节主要内容 一.古代的信息组织 二.近代信息组织 三.现代信息组织 一.古代的信息组织 (一)我国古代信息组织活动 (二)古代国外的信息组织 (三)古代信息组织的特点 (一)古代信息组织活动(我国) 1.分类组织――图书分类目录 2.主题组织――类书 3.索引――“通检”、“备检”、“串珠” 1.分类组织――图书分类目录 孔子整理“六经” 对《诗经》305篇的组织整理;对《尚书》按体裁分类排列 汉代刘向、刘歆父子编制我国第一部大型分类目录《七略》 刘向、刘歆将当时收集到的所有藏书分门别类著录、按学科内容分为六艺略、诸子略、诗赋略、兵书略、数术略、方技略六大类,加上“辑略”部分共七类。 清代《四库全书总目》 收录了先秦至清初重要书籍,著录书名、卷数、著者书籍来源并有内容提要,组织成经、史、子、集四部44类,代表了我国古代目录的最高成就。 我国古代文献分类组织方法 七分法 汉代刘向、刘歆的《七略》;南朝王俭的《七志》 四分法 西晋时,荀勗所编的国家书目《中经新簿》最早提出四部分类方式,后经逐步改易,至唐魏征所编的《隋书.经籍志》确立了经、史、子、集四部分类系统。自唐以後,各种官私书目大多采用了四部分类。清代著名的《四库全书总目》采用的已比较完善。 十二分法 郑樵在《通志?艺文略》十二大类三级类目 2.主题组织――类书 类书被视为我国主题法的滥觞。 类书可以视为主题目录的扩大,如果删其繁文,仅存书目,也就现代最进步的主题目录了。 我国最大的类书《永乐大典》就是一部带有主题法性质的检索工具。 全书22877卷,采用了“用韵以统字,用字以统事”的组织编排方法,与主题法的字顺系统原则完全吻合。 3.索引――“通检”“备检”“串珠” 中国古代索引是在字书、韵书、类书的基础上发展起来的,曾被称为“通检”、“备检”、“串珠”等,形象地说明了它的作用和特征。 魏建安年间刘劭等编纂的类书《皇览》就具索引功能,被认为是中国古代索引的起源之一。 (二)古代国外的信息组织 古希腊亚里士多德的知识分类体系--三大门类 理论知识(逻辑学、物理学、数学、形而上学);实践哲学(伦理学、经济学、政治学);创造哲学(史学、修辞学、艺术) 古希腊学者卡利马科斯(Callimachus)为亚历山大图书馆编制藏书目录《皮纳克斯》。 公元前250年左右,古希腊学者卡利马科斯(Callimachus)为当时规模最大的亚历山大图书馆编制了长达120卷的藏书目录《皮纳克斯》(Pinakes,意为“书的表册”又名《各科著名学者及其著作目录》),将藏书分为戏剧、诗歌、法律、哲学、历史、修辞学、医学、杂著等等大类,其下再按字母或年代顺序排列,并附每部著作的评价,成为古代最早的目录之一。 Cont. “目录学之父”的盖斯那(C.Gesner)编制大型书目—《世界书目》 全书四卷,包括著者字顺目录、分类目录和主题字顺索引,其中第二卷将知识分为21个大类,250个细目,较全面地反映了当时的科学发展水平,成为西方第一部检索系统较为完备、著录详尽的综合性大型书目。 13、14世纪《圣经》语词索引 直接以自然语言中的字、词作标目,按字顺次序查检,基本具备了主题法的要素。 (三)古代信息组织的特点 古代信息组织活动处于初始阶段,呈现出以下特征: 以信息的揭示、存储为基本目的; 最早形式的目录和藏书组织的着眼点不在于“用”而在于“管”。 信息组织对象主要是文献; 信息揭示、组织的方法主要是对信息的记录和分类,着重信息外在特征的记录和描述,体现为清册职能; 操作完全由个人以手工方式进行,简单且无一定标准和规范; 信息组织的代表性成果是目录。 二、近代信息组织 (一)近代国外信息组织 (二)近代信息组织的特点 (一)近代国外信息组织 1.科学知识分类体系 2.主题法――标题表 3.文摘和索引 1.科学知识分类体系 培根将知识分为三类:历史(记忆知识)、诗歌(想象知识)、哲学(理性知识),并在其下分出细纲。 恩格斯(F.Engls)分类法的基本序列为:无机体科学类(按物质运动形式的复杂程度排列);有机体科学类(由低级的、一般的运动形式向高级的、复杂的运动形式转变);社会科学类(由经济基础开始、然后是政治、法律及不同思想范畴的上层建筑)。 1876年,美国图书馆学家、教育家杜威(M.Dewey)编制了《杜威十进分类法》(DDC)。这部分类法建立了结构完备、等级分明的分类体系和主题索引,体现了当时信息组织的最高水平。 2.主题法――标题表 最早期的类型是传统的标题法。 1876年,美国图书馆学家克特发表了《字典式目录条例》,该条例在传统主词款目和字顺分类目录的基础上,明确规定了标题的意义和处理方式,制定了标题选择和使用的一系列原则和方法,从而完成了字顺分类法向字顺主题法的转变,它标志着现代主题法原则的确立。 1895年出版的第一部标题表--《美国图书馆协会标题表》以及其后的〈美国国会图书馆标题表〉等即是这一理论原则指导下出现的现代标题法的代表。 3.文摘和索引 更具信息报道和指引意义的文摘和索引在此时期也发展起来。1830年,世界上第一部科技文摘杂志《药学总览》在德国问世,并附有索引。 英国于1856年成立了世界第一个索引学会。 (二)近代信息组织的特点 近代信息组织的活动除围绕着文献的保存开展外,开始重视对信息外在特征和内容特征的全面描述、揭示。 体系分类法的确立。 主题法的研究和应用。确立了主题法原则,而且有了完整的主题词表和达到一定水平的主题揭示活动。 索引、文摘的发展说明信息组织从载体单元到内涵单元的深化。 信息组织技术方法的进步。分类法与主题法的编制技术更趋科学、完善。 如为类目体系配备标记符号,设置复分表、编制分类法索引,使分类法脱离了书目形式,成为一种独立的分类检索工具。目录种类除以往通行的分类目录外,还增加了书名目录、著者目录以及直接面向用户的推荐书目、专科目录等。 三、现代信息组织 (一)现代信息组织方法的发展 (二)网络信息资源组织的探讨与实践 (三)现代信息组织的特点 (一) 现代信息组织方法的发展 1.分类法的改造 2.主题法的发展 3.分类主题一体化 4.自然语言检索系统的探索和应用 5.自动标引、自动分类技术的探索和应用 1.分类法的改造 1906年,英国的布朗(J.D.Brown)在《主题分类法》中采用了主题分析法和组合原则,成为分面分类法的萌芽。 1933年,印度图书馆学家阮冈纳赞(S.R.Ranganathan)编制了世界上第一部分面组配式分类法--《冒号分类法》,并系统提出了分面分类理论。在其影响下,一系列专业分面类表问世。 传统分类法被不断地增加分面组配成分,朝分面组配方向改造。 如DDC的通用复分表从无到有,从1个增加到7个,专类复分和仿分也在增加,在第20版则用分面分类的方法对音乐类进行了全面的改造。 1976年,英国分类法研究小组的成员米尔斯(J.Mills)对布利斯(H.E.Bliss)的《书目分类法》(BC1)进行了全面的分面改造,使其由原来的等级列举式分类法发展成一部大型的分面组配式分类法--《布利斯书目分类法》(BC2),成为列举式分类法彻底分面改造的典范。 我国分类法的发展 20世纪20-30年代模仿杜威法; 20世纪50-70年代模仿苏联分类法; 全面探索适用我国的分类法理论和方法 《中国人民大学图书馆图书分类法》、《中国科学院图书馆图书分类法》、《中国图书馆图书分类法》、《中国档案分类法》、《中国标准文献分类法》; 《中图法》,广泛吸取国内外各种分类法的优长: 以科学分类为基础; 同时在四次修订过程中不断地扩大分面组配技术的使用范围,逐渐增加复分(总论复分;专类复分)、仿分方法,引入并扩大冒号组配方法的应用,成为目前我国文献信息组织使用最广泛的标准化分类体系。 2.主题法的发展 20世纪50年代,美国的陶伯(M. Taube)以字面上不能再分的词汇单元――元词作标识,以字面组配表达文献主题,并结合比孔卡等设备的使用,开创了在检索阶段匹配检索的后组式检索方式。它标志着继标题法之后,一种新的主题法――单元词法问世。 1947—1950年间,美国的穆尔斯(C.N.Mooers)在研究组配分类法的基础上,提出了一种新型主题法—叙词法,并创造了“叙词”、“叙词法”“情报检索”“情报检索系统”等专门术语。 20世纪60年代,叙词语言吸收了标题法、单元词法、关键词法以及分类法等各种检索语言之长,逐步取代了元词法成为现代情报检索语言的主流。它以概念组配取代字面组配,并广泛揭示概念间关系,使文献信息的揭示更加准确。 1959年美国杜邦公司编制了第一部叙词表。 20 世纪70年代,我国开始大规模编制和使用主题法。1971年,航空部情报所编制使用的《航空科技资料主题表》第2版问世,成为我国的第一部叙词表。1979年出版的《汉语主题词表》,成为世界上最大规模的叙词表。 我国主题法的发展情况 1950年,出版程长源的《中文图书标题法》,填补了新中国中文标题语言的空白。 1964年,航空部情报所编制使用的《航空科技资料主题表》(第一版)问世,成为我国的第一部叙词表,1971年该表第2版问世。 20世纪70年代,我国开始大规模编制和使用主题法。 如:《电子技术汉语主题词表》、《常规武器专业主题词表》、《国防科学技术主题词典》、《原子能科技资料主题词典》、《机械工程主题词表》、《化学工业主题词表》、《农业科学叙词表》等。 1979年出版《汉语主题词表》,成为世界上最大规模的叙词表。 3.分类主题一体化 1969年,英国学者艾奇逊(J.Aitchison)编制了世界上第一部分类主题一体化的《分面叙词表》。 它将一部分面分类表与一部字顺叙词表结合起来,通过严格规范,使每一个词汇同时出现在分类表与叙词表中,实现了两种检索语言的兼容。 在其影响下,英美等国陆续出版了一批分类主题一体化词表,如《伦敦教育分类法(第二版)》、《建筑工业叙词表》、《基础叙词表》等。 20世纪80年代,我国先后用手工和计算机编成一系列分类主题一体化词表。 《常规武器分面叙词表》和《教育分面叙词表》。这是我国图书情报界编制一体化词表的最早尝试。 此后,我国又陆续编制、出版了十余部一体化词表,包括三部大型词表――《中国分类主题词表》、《农业科学叙词表》、《社会科学叙词表》和七部中型词表。 《中国分类主题词表》 作为国家哲学社会科学“七五”规划重点项目,对推进汉语分类主题一体化词表的发展起了重大作用。 我国分类主题一体化的发展情况 4.自然语言检索系统的探索和应用 20世纪50年代,卢恩(H.P.Luhn)在前人探索的基础上,将计算机用于关键词索引的编制。其后,各种直接以自然语言为标识的检索系统相继出现。 20世纪60年代初,美国匹兹堡大学健康法律中心率先建立起第一个全文检索系统――LEXIS。

  “原创力文档”前称为“文档投稿赚钱网”,本网站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】

http://mervynsons.com/zidongbiaoyin/235.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有