首页 > 实用范文 > 毕业论文 > 论文范文 > 信息检索课程论文优秀10篇正文

《信息检索课程论文优秀10篇》

时间:

伴随着计算机进入多媒体时代,信息科技也步入了多媒体发展时期。如下是可爱的小编给家人们收集的信息检索课程论文优秀10篇,希望大家能够喜欢。

电子文献(Electronic literature 篇1

电子文献,又称电子出版物。我国新闻出版署1996年颁发了《电子出版物管理暂行规定》,规定中指出:电子出版物系指以数字代码方式将图、文、声、像等信息存储在磁光电介质上,通过计算机或具有类似功能的设备阅读使用,用以表达思想、普及知识和积累文化,并可复制发行的大众传播媒体。电子出版物的主要媒体形态有:软磁盘、只读光盘(CD—ROM)、交互式光盘(CD—I)、照片光盘(PHOTO—CD)、集成电路卡(ICCARD)等。

电子文件的产生,是计算机技术与通信技术在办公和管理领域的运用。电子文件的科技进步性体现为两方面:一方面是数字化生存,另一方面是网络化传递。

随着科技的进步,图书馆的文献结构正在发生迅速的变化,电子文献的崛起打破了纸质文献长期一统天下的局面,形成与纸质文献平分秋色的态势。尽管情况未必像有的学者提出的“今后电子文献将取代纸质文献”,但毫无疑问,新型的载体取代旧的载体是历史发展的必然趋势。电子文献将越来越多,其使用会越来越普及,越来越受读者欢迎。在相当长的时期内电子文献与纸质文献将各显特色,优势互补,共生共存。

2.1电子文献的优点

2.1.1有利于阅读检索

随着信息时代的发展,产生了许多检索文献的软件,通过数据库、索引文件、超文本等关系组成的网状结构。我们可以用自己喜欢的软件进行关键词等等的检索出我们所需要的内容,这样可以为我们的阅读检索资料带来极大的方便,为我们节约不少的时间。

2.1.2传播迅速方便

电子文献还可以进行远距离的快速传播。网络上的信息可以传播到世界的每一个角落,即我们可以在网络上共享各种我们需要的文献。

2.1.3存储量非常大,利于携带

电子文献体积小,但存储容量大。一张7。62cm(3in.)软盘可容纳72万个汉字;一张CD-ROM光盘可存储650Mb,相当于30万汉字的图书1000册。存储《全国报刊索引》1993—1999年全部内容,只需一张光盘,解决了图书馆空间紧张和用户查检利用的困难。

2.1.4具有多媒体信息存储和传递功能

电子文献内容丰富,既可表达文字等静态信息,也可以是集图、文、声、像为一体的动态信息,各种数据借助计算机实现任意组合编辑,可多次反复进行。形式多样,生动直观,便于我们对文献信息内容的理解和吸收。

2.2电子文献的不足之处

2.2.1造成电的浪费

电子文献的阅读,必须有电源,必须通过一系列特殊装置才能完成。

2.2.2阅读保健效果较差

电子文献在阅读过程中,荧光屏的闪烁和不清晰,长时间便会加重眼睛的负担从而对我们的视力造成影响。于此同时。久坐在电脑旁会加重引起颈椎疲劳,甚至导致疾病。从现代许多人来看,已经有很多上班族有视力和颈椎问题。所以电子文献的阅读保健效果较差。

2.2.3电子技术保护方面任然缺乏经验

光学载体的。电子文献的保护层,一般为透明塑料,基层是经书或有机合成材料,稳定性差,在长期保护过程中,会慢慢氧化,使用中会造成电腐蚀,使载体变质,信息丢失。磁性载体的电子文献,易受温度、湿度、空气污染影响,从而增大使用中盘面的摩擦,损失信息。电子文献的存储与收藏,必须将环境控制在14—25℃之间,相对湿度以百分之四十五为好,同时还应注意防火、防光、防磁、防污染,维持一定的清洁度。只有这样才能有效地延长电子文献的寿命。电子文献相对纸质文献而言,更依赖环境条件和科学管理。

2.2.4信息可信度较低

由于缺乏统一管理机制,单纯的电子文献出版不像纸质文献那样经过严格的编审制度,文献质量得不到可靠保障,因而在学术评价中还不能与纸质文献相提并论。在科研考核、职称评定中也得不到认可,使人们对电子文献的可信度大打折扣。

2.2.5知识产权保护问题

纸质文献在知识产权和版权保护方面已有较完备的法律法规,而电子文献通过数码代码方式,在网络环境下,不仅使各类作品之间界限模糊、相互渗透,而且使作品复制、修改变得非常容易,影响了知识产权的保护。

信息检索课程实习报告-实习报告 篇2

信息检索课程实习报告-实习报告

信息检索课程实习报告: 一、 序言部分实习题目:柜台交易及其交易模式及流程学生姓名:熊炎波(01083094)分工内容:制定检索策略,选择检索入口词,并对检索入口词进行修正检索,选择ABI(商业信息数据库)进行检索,并选择检索结果进行翻译,并编写综述。检索系统:ABI(商业信息数据库) 数据库名称:ABI(商业信息数据库),具体应用的是数据库是:Business CABI/INFORM Trade & Industry(第1―13篇) Business-ProQuest Asian Business(第14―20篇)二、检索策略部分: 课题分析:“柜台交易及其交易模式及流程”有两部分构成,一部分是柜台交易,柜台交易的交易模式及流程。柜台交易又称场外交易是证券交易的一种方式,是经济金融学研究的一种课题。针对本课题的检索,应从“柜台交易”一词入手,然后通过二次检索获得关于“柜台交易及其交易模式及流程”的有关论文。检索系统的选择:图书馆网络数据库在线检索系统――ABI商业信息数据库数据库的选择:ABI商业信息数据库――Multiple databases, Business-ABI/Inform Trade&Industry, Business-Proquest Asin Business,Business Source Premier (BSP) 检索词的分析与选择:柜台交易在英文中称为 Over the Counter transaction , 在金融专业术语中常简称为 OTC,因此应以 OTC 或 Over the Counter transaction, counter transaction(柜台交易) 作为检索入口词(关键词)进行基本检索,然后对检索结果以 model OR mode(模式) 和 flow,procedure OR program(流程)作为二次检索的入口词。检索式的构建: SUB(Over the counter transaction) AND LA(English),SUB(model OR mode)AND SUB(flow OR procedure OR program )检索策略调整: 主要是对检索入口词调整 , 开始始选择的是以Over the Counter trading 作为第一次检索的入口词,后来经过调整,改为下列入口词: Counter transaction (柜台交易)Over the Counter transaction(柜台交易) Counter transaction model(柜台交易模式)Counter transaction flow(柜台交易流程) 三、 检索结果及文摘翻译: 所用的数据库:ABI(商业信息数据库)―― Business CABI/INFORM Trade & Industry(第1―13篇)ABI(商业信息数据库)――Business-ProQuest Asian Business(第14―20篇)检索的时间范围是:All dates 检索结果列出:(1――13)篇: 1、所用数据库名称:ProQuest Business CABI/INFORM Trade & Industry检索的时间范围:All Dates论文题目(Title):New pvt banks set to hike transaction fees文摘(Abstract):Another approach that is being mulled is of 'zero balance accounts with a fee for each transaction or enquiry'. This would mean that the customer need not maintain any balance in the account but instead pay a charge for each account statement, check on balance amount, ATM withdrawal and over the counter transaction.Numbers thrown by bankers explain the logic: a branch transaction costs the bank the most at Rs 75, an ATM transaction costs Rs 12, the call centre costs Rs 10 and the Internet the least at Rs 2.In HDFC Bank and ICICI Bank charges are already in place for frequent ATM withdrawals in case the minimum account balance is not maintained. Recently ICICI Bank imposed a fee for cash deposits in non-host branches. Host branch is the particular branch in which the customer's account is maintained译文:正被仔细考虑的另一种方法具有'对每笔交易来说具有零平衡帐户的费用的功能。 这将意味着用户不必再保持帐户的平衡,而是改为支付每份帐单的费用, 检查差额,ATM 收回,和在柜台交易上方。 银行家扔的数目解释逻辑: 一分支交易费用银行最多在Rs 75, 一台ATM 交易费用Rs 12,电话中心在Rs 2花费Rs 10 和因特网最小。 在HDFC银行和ICICI银行控告已经在适当的位置适合最小帐户结余没保持如果的频繁的ATM 收回。 最近ICICI银行在非总部为现金付款存款强加一项费用。 总部是用户的账被保持的特别的。分部 刊名及卷、期数:Sunday BusinessBusinessline. Chennai: Mar 10, XX. pg. 1 2、所用数据库名称:ProQuest Business CABI/INFORM Trade & Industry检索的时间范围:All Dates论文题目(Title):East West Bank rolls out new car financing program文摘(Abstract):Repayment is convenient with the issuance of postdated checks, automatic debit arrangement or over-the-counter transaction at any of East West Bank's 55 Personalized Banking Centers (PBC).译文: 偿还帐款对推迟日期的审查, 自动借方安排或者柜台交易在东部西岸的55个性化的银行中心(PBC) 中任何人来说都显的很便利。 刊名及卷、期数:BusinessWorld. Manila: Mar 8, XX. pg. 1 3、所用数据库名称:ProQuest Business CABI/INFORM Trade & Industry检索的时间范围:All Dates论文题目(Title):SEC set to release alternative trade rules文摘(Abstract):If the SEC gets a favorable BIR ruling, the alternative electronic trading system will be treated as an informal exchange and trades will only be charged a tax rate of one and one-half percent per transaction just like in the bourse. If the BIR will not consider that, then securities traded electronically will be considered as an over-the-counter transaction and will have to be charged a 10% capital gains tax.译文: 如果证交会得到有利的BIR制约, 这个选择电子贸易系统 将被看作一次非正式交换,贸易只将被正如在证券交易所一样收费一个每交易百分之一个半的税率。 如果BIR 将不考虑那, 然后通过电子买卖的证券将被认为是一次柜台交易并且必须被收费10%的资本收益税。 作者及单位名称:Leilani M. Gallardo刊名及卷、期数:BusinessWorld. Manila: Dec 23, XX. pg. 1 4、所用数据库名称:ProQuest Business CABI/INFORM Trade & Industry检索的时间范围:All Dates论文题目(Title):Solon evaded taxes?文摘(Abstract):Sen. Renato L Cayetano conducted himself unethically by acquiring his shares of stock in BW Resources Inc. through ove译文: 参议员Renato L Cayetano通过通过柜台交易在BW 资源股份有限公司获得他的股份引导他自己unethically,参议院少数派昨天说。 作者及单位名称:Cayetano, Renato L刊名及卷、期数:BusinessWorld. Manila: Jan 16, XX. pg. 1 5、所用数据库名称:ProQuest Business CABI/INFORM Trade & Industry检索的时间范围:All Dates论文题目(Title):SPECIAL FEATURE: Cashless Spending: A lifestyle card with practical uses文摘(Abstract):Diners Club Philippines operates under the franchise of Security Diners International Corporation, a wholly owned subsidiary of Security Bank. Unlike other contenders in the market today, it offers personalized service to its clients. As its brand suggests, Diners Club provides cardholders a sense of belonging to an exclusive organization. “We have a personalized approach, unlike other card companies wherein all you are is a card number,” said Ronald Bibonia, first vice president for business development of Diners Club Philippines. “We keep track of our clients almost on an individual basis.”Aside from insurance, Diners Club also provides its clients an array of services and privileges. With Club Cash, for instance, cardholders can avail of up to 50% available credit line which can be accessed via the ATM or over-the-counter transactions at the Diners Club Centre, Security Bank and Pilipinas Bank branches, and select Cashlink and Bancomet ATMs. Utility bills, on the other hand, can be settled through the Club Bill Connection facility. This enables cardholders to pay electric bills, Internet subscription, phone bills and the like by just enrolling these services to their Diners Club than these services, Diners Club takes pride in offering Club members free access to exclusive airport and business lounges in major cities worldwide through the Club Lounges facility. One doesn't have to be a gold cardholder or a member of the frequent buyer program of an airline to enjoy luxuries such as free buffet or the use of private toilets and bath. Club members are welcome to all these facilities by just presenting their Diners Club International card. “Other people would have to pay to have access to those lounges or maybe don't get the chance to enter,” said Mr. [Patrick Carlos]. “B译文:菲律宾就餐者俱乐部有安全就餐者多国合作的特许权,并且在一个安全银行的全资子公司下经营。 与今天市场上其他竞争者不同,它给它的客户提供个性化的服务。作为其品牌建议,就餐者俱乐部为持卡人提供一个属于一个专有的组织的感觉。 ”我们让个性化接近, 与你的全部是一个卡片号码的其他卡片公司不同“ ,罗纳德Bibonia,首先就餐者俱乐部菲律宾的商业发展的副总统说。 ” 我们在一个个人的基础上几乎跟踪我们的客户"。 除了保险,就餐者俱乐部也为它的客户提

纸质文献(paper document 篇3

以纸张为载体,用书写或印刷等方式记录知识的文献。纸质文献最早出现在中国,4世纪以后逐渐在世界各地传播和应用。

1.1纸质文献的优点

1.1.1纸质文献目前仍呈呈现着增长强势

现在在我们学习生活中大量纸质文献如影随形,从目前看,全世界每年出版图书370万种,期刊13万种,会议文献100多万篇,专利文献、技术标准、产品资料100万件以上,其中至少90%以上仍然是以印刷型为主的纸质文献。

1.1.2人们的已习惯阅读纸质文献

长期以来,人们一直与纸质文献相伴,纸质文献的生产和利用已经形成了一个相当完善和稳固的体系,且长时间阅读,只要光线自然柔和,对视力影响不大,阅读效果较好。因此,纸质文献在今后相当长的时间内仍将继续存在。

1.1.3纸质文献具有较强的权威性

纸质文献已经经历了上千年的洗礼,已建立了完善的编辑、生产、发行体制。各个书刊部门都建立了健全机构来保证图书文献的科学学术水平,所以发表的文献基本上都是得到科学权威认可的,因而具有一定的权威性。

1.1.4纸质文献更容易受到知识产权的保护

目前纸质文献的知识产权的颁布与实施已取得较理想的效果,但是对于电子文献的相关保护却依然被动。现代信息技术使得数字信息很容易被复制、修改,为侵权行为带来了极大方便。纸质文献有利于知识产权的保护,因为纸质文献在知识产权方面已有较完备的法规法律体系。

1.1.5保存方面

纸质文献更利于保存。

1.1.6纸质文献更符合当下情况

目前中国还有很多比较落后的地方并没有普及一系列的电子设备,如贫困地区的人并不能想我们一样每天都与各种电子产品打交道,所以他们更多的则是通过纸质文献的方式来阅读和查找自己所需要的种种资料。

1.2纸质文献的不足之处

1.2.1不利于资源节约型环境友好型社会的构建

纸质文献都是一木材为原料的,既浪费了国家宝贵的森林资源,生产过程中也造成了严重的环境污染,从而不利于我们当今所提倡的资源节约型环境友好型社会的建立。

1.2.2不利于阅读查找

纸质文献由于量大而不利于人阅读查找,查找资料的时候常常会让我们失去耐心,从而最终放弃查找。

1.1.3不利于携带

信息时代的发展,一只小小的U盘可以储存非常大的容量,相当于几十万册的图书,试问哪个更容易携带?

会计利用信息检索论文 篇4

摘要:本文探讨双语教学在生物医学信息检索课程中的应用,小结医学信息检索课程双语教学的方法和技巧,并基于教学实践,对潜在的问题提出相应的解决方案。

关键词:生物医学信息检索;双语教学;高等教育

前言

21世纪全球经济一体化,科学技术飞速发展,英语作为国际上的全球化通用语言,其重要性不言而喻,它发挥的马太效应已经愈来愈明显。而我国传统的英语教育更侧重于理论知识的学习,对更为实际的语言应用能力则有所忽视,尤其是专业英语的教育存在较大的空白,导致相当多的学生在专业领域内英语的实际运用能力有限。但是现如今,无论是各类型企业还是科研机构,对同时具备良好的专业知识和高水平的英语应用能力的人才的需求非常大。可以说,作为高层次的人才,仅仅具备专业知识,而英语应用能力存在短板会极大地限制专业水平的进一步提高,降低国际交流与协作的效率,对职业生涯造成无法低估的伤害。高等教育应从多方面入手,努力培养有国际视野的“专业+英语”复合型人才,满足这一需求。双语教学作为一种与国际接轨的教学模式,一方面有利于提高学生的英语学习能力,另一方面可以更快速更全面地获取专业相关的科技进展,有利于提升学生的专业水平。而生物医学信息检索是一门关于信息获取、知识更新的课程,只有当学生具备良好的英语能力,才能更高效更全面地获取最前沿的信息,学习最先进的知识,更好地服务于生物医学行业。将双语教学应用于生物医学信息检索,是一个事半功倍的方法。①②笔者在生物医学信息检索的双语教学实践中,总结一些方法与技巧,并对其潜在的问题提供相应的解决方案。

1方法与技巧

1.1精选教材且及时调整课程难度

“工欲善其事,必先利其器”,双语教学的首要问题便是双语教材的选择,教材选择的好与坏,直接影响着教学效果的好坏。教育部高等教育司曾提出:“在有条件的高等学校的某些信息科学和技术课程中推动使用国外优秀教材的影印版进行英语或双语教学,以缩短我国与国际先进水平的差距,同时也有助于强化我国大学生的英语水平。”原版外文教材在内容上更具有前瞻性、专业的前沿知识也更加规范和优越,更利于学生接触到新知识,选择原版外文教材也是营造全英文环境的一个有利措施,可以高效率地学习专业词汇的使用、专业内容的表达。但是,到目前为止,我国的生物医学信息检索的双语教材选择比较少。而直接采用美国等发达国家的生物医学信息检索原版教材,其课程内容并不一致,而且由于国外教材是按照英文的思维方式编写的,对于学生来讲难度较大,会对学生造成很大的学习压力。综合以上原因,我们在授课中参考国外的一部分原版教材以后,自编适合学生全英文的教材和练习。该教材兼顾学生按教学大纲要求掌握专业知识和基本技能,重点强调与现行的生物医学前沿进展的联系。最后在教学实践过程中,根据学生的学习和掌握情况随时进行修改和调整。

1.2多媒体教学结合上机实践

现代计算机和网络的普及大大减轻双语教学中的困难。随着网络技术的发展和网络信息资源的大幅度增长,生物医学信息检索也更多地在网络上进行。为配合这一现实的应用现状,我们在教学中采用教师多媒体讲授和学生上机实践相结合的方式,旨在让学生们能摆脱纸上谈兵的桎梏,充分地将字面的知识固化为自己掌握的本领,能利用网络进行生物医学信息的检索。教师在教学中利用课件控制,对临场情况做出及时的响应调整教学策略和学习内容,以适应动态教学环境所带来的变化。在多媒体演示教学环境中,老师可将操作过程和所得到的结果展现在学生面前,让学生亲自动手操作,以使学生对知识的理解更加具体透彻。上机实践使得整个教学环境由静态向动态转变。这个方式一则是充分发挥学生的积极主动性,从老师“教”转化为学生“学”,二则有利于学生将理论学习和技能提升有机地结合在一起。这一方式在没有增加学时的情况下,本科生的生物医学信息检索课程的教学质量有比较大的提升,得到学生的普遍好评。

1.3小班教学增强师生交流

双语教学要考虑到学生之间的水平差异,采用小班教学的模式。我们在教学中发现双语教学的最大困难在于学生之间存在专业英语水平的差异,尤其是对于生源来源广泛的民族院校,这种情况尤其突出,教师如何平衡这种差异、并且及时调整教学的进度和难度是重中之重。而小班教学的方式能够保证信息的充分交流和师生的顺畅沟通,有利于增进学生对专业知识的理解和应用,也可以给授课老师及时反馈。小班教学可以营造一个良好的每个人都可以参与其中的双语氛围,获得更好的教学效果。

2问题与对策

2.1加强专业英语学习

笔者在双语教学实践中发现,教学效果的好坏很大程度取决于学生自身的英文水平,尤其是专业英文水平。当学生的专业英文水平有限的时候,会出现不能理解关键词的准确含义、无法阅读摘要的主要内容,进而不能获得所需要的信息。在这种情形之下,无论老师如何讲授信息检索的原理,介绍信息检索的方法,对于学生来讲,都会出现茫然不知所措的状态。比如说指定检索癌症相关信息,部分同学只知道cancer可以表示癌症,不知道还有tumor、carcinoma也可以表示癌症,并且词义在医学领域存在差异。再比如,在表述胃癌的时候,可以用stomachcancer,也可以用gastricCancer。针对这一情况,笔者在授课之初会详细讲解MeSH(MedicalSubjectHeadings),即由美国国家医学图书馆建立的一套完整详细的生物医学领域的主题词库。同时,笔者也建议先导课的专业课老师在授课的过程中,尽量采用全英文幻灯片展示,中英文对照学习的`方式。上述措施可以有意识地帮助学生扩大专业词汇量和帮助学生理解专业描述,进而帮助学生克服双语教学中的最大障碍。这是从根本上解决双语教学对于学生来说较为困难的方式,也唯有真正具备良好的专业英语水平才可以从本质上掌握生物医学信息检索的方法,才能够满足今后的学习和工作的需求。另一方面,对于生物医学数据库的英文界面不熟悉才会增加学生学习的难度。笔者比较困惑的是,在上课之初,一部分同学不太理解starmenu的含义,对于全英文界面的数据库NCBI(NationalCenterforBiotechnologyInformation),ScienceDirect,Highwire,以及软件Endnote初次接触的时候更是如同看天书。这本身并不困难,但是会极大地增加学生的心理压力,所以这需要授课老师对界面进行详细的讲解和介绍,并给予学生足够的时间去熟悉界面,达到能够熟练掌握的水平,消除学生的畏难心理。

2.2循序渐进

为避免在学习过程中,学生出现习得性无助的情况,双语教学一定要采用循序渐进的方式进行。切忌一开始就加重学习任务加大学习难度,这样的结果是多数同学会跟不上老师的进度,产生严重的厌学心理,进而会完全放弃这门课程的学习。教师授课以前需要对学生的英文水平和专业覆盖面有一个大概的解,和学生沟通交流他们的学习兴趣、需求和困难所在,并根据获取的信息结合教学大纲及时调整授课的内容、重点和难点。当学生第一次接触到该门课程的双语学习时,教师需利用其最初的新奇感和参与意识激发同学们的学习兴趣,从简到难的学习进度中,让同学们自主地参与到课程的学习中来,收获到成功的喜悦是进一步深入学习的强大动力。教师在课堂讲授中要循序渐进地增加英语表达的比例,在遇到部分专业词汇时需要做详尽的中文解释;在遇到英文表意较为复杂的情况也需要辅以中文指导,全场和学生保持沟通顺畅,把握教学难点和内容。双语授课不能单纯为英文表达而表达,忽视学生在课堂上专业水平的提升。同时也可以让学生自发组成学习小组,让英语基础比较好的同学带动其他同学的学习,同学之间互相促进互相合作,形成一个良好的互动氛围,从教师的“教”彻底转变为学生的“学”,让所有的同学参与到这个过程中来,避免个别同学落后于集体学习进度的情况。

3结语

双语医学信息检索这门课程既有利于学生英语应用能力的提高,同时也有利于学生专业知识的扩展和深化,可以极大地增强学生在今后的深造和就业中的竞争力。虽然这门课中还存在很多问题有待我们做进一步思考与改进,但是只要我们勇于拓新,这门课一定会发挥其作用、展现其价值。随着高等教育中教育理念的更新,双语教学在医学信息检索教学课中的运用会真正服务于学生,服务于社会。

注释

①肖凤玲。医学信息检索课双语教学探析。科技情报开发与经济,2009.19(36):149-150.

②廖芮等。《医学信息检索与利用》课程双语教学实践优化模式。昆明医科大学学报,2014.35(3):167-170.

信息检索论文 篇5

论搜索引擎中文自动分词技术

【摘要】

搜索引擎是应用在web上的软件系统,它以一定的策略搜集和发现信息,再对信息进行处理和组织后为用户提供web信息查询服务。搜索引擎分三个大模块:网页搜集,预处理和查询服务。其中对搜索信息的预处理阶段的关键技术是中文分词和建立倒排文件,本文主要论述搜索引擎工作过程中的中文自动分词技术。

【关键字】:搜索引擎,中文分词,分词方法,分词难题 【正文】

信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度等大型搜索引擎一直是人们讨论的话题。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。

一、为什么要进行分词?

汉语是世界上最古老和最丰富的语言之一,但是汉语语法才有将近一百年的历史,而且现代汉语的形成历史也比较短,加上汉语自身的特点,因此它的形式化研究更加困难。对英文而言,是以词为单位,词与词之间有空格隔开,而中文是以字为单位,多个字连在一起才能构成一个表达具体含义的词,词与词之间没有分割,因此,对于支持自然语言检索的工具,从语句中划分出具有独立意义的词的过程即进行中文分词必不可少。

二、什么是中文分词?

中文分词技术就是搜索引擎针对用户提交查询的关键串进行的查询处理后,根据用户的关键词串用各种匹配方法进行的一种技术。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。

三、中文分词与搜索引擎

分词技术使用在搜索引擎网页预处理阶段。搜索引擎网页预处理第一步是为原始网页建立索引,形成索引网页库;第二步是对网页进行切分,也就是分词,将每一篇网页转化为一组次的集合;最后将网页索引词的映射转化为索引词到网页的映射,形成倒排文件。

中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。而且中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。

四、中文分词技术的分类

我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。(一)基于字典、词库匹配的分词方法

这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。

常用的几种机械分词方法如下:

(1)最大正向匹配法(MaximumMatching Method)通常简称为MM法

其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理…… 如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。

(2)逆向最大匹配法(Recerse MaximumMatching Method))通常简称为RMM法

RMM法的基本原理与MM法相同 ,不同的是分词切分的方向与MM法相反,而且使用的分词辞典也不同。逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的2i个字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。

由于汉语中偏正结构较多,若从后向前匹配,可以适当提高精确度。所以,逆向最大匹配法比正向最大匹配法的误差要小。统计结果表明 ,单纯使用正向最大匹配的错误率为 1/16 9,单纯使用逆向最大匹配的错误率为 1/245。例如切分字段“硕士研究生产”,正向最大匹配法的结果会是“硕士研究生 / 产”,而逆向最大匹配法利用逆向扫描,可得到正确的分词结果“硕士 / 研究 / 生产”。

(3)最少切分法:使每一句中切出的词数最小。还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。

一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

(二)全切分和基于词的频度统计的分词方法

基于词的频度统计的分词方法是一种全切分方法。在讨论这个方法之前我们先要明白有关全切分的相关内容。(1)全切分

全切分要求获得输入序列的所有可接受的切分形式,而部分切分只取得一种或几种可接受的切分形式,由于部分切分忽略了可能的其他切分形式,所以建立在部分切分基础上的分词方法不管采取何种歧义纠正策略,都可能会遗漏正确的切分,造成分词错误或失败。而建立在全切分基础上的分词方法,由于全切分取得了所有可能的切分形式,因而从根本上避免了可能切分形式的遗漏,克服了部分切分方法的缺陷。

全切分算法能取得所有可能的切分形式,它的句子覆盖率和分词覆盖率均为100%,但全切分分词并没有在文本处理中广泛地采用。(2)基于词的频度统计的分词方法:

这是一种全切分方法。它不依靠词典,而是将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。它的优点在于可以发现所有的切分歧义并且容易将新词提取出来。

(三)基于知识理解的分词方法

该方法主要基于句法、语法分析,并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界,它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。这类方法试图让机器具有人类的理解能力,需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式。因此目前基于知识的分词系统还处在试验阶段。

(四)一种新的分词方法

并行分词方法:这种分词方法借助于一个含有分词词库的管道进行 ,比较匹配过程是分步进行的 ,每一步可以对进入管道中的词同时与词库中相应的词进行比较 ,由于同时有多个词进行比较匹配 ,因而分词速度可以大幅度提高。这种方法涉及到多级内码理论和管道的词典数据结构。

到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。

五、分词中的难题

有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。

(一)切分歧义

就人对汉语的理解而言,汉语的分词是一个理解的过程,这个过程综合了词法、语法、语义等各种信息。因此,一个理想的分词系统也应综合运用这些信息,而在计算机处理中这些信息的提取又是以分词为前提的。所以,分词与这些信息的运用是既相联系又相制约的一种相辅相成的关系,而纯粹的机械切分必然会带来切分歧义。

歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:学历史知识,因为“学历”和“历史”都是词,那么这个短语就可以分成“学历”和“历史”。这种称为交叉歧义。像这种交叉歧义十分常见由于没有人的知识去理解,计算机很难知道到底哪个方案正确。

交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别? 如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

(二)新词

专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“张三虎是山东人”中,“张三虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“张三虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“张三虎头虎脑的”中,“张三虎”还能不能算词?

新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等,还有目前网络流行语词,如“有没有”、“伤不起”“神马浮云”、“童鞋们”、“萝莉”等等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

判断一个系统的中文分词功能好坏,主要在于消歧功能和对未登录词识别功能。并且优秀的分词策略应该是尽量不拆分,需要拆分时,先把长的拆成中的,如果结果还是少,再把中的拆成短的。

参考文献

【1】 吴胜远;并行分词方法的研究()--《计算机研究与发展》1997年07期

【2】 张旭;一个基于词典与统计的中文分词算法[D];电子科技大学;2007年

【3】 梁斌;走进搜索引擎 电子工业出版社 2007年1月

【4】(美)克罗夫特;搜索引擎:信息检索实践 机械工业出版社

2010年

摘要: 篇6

本文通过对纸质文献和电子文献的比较分析,指出纸质文献与电子文献各具特点,认为纸质文献和电子文献在未来的时间内会相互补充,共同存在。

结论 篇7

现在,在我们的学习工作生活中电子文献呈现增长强势,但有些只是印刷型纸质出版物的延伸和翻版。纸质文献在电子文献的冲击下也在努力求得生存与发展。首先,纸质文献的生产、传播和利用现代化(如电子排版,计算机检索等)使纸质文献本身具有更加强大的生命力;其次,纸质文献也出现了一种积极向网络靠拢的动向,不仅大量的名著被搬上了因特网,各个报刊社纷纷推出网络版,而且一些报刊社还提供了编辑部的电子信箱,鼓励作者通过电子邮件投稿,并与著者、读者展开对话。事实上,纸质文献在与电子文献展开竞争、争夺读者的同时,也正在加速与电子文献的融合。

电子文献和纸质文献经过多次的较量,最终将达到共存共荣,正如报刊、电视、广播最终达成平衡一样,这是一种趋势。互联网的出现,电子出版物的兴旺,又使纸质文献再次面临挑战,但是,正如电视业的崛起并没有使报业消亡一样,互联网的出现,电子出版物的兴盛,也不会使以印刷型为主的纸质文献不复存在。纸质文献也可以通过网络促销,扩大其销量。

所以我认为在未来一段时间内纸质文献与电子文献将互为补充、彼此共存、共同进步发展。

信息检索课程论文 篇8

信息检索课程论文

信息检索就是根据信息用户的需要找出有关的信息的过程和技术,我们看看下面的信息检索课程论文。

信息检索课程论文

摘 要 文章针对高校在信息检索课程教学过程中存在的诸多问题,从教学目标、教材选择、教学模式、考核方法等方面提出改革措施,并对课程教学方式的创新进行了探索。

关键词 信息检索 教学改革 信息素质

,教育部在专业调整中将信息检索课程设置为“信息管理与信息系统”专业的主干课程之一,并很快成为信息管理领域理论研究与技术发展最具活力的分支学科。①目前,很多高校都开设了信息检索课程,实践证明,该课程对大学生的信息素质教育起到了作用,但是在教学过程中存在很多问题,影响了教学效果。

1 信息检索课程现状

目前学生对信息检索课程还存在很多误区,认为只要能通过搜索引擎检索检索几篇论文就是信息检索,没有必要上这门课。而从我们的实际调查情况来看,学生只会使用一两个数据库的极少部分功能,不会使用检索策略,也不能对检索结果进行筛选,整合,分析和利用。所以学生在掌握信息整合与分析能力方面远没有达到我们的预期目的。在信息技术不断发展的今天,信息检索课的教学内容却相对稳定,教学目标没有相应转变。教材的内容跟不上时代的发展,缺少网络环境下的实验项目;教学模式单一,学生学习积极性不高;没有综合性实验项目的建设;考核方式落后,达不到预期评价结果等。针对这些方面,急需对信息存储课程进行改革。

2 信息检索课程改革措施

2.1 构建以“信息素质培养”为核心的新的教学目标

传统的教学目标是检验学生是否掌握信息检索理论与检索方法,并没有重视学生对信息资源的整合与利用,换句话说,学生只是学会了一种使用工具而已。任何时候我们检索的目的都是利用信息,而检索工作本身只是一个准备工作。

在如今这个信息爆炸的时代,如何对信息进行整合、分析、利用才是我们从事所有研究工作需要的基本技能。因此在信息检索课程的教学中,我们要以培养学生“信息素质”为目标。②无论从教材选择,还是教学内容安排与实践环节都要从这个目标为出发点,努力培养学生对信息的整合,分析和利用的能力,使他们以后无论从事什么样的研究工作都可以敏锐地洞察信息需求,懂得如何获取解决问题的信息,更新自我知识体系并能进行相应的信息评估和利用,使他们具有终身学习的能力。

2.2 适时更新教材

目前信息检索课程的教材基本上都是偏重理论性,主要介绍信息检索方法,很多数据库的使用方法像说明书一样,存在很多重复性。适合学生专业背景与学习特点的教材几乎没有。信息检索课程有很多上机实验课,由于教材缺乏从专业背景出发的综合性试验项目,使得学生很难将理论与实践教学内容相结合。学生在学习过程中不可避免地感到枯燥无味,缺少学习积极性。因此我们急需内容新颖、实用,具有一定的科学性、知识性和专业针对性的教材。

2.3 开展多种教学模式

在传统教学模式中,都是以教师讲授为主,不断向学生灌输知识,从而让学生形成了被动学习的习惯。由于教学方式单一,不能调动学生的学习积极性,导致课堂教学枯燥无味,教学效果比较差的现象。为了改变这种教学现象,笔者对信息检索课的教学模式进行了一些研究,开展多种教学模式有助于提高学生的学习积极性、自主性和创造性。我们可以让学生在教师的指导下进行研究性、协作性和自主性学习。

2.3.1 研究性学习方式

目前国内高校对于本科生教育主要偏重于理论教学,缺少研究课题,使学生对所学专业的前沿知识与实际应用领域知之甚少。在信息检索课中,我们可以针对要求学生针对自己的专业背景查找相关文献。③例如针对计算机网络专业学生,我们可以让他们检索计算机网络方面的文献,然后指导他们如何从众多文献中整合自己需要的资源,找到自己感兴趣的研究方向,为后续实验项目打好基础。

2.3.2 协作学习方式

协作学习是指多个学习者利用学习资源,在沟通、亲合的气氛下,结成学习伙伴,形成团体意识,共同学(下转第83页)(上接第62页)习和互助学习。协作学习是网络环境下一种很重要的教学模式,它对促进学习伙伴的合作能力有着积极的促进作用。信息检索课是一门实践性很强的课,如何能使学生增强获取信息的意识,提高利用信息的能力尤为重要。通过协作学习,教师可以调动学生的积极性,培养创新能力,增强学生之间的沟通,更有利于培养学生的多方位能力。

教师作为协作学习问题的启迪者,能为学生设计能引起争论的信息检索初始问题,然后对学生进行分组,让他们运用所学的检索技术将讨论引向深入,进而提出信息检索的拓展性问题,不断提高学生的创新型思维能力。④

2.3.3 自主学习方式。

自主学习是以学生为主体,通过学生独立的分析、探索、质疑、创造等方法来实现学习目标。教师在信息检索课程中让学生自己查找本专业相关文献,激发他们的学习动机,养成一种自主学习的习惯。教师也可以给出很多研究性题目,让学生自己发现可以研究的创新点,进而激发学生的'主动性和学习热情,更好的达到该课预期的教学效果。

2.3.4 建设综合性实验项目

信息检索的课堂和上机实验教学能够让学生充分掌握相关检索技术,但这样还不能使学生迅速提高检索技能。为了能让其将所学理论与实践相结合,提高实验动手能力、综合分析能力,综合性实验项目的建设很有必要。⑤综合性实验项目的内容制定很重要,需难易适中,让学生有兴趣又不会望而生畏。在基本掌握所学知识后,要求学生开发一个网络资源导航库系统平台,以小组为单位拟定不同检索策略,搜集相关资源。对于计算机专业的学生,最好能要求他们在网络资源导航库的基础上设计门户网站,这样可以很好地培养他们的动手实践能力。

2.3.5 改革考核方式

信息检索课程以往都是采用平时成绩与期末考试成绩相结合的考核方式,这样不能真正测验学生对课程的掌握情况。对于实践性很强的课程,应趋向考核学生的知识掌握与应用情况。信息检索课成绩评定主要由检索策略研究报告和课程设计两部分组成,老师可以给定多个题目,学生给出不同的检索策略,并对检索结果做出评价,总结检索经验,最终形成检索策略研究报告;课程设计是结合自己的专业,根据拟定的研究方向,多途径搜集相关资料,通过对文献的整合,分析和利用最终完成课程设计。

3 总结

总之,在现代信息技术不断发展的今天,为了让学生适应时代的需要,我们必须对信息检索教学进行改革与创新。要从教学目标、教学内容、教学方式和考核方式等多方面进行改革,以网络信息检索为主体,以多种教学模式为辅助,以综合性实验项目建设为推动方式,努力培养适应新经济时代发展需要的智能型和创新型复合人才。

注释

① 张帆。信息存储与检索[M].高等教育出版社,.

② 马丽华。大学生的信息素质教育和信息检索教学探究[J].情报杂志,.29(12):241-242.

③ 叶青。网络环境下信息检索课的教学改革与创新[J].医学信息,(3).

④ 杨淑琼。论基于协作学习方式的信息检索课程教学[J].图书馆学研究,(18):67-69.

⑤ 尹志清。高职院校信息检索课程的教学改革[J].新课程研究,2009(147):32-33.

信息检索课程心得体会 篇9

本次是实习应该是用超星数据库来使用的,但是由于超星数据库出现了一些问题,时常进不去,更是使用不了高级检索等的工具,所以这次作业我就使用了之前做过的独秀数据库来做。

在这次作业中我更加的了解使用独秀数据库的方法与窍门,其中包括期刊,论文,图书,知识等各方面的知识。第二个则是,独秀数据库还包括了海内外各种的资源;通过这些强大的功能更加有利于我们现在的学习和今后论文的写作,避免了我们以后去图书馆查找各种不同的图书和期刊,在茫茫书海中不知所措和浪费大量的时间去寻找。通过这次的学习,我明白了有了学校的这些快捷的网站,并且写这些资料的人也具有一些权威性,可以更好地帮助我们学习和开拓眼界。在以后的生活和学习中,我希望通过这些强大的数据库,可以帮助我的学习更进一步。

Cnki是中国知网,目的是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目。中国知网(comKI)是目前中国最具权威、资源收录最全、文献信息量最大的动态更新资源体系,是中国最先进的知识服务平台与与数字化学习的平台。通过这期的学习我掌握了中国知网的使用方法,并且知道了中国知网的各种资源的范围,如期刊,论文或者学士论文。通过这些强大的功能更加有利于我们现在的学习和今后论文的写作,以及对于知识的全面性把握,更能掌握书本以及书本以外的知识。

通过这次的学习,我希望可以更好地帮助我们学习和开拓眼界。在以后的生活和学习中,我希望通过这些强大的数据库,可以帮助我的学习更进一步。不仅仅局限在这一小小的书本内,而是海内外的不同的知识与学术观点上面。

这次的实践是综合之前所以所学的所有的知识,运用了超星,中国期刊全文数据库,和百度等数据库,是一次综合性的作业。这次我选的主题是城市雾霾的治理。在这次的学习中我不断地巩固了之前所学的内容,运用这些强大的数据库,了解了有关雾霾的知识,和来自世界各地的不同的观点的碰撞与融合。

在这时,这就是最后一次的实践了。伴随着最后一次课的来临,回看这学期的这门课程,有了太多的回忆。从刚刚开始的诧异有这么多的数据库等等,再到中间的课程学习中的不会做,让人抓狂的各种作业。现在已经习惯了每周五晚上去学校机房上课,习惯了每次上完课回来后对作业的深深的无奈。总而言之,通过这学期这门课程的学习,让我了解和学会了各种数据库的使用,对我今后的`学习生活和毕业论文的写作具有巨大的意义。

信息检索论文(完整版 篇10

信息检索论文(完整版)

网络信息检索工具研究

摘 要 网络信息资源的迅猛增长,使人们获得有用信息越来越困难,网络检索工具应运而生,文章介绍了网络信息检索工具的类型和功能,提出了检索工具的发展趋势。

关键词 因特网;网络检索;检索工具

Abstract The quick increase of net in formation makes it more and more difficult for people to get useful search tools emerged as the times require.The paper introduce several kinds and functions of net search tools , put forward the development tendency of net search tools.Key words Internet;net search;search tool

席卷而来的因特网正将全世界的丰富信息资源带到我们每一个人面前,已成为知识经济时代不可或缺的基本工具。然而在这样无边无尽的信息世界,找寻所需要的信息却成为一个极大的难题。网络信息检索工具由此产生并迅速繁荣发展,毫无疑问地成为这一信息海洋的航标与灯塔。了解网络信息检索工具,熟悉其功能,将大大提高我们的检索效率。

网络信息检索工具的类型

网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。按检索资源的类型,可分为两大类:即非web资源检索工具和web资源检索工具。

1.1非web资源检索工具

非web 资源检索工具是以 FTP、Telnet、Gopher等为检索对象。

(1)FTP类的检索工具

这是一种实时的联机检索工具,用户首先要登陆到对方的计算机,登陆后即可以进行文献搜索及文献传输有关的操作。使用 FTP(文件传输协议)几乎可以传输任何类型的正文文件、二进制文件、图像文件、声音文件、数据压缩文件等。在这类检索工具中,Archie是最常用的。Archie是自动标题检索软件,它借助于 FTP来访问。用户只需告诉其要检索文件名的有关信息便可获得文件所在的主机名、路径。与一般检索工具不同的是,它不用主题来实现相应的检索,而只能根据文件名和目录名进行检索。它是获取免费软件和共享软件资源不可缺少的工具。

(2)Telnet 类的检索工具

它指的是借助远程登陆在网络通信协议的支持下,在远程计算机上登陆,使自己的计算机暂时成为远程计算机的终端,进而可以实时访问,使用远程计算机中对外开放的资源。

使用Telnet协议进行远程登陆时需要满足以下条件:本地计算机上必须装有包含Telnet协议的客户程序;必须知道远程主机的IP地址或域名;必须知道登录标识与口令。Telnet远程登录服务分为以下4个过程:

a.本地与远程主机建立连接。该过程实际上是建立一个TCP连接,用户必须知道远程主机的IP地址或域名;

b.将本地终端上输入的用户名和口令及以后输入的任何命令或字符以 NVT(Net Virtual Termin al)格式传送到远程主机。该过程实际上是从本地主机向远程主机发送一个IP数据报;

c.将远程主机输出的NVT格式的数据转化为本地所接受的格式送回本地终端,包括输入命令回显和命令执行结果;

Telnet类的检索工具的特点为只有文字模式,缺乏展现多媒体的能力;不同的系统,采用不同的指令与操作方式;必须拥有登陆口令和密码;使用者人数受到限制;查得的资料需逐页的显示,不利于大幅度的翻页检视。

HYTE LNET是用于 Telnet 信息资源的检索工具。它以超文本形式分门别类的汇集并罗列了数量相当多的 Telnet信息资源,在远程登录后,对方系统往往设有专门的检索型工具,以方便用户查找和利用。

(3)基于菜单式的检索工具----Gopher

Gopher是一种交互式、菜单式信息查询软件,它将各种信息资源加以分类,再用菜单的形式显示给用户。Gopher采用客户机/服务模式。当用户启动一Gopher 客户程序时,建立与Gopher服务器的连接,Gopher 服务器发送一 Gopher 菜单给用户的客户程序。菜单中的每一项都对应一个信息文件或另一个菜单。若用户选定的菜单项对应一个信息文件,则Gopher 将检索这个文件并显示其内容;若选定的菜单项对应另一个菜单,Gopher 将检索这个新菜单,使用户能够在这个新菜单中挑选一个新菜单项。这样,在菜单的引导下,当用户选择了一个菜单项时,Gopher软件将自动确定该菜单项所驻留的计算机,用户可以对因特网上的远程联机系统进行实时访问。Gopher只支持纯文字环境,无法提供影像、声音服务。目前通过Gopher可以进行以下类型信息查询:文本文件信息查询、Telnet信息查询、电话簿查询、专有格式文件查询。

这类检索工具是一种分布式信息查询工具,它将用户的请求自动转换成FTP或Telnet 命令,在一级一级的菜单引导下,用户可以选取自己感兴趣的信息资源。这对于不熟悉网络资源、网络地址和查询命令的用户是十分简便的方法。在这类检索工具中最常见的是 Veronica和Jughead。如Veronica用于检索可由 G opher 菜单访问的信息资源,是与Gopher配套的检索工具。它根据用户给出的检索词进行检索,可检索文件名、目录名、文档及其他信息资源。d.最后,本地终端对远程主机进行撤消连接。该过程是撤销一个TCP连接。

1.2 web资源检索工具

web信息资源是指建立在超文本、超媒体技术基础上,集文本、图形、图像、声音为一体,并以直观的图形用户界面展现和提供信息的网络资源形式,与之对应的 web 检索工具多种多样,大体分为三类:搜索引擎、目录型检索工具、多元搜索引擎。

(1)搜索引擎

搜索引擎使用自动索引软件来发现、收集并标引网页 ,建立数据库;以 Web形式提供给用户一个检索界面,供用户输入检索关键词、词组或短语等检索项;代替用户在数据库中找出与提问匹配的记录 , 并返回结果且按相关度排序输出。使用此类工具的检索方法被称为“关键词搜索”,可以在主页查询,也可以在类目下查询。此类检索工具的优点是信息量大且新 , 速度快;缺点是准确性较差。著名的搜索引擎如Meta Vista、Excite、天网、悠游等。

根据其逻辑功能的不同,可分为:搜索器、分析器、索引器、检索器、用户接口。搜索器,也称为蜘蛛系统(Spider)或爬虫系统(Crawler),其功能是遵循一定的协议,在互联网中及时发现、搜索新的网页信息,并更新索引数据库中的已有网页信息,避免死链接。分析器的功能是借助于词频统计、词语位置认定和一些特殊的算法,对搜索器抓回的网页进行标引,并对其中的网页超链接进行关联。索引器的功能是根据分析器生成的关键词,建立从关键词到网页 URL 的关系索引倒排文档,即建立索引数据库。检索的功能是根据用户输入的提问词,在索引数据库中进行提问词与索引词的匹配运算,然后将查询结果按相关程度排序并输出到用户接口子系统。用户接口,其功能是提供人机交互的检索接口,接收输入的用户检索提问并输出检索结果。搜索引擎是自动标引,故收录、加工信息的范围广、速度快,能及时地向用户提供新增信息。但由于缺乏人工干预,准确性较差,信息重复率高,误检率较高;另外,检索策略的构造和输入方式也会直接影响其检索结果。一般来说,搜索引擎适合于检索特定的信息及较为专、深、具体或类属不明确的课题。

(2)目录型检索工具

它是按照某种分类体系编制的一种可供检索的等级结构式目录。分类方法以学科分类为主,也有采用图书分类方法的。使用此类工具的检索方法被称为“分类搜索”,这是一种“自顶向下、逐步细化”的搜索方法。自顶开始,每一层都分布有若干“链接点”,选择其中一个,就可沿此分支进入下一层,直到出现所需目标。此类检索工具的优点是检索质量较高,缺点是检索到的信息数量有限,且新颖性不够。有代表性的目录型检索工具如 Y ahoo、G alaxy、Lycos、网易、263 等。现在,搜索引擎和目录型检索工具逐渐整合在一起,以增强检索能力。

(3)多元搜索引擎

多元搜索引擎是将多个搜索引擎集成在一起,并提供一个统一的检索界面 , 且将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。其优点是省时,缺点是由于不同搜索引擎的检索机制、所支持的检索算法、对提问式的解读等均不相同,导致检索结果的准确性差。常用的多元搜索引擎有DOGPI LE、INFEREN等。

多元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理,串行处理式元搜索引擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。

多元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。如提交检索请求时,根据源搜索引擎的特点和技术参数, 指定优先顺序,并对检索时间、检索结果数量进行控制;作为若干源搜索引擎的检索接口代理,多元搜索引擎必须具有较强的字符和语法转换功能,使用户的检索请求为各具语法特点的不同的源搜索引擎所人知和接受;而对检索结果的显示,不同的多元搜索引擎有不同的处理技术,由于多元搜索引擎设定的检索结果排序依据、最大返回结果数量、相关度参数及优化机制等不同,调用相同的源搜索引擎的不同多元搜索引擎显示检索结果的数量多少、排序先后、结果信息描述选择亦有较大差异。多元搜索引擎搜索将用户的检索式同时转给不同的引擎帮助检索,并将检索结果中重复的部分删去。这样,既扩大了检索范围,又节省了在不同的搜索引擎之间转换的时间,节省了时间,查全率高,漏检率低;但是由于不同搜索引擎的检索机制、所支持的检索算法、对提问式的解读等均不相同,导致检索结果的准确性差,查准率低。

网络信息检索工具的功能

网络检索工具产生和发展的历史虽然不长,但它的功能却非常强大,关键词检索(Keyword)是最基本功能,包括以下几个方面:

2.1布尔逻辑检索

布尔检索在网络信息资源检索中使用的相当广泛,常用的布尔逻辑算符有 3 种: 逻辑或(运算符为 OR/ or ,有时也可用“|”符号表示)、逻辑与(运算符为 AND/ and ,有时也可用“&”、“+ ”号表示)、逻辑非(运算符为NOT/ not,有时也可用“!”、“-”号表示)。检索中使用逻辑算符是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑算符表达检索要求,除要掌握检索课题的相关因素外,还应注意布尔算符对检索结果的影响。对同一个布尔逻辑提问式来说,不同的运算次序,其检索结果亦不同。

2.2 词组检索

词组检索是将一个词组作为一个独立运算单元,进行严格匹配以提高检索的精度和准确度。词组检索是一般数据库中最常用的方法,是通过使用逗号、双引号和括号进行检索。逗号的作用类似于 OR ,但“越多越好”,因为查寻时找到的关键词越多,文档排列的位置越靠前,例如:查寻输入“计算机”、“办公自动化”和“WORD2000”,则查寻结果中,同时包含“计算机”、“办公自动化”和“Word2000”的文档将出现在搜索结果的最前边。双引号的作用就是把引号内的关键词的组合当作一个字符串看待,然后进行检索。例如,要检索有关古典音乐方面的信息 ,可以连同引号在内键入“classic music”,检索时就把“c1assic music”作为一个词来进行检索。括号的作用与数学的括号相一致,使括号内的操作符先起作用。例如 , 如果输入的关键词是:(网址OR文档)AND(搜索OR查找),则实际检索时,关键词就是“网址搜索”、“网址查找”或“文档搜索”、“文档查找”。

2.3 字段检索

字段检索是一种用于限定提问关键词在数据库记录中出现的区域,控制检索结果的相关性,提高检索效果的手段,多以字段限定方式实现。搜索引擎常用的字段有: Ti2tle/t(表示查找标题中包含检索提问式的页面)、Subjec(表示查找主题中包含检索提问式的页面)、Text(表示文本中包含检索提问式的页面)、bost(主机。表示在指定的服务器上查找页面)、URL/ u(表示查找URL 中包含检索提问式的页面)、domain(域名表示查找指定域名的各页面)、1ihk(链接。表示查找含有链接至URL 的页面)等。

2.4 截词检索

为提高查全率而设计,绝大多数网络检索都支持这一功能,有的是自动截词 , 有的是有条件的截词,尤其在西文检索工具中更是广泛使用。因为西方语言的构词灵活,在词干上加上不同性质的前缀和后缀,就可以派生出很多新的词汇,这些词之间的基本含义是一致的,如果不采取措施在检索式中列出一个词的所有派生形式,就容易出现漏捡。截词检索按截断的位置分后截断、前截断、中截断3种类型。不同的系统所使用的截词符也不同,常用的有“?”、“| S”、“3 ”等,因此 , 截词检索也称为通配符检索。例如,热点 3代表“热点问题”、“热点新闻”、“热点报道”等词。

2.5 位置检索

位置检索是指允许指定 2 个单词之间的词序和词距的检索。词序指单词之间前后顺序 , 词距指 2 个单词之间间隔单词数。其操作符多为“NEAR”。例如 , 网络 NEAR 图书馆 , 表示检索结果中网络与图书馆二词之间的位置比较临近。每个支持位置检索的搜索引擎对 NEAR 操作的字段间隔数的设置是不同的 , 有的设置在25个单词之内。

2.6 概念检索

概念检索是指使用某一检索提问词进行检索时 , 能同时对该词的同义词、近义词、广义词、狭义词同样进行检索 , 以达到扩大检索 , 避免漏检的目的。例如 , 当您使用自行车检索时 , 检索结果不仅包括自行车的内容 , 还包含脚踏车、单车等的内容。

网络信息检索工具性能分析方法

3.1检索工具性能分析的内容

网络信息检索工具在标引过程中,大多数采用了传统检索工具的标引技术。它包括:分类标引技术、主题词标引技术和关键词标引技术等。其实现方法大多是使用计算机自动标引技术来实现的。因此网络信息检索工具的性能分析方法和内容也主要参考传统检索工具标准来进行。同时,根据网络信息的特点,适当增加相应的性能指标和技术指标。

(1)收录信息范围。收录范围主要指该搜索引擎网络信息的搜集范围和报道范围,网络搜索引擎从收录范围分为专用搜索引擎和通用搜索引擎。

(2)查全率。查全率指在查询主题的所有信息中,查出信息和全部信息的比率。它是评价网络信息检索工具的一个重要定量指标。但是,无论是传统文献检索工具还是网络信息搜索引擎,这都是一个难于计算的指标,主要原因在于信息的总量是未知的,通常是一个大概数字,在网络信息中信息的总量更加难于计算。

(3)查准率。查准率是在查到的全部信息中,符合查询要求的信息数量所占的比率。

(4)检索速度。检索速度是衡量搜索引擎的一个重要指标,它包括网络传输速度和查询速度组成。

(5)检索方法。检索方法指搜索引擎提供的检索组合方法,主要指逻辑组配(and、or、not 等)方法,是否提供截词检索等。

(6)检索途径。检索途径指检索的人口点。对于网络检索工具,其检索途径主要是关键词检索和分类检索%由于网络信息类型的复杂性,检索工具通常提供网站检索、网页检索、新闻检索等,主要是按照信息类型提供检索途径。

(7)死链率。死链率指在查到的信息中,不能链接的占查到总数的比率。用来反映网络信息检索工具的可靠性。

(8)错链率。错链率指在查到的信息中,不能链接到正确站点的链接数占查到总数的比率。用来反映网络信息检索工具的可靠性和准确性。

(9)结果处理。结果处理主要指是否将检索结果排序,排序的主要方法是按照与检索关键词的相关程度,或者是关键词出现的频数排序。经过排序的检索结果,用户首先看到的是最接近用户需要的信息。需要注意的是,关键词出现频率高的网络信息并不一定和用户的检索要求相吻合。

除了这些主要的技术指标外,网络信息检索工具的评价和性能分析还包括∃更新周期、信息搜集方式、界面设计和帮助等%评价的方法主要包括定性分析评价和定量分析评价两种。

3.2统计分析法评价网络信息检索工具

在对网络检索工具的定量分析评价中,统计分析是最常用的方法之一。在用统计分析方法对网络信息检索工具进行分析评价时,应采用以下步骤:

(1)确定评价目标

(2)确定评价项目。根据评价的目的要求,确定分析评价的项目和需要调查统计的项目,并制作调查表格。

(3)浏览网站。通过对网站的浏览,确定该检索工具的收录范围,包括主题范围和信息类型范围。

(4)选择关键词。对网络检索工具进行统计分析,必须用实际的关键词在检索土具中查找,然后对查找结果进行分析,因此必须有检索的关键词。同时,在统计时,不可能对所有的关键词和网络中的所有信息进行统计,通常采用抽样调查的方法,选取若干关键词,通过对若干关键词查询结果的统计分析,来分析网络信息检索工具的一般情况。

(5)计算统计结果 %根据统计结果计算查全率和查准率等,其计算方法如下 设样本数为n ,单个关键词的查准率为C1,死链率为 D1,错链率为 E1,则 平均查准率

平均死链率

平均错链率

上述结果通常可以反映该搜索引擎的基本性能,但是由于样本的选取范围和选取数量的限制,这些数字往往有可能与实际的查询结果有一定出入。

(6)汇总分析结果,得出结论。对统计结果进行分析,进而分析该检索工具的信息数量、信息质量和可靠性 ,并做出判断和结论。

网络信息检索工具的发展趋势

科学技术的日新月异和用户需求的不断提高促使网络检索工具相应发展,其发展趋势大致可以分为以下几个方面:

一是检索工具的智能化。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表达的检索要求进行分析,形成检索策略进行检索。它主要包括智能搜索引擎、智能浏览器、智能化自动索引软件。检索工具的智能化的内涵在于检索工具具有学习、分析、辨别推理的能力,它们按照用户的要求,对信息进行更深一步的分析,然后交由用户。

二是用户友好化进一步提高。未来科技的发展都要以人为本,网络信息检索也不例外,用户友好化是一个重要的发展趋势。它主要包括两个方面的内容,一是用户界面友好化,使用户更方便、快捷的使用各种检索工具,满足用户各种检索要求。另一方面是更好的检索结果提供方式,使用户方便的进行浏览、选择和利用。

三是信息提供的深入化。这也包括两个方面,一是检索深度的提高,现阶段,网络检索大多实行相关性检索,其结果往往是海量的,这会分散用户的注意力,背离原有的目的。为避免这种情况,就要求提高检索深度,由相关性检索向直接性检索发展。另一方面是检索内容的综合化与专业化相结合。网络既提供广泛的信息,又提供更深的内容,依次服务于用户。

5、网络信息检索工具的竞争力要素

5.1众多的网络信息检索工具面临着竞争的局面

虽然网络信息检索工具几乎都供免费使用,但实际上,开发、维护这些检索工具的信息服务机构多数以盈利为目的。

每一个商业性信息服务机构为了收回开发网络信息检索工具所投入的资金,为维护和进一步发展所开发的检索工具还需继续投人,并力求获得更多盈利而信息市场空间是有限的,故各种网络信息检索工具都面临着竞争的局面。网络信息检索服务机构股票的上市,正说明了网络信息检索服务是一种商业活动,以盈利为目的而不可避免市场竞争。

也有一些属于非盈利性的开发机构,它们所开发的网络信息检索工具一般仅为本单位 如高等学校人员服务,并且规模也不大,投入资金有保障,但也有一个保证质量以取得实效的问题。现在,这类检索工具中一些投人较大而有相当规模者,也要求推向市场 ,作为第三产业经营管理,因而也要面临市场竞争。

5.2有效服务是增强网络信息检索工具竞争力的核心

网络信息检索工具竞争取胜的主要标志是拥有更多的用户,提高检索工具的声誉和权威性。用户数量及他们对检索工具的评价是关键。

一个网络信息检索工具实际上有两部分用户一部分是希望利用检索工具获取信息以解决自己问题的用户(这是在明面上的用户),一般为其免费服务,但也有少数项目可以收费;另一部分是希望利用检索工具传播自身信息的用户(这是在其背后的用户),其中多数用户要付费,是网络信息服务机构收益的主要来源。但这两部分用户都很重要,缺一不可,而且互相影响。很明显,一个用户很少、声誉不高、没有权威性的网络信息检索工具,它的各种收入是不可能很多的。

用户数量的增长和声誉的提高来自于有效的服务,特别是对希望利用检索工具获取信息以解决自己问题的那一部分用户的有效服务。有效服务是增强网络信息检索工具竞争力的核心。有效服务是以 网络信息检索工具的各种竞争力要素为基础的。

5.3网络信息检索工具竞争力诸要素

(1)检索工具对服务对象的适应能力

(2)覆盖率和信息量

(3)标引深度和标引准确率

(4)检索功能的多样性和高效性

(5)数据库提供信息的时效性

(6)检索工具的易用程度

(7)导航服务、文献数据库服务、具体信息发布传递服务相结合

(8)特色服务项目

(9)注重中国特色

(10)减负原则的贯彻

(11)联合经营

(12)价格策略

网络信息检索工具的研究具有非常重要的意义 , 随着信息技术和新一代因特网的发展 , 它的研究和应用也将迈上一个新的台阶 , 我们期待着网络信息检索工具的发展为网络信息资源检索带来一个美好的明天。

参 考 文 献

[1 ] 彭丽喃。专门、专业网络检索工具研究 [J ]。现代情报 , 2004 ,(1): 89— 90.[2 ] 王相华。网络信息检索工具发展现状及趋势 [J ]。今日科技 , 2002 ,(8): 27— 29.[3 ] 高凡。基于关键词的网络信息资源检索 [J ]。情报杂志 , 2003 ,(11): 90— 92.[4 ] 张彦洁 , 张向华。网络信息资源的检索方法和技巧[J ]。现代情报 , 2003 ,(6): 22— 24.[5 ] 谌新华。网络信息资源搜索方法 [ J ]。现代情报 ,