冲浪指南:Web搜索全攻略 “大海捞针”这一成语被用来形容在非常大的范围内毫无线索、徒劳无益地寻 找某个几乎不可能找到的东西。要在网上寻找特定的信息,如果没有使用合适的工 具和适当的方法的话,用“大海捞针”来形容它可谓毫不夸张。 网上的人们大都已经知道使用搜索引擎来快速筛选网址和内容以避免无谓的劳 动。然而问题似乎并不那么简单。使用搜索引擎仍然存在问题: 其一、面对数以百计、各具特色的搜索引擎,应该如何选择? 其二、Web是一个巨大的信息宝库,即使是世界上最大的搜索引擎HotBot也只对 Web上大约三分之一的网页建立了索引。仅次于它的Alta Vista只覆盖了28%。其它 有些著名的搜索引擎甚至只涉及了不到10%。所以,即使选择了适合目的的搜索引 擎,还是有可能错过目标。 怎样解决这些问题呢? 那就是:使用合适的方法、选择适当的工具。 关键字目录 这类搜索引擎生成它扫描过的网页上的所有文本的搜索目录。Alta Vista、Ho tBot和Lycos等搜索引擎属于此类。通常搜索引擎会读取页面开头的数百个单词,包 括标题、页面中图象的ALT属性文字(当关闭了图象自动显示功能或图象尚未下载完 毕时,浏览器显示的关于该图象的说明文字)以及页面设计者嵌入页面结构里的任 何关键字或描述。然后,搜索引擎会忽略HTML原始代码、JavaScript命令之类的东 西,并丢弃\"and\"、\"the\"、\"by\"、\"for\"等与搜索无关的词。对于剩下的所 有单词,搜索引擎假定它们都是合法的页面内容,并将它们按照字母顺序排列好, 并连同对应的网址放入一个搜索目录之中。 这种类型的搜索引擎不对网页文本的内容进行分析,只是根据单词在网页文本 中的位置和出现的频度来决定其所在网页在包含同一单词或意义相似的单词的所有 网页中的排列级别。举例说,当您搜索单词Pentium时,一个用\"Pentium\"作为标 题的网页在搜索结果中的级别将高于标题中没有\"Pentium\"的网页。类似地,一个 在正文中出现了20次\"Pentium\"的网页会排在只出现了一次\"Pentium\"的网页的 前头。 关键词索引的特点是检索速度快、覆盖面广。通常在数秒钟内便可以生成搜索 结果,比其它种类的搜索引擎都快。但由于它的工作原理所决定,如果不仔细设计 查询表达式的话,您很有可能会被淹没在堆积如山而又毫无用处的查询结果之中。 主题目录 世界最著名的搜索引擎Yahoo,以及Galaxy、NetGuide等,就象是Web的卡片目 录一样。它们根据网页的内容来将网址分配到特定的主题目录。这种分类方法通常 有人工判断过程的介入:有的是雇用专门的工作人员从事网址的分类工作;有的允 许网站拥有者对他们自己的网站加以归类或进行类别描述;有的则干脆邀请随机的 网站访问者来对网址进行分类。 这种分类方法的好处是显而易见的:网址经过人工预先分组,比前面介绍的比 较粗糙的关键词索引更易于浏览。此外,人工生成的主题目录比计算机生成的关键 词索引更加精细入微,而且它不仅可以告诉需要的信息在哪里,还可以告诉信息质 量的高低。 不过,在这一领域里,人类的工作效率远远比不上计算机,所以人工生成目录 的的广泛性和时效性无法与计算机抗衡。此外,人类的分析判断带有主观性。如果 思路碰巧与网址分析归纳者的思路合拍的话,这些主题目录可能会对您具有巨大的 价值;但假如情况相反,您会对它们感到牵强和不可捉摸,人们精心分析和归纳的 数据与您的需求风马牛不相及。 原搜索引擎(Metasearch engines) 原搜索引擎允许您同时搜索若干个数据库和搜索引擎,有的甚至可以向您提交 单一的、集成的、分级排列的搜索结果清单。Dogpile,Inference Find和MetaCra wler属于此类。 原搜索的主要优点是方便、涵盖面广:通过它能够同时运用多个搜索引擎的搜 索能力来实现搜索,这比一次只能访问一个搜索引擎方便得多。不仅如此,多引擎 同时搜索使得您能够比单一引擎搜索查找更多的网址。 原搜索也有缺点。由于它要借助于别的搜索引擎,所以它通常使用比较低级的 通用搜索特性。不同的搜索引擎解析查询表达式(对此后面有更多介绍)的方式不 同;处理大小写字母的方式不同;有的允许自然语言查询而有的不允许。为了借用 尽可能多的搜索引擎,原搜索通常只使用简单、直接的搜索策略,这样就很难甚至 不能利用每个搜索引擎的特色功能。假如您的需求比较一般化,用原搜索引擎会有 很好效果。但假如您需要更精细的搜索结果,原搜索并不合适。 取长补短 以上对搜索引擎的分类,有助于简单了解搜索引擎的工作原理和特性。然而在 实际应用中,不同类型的搜索引擎之间却不是界线泾渭分明、老死不相往来。为了 克服自身的弱点,所有的主要搜索引擎都已在提供其它类型的搜索引擎的服务作出 了有益的尝试。 以世界第一主题目录搜索引擎Yahoo为例,它现在让您可以从它的网页里启动A lta Vista-最好的关键词索引之一;它也允许您直接访问Vicinity的在线商业目录, 以及Four11的e-mail地址\"白页\"(http://www.four11.com)。同样地,Alta V ista让您使用LookSmart的主题搜索和Switchboard(http://www.sw-itchboard.c om)提供的e-mail目录搜索来增加它自己的关键词索引。这些事例表明:搜索引擎 的相互集成、取长补短是今日Web的特点之一。 随着搜索引擎之间的不断相互融合,许多网站现在都在鼓励用户使用“高级搜 索”特性和别的特性。比如说,HotBot的\"超级搜索\"就是一种用非常简单的基于 Web表格和菜单建立复杂的查询表达式的极其便利的方法。另外,Alta Vista也提供 一种免费服务,只需单击鼠标,便可将它的数据库里存储的页面翻译成其它五种语 言中的任何一种。有的网站,其中包括Excite和Yahoo,现在甚至具有搜索页面个性 化功能。 所有这些表明了在搜索引擎上所发生的巨大变化。假如在一年前,当您要搜索 Web时,您脑海里出现的第一个问题通常是:\"我从哪里开始呢?\"而其答案取决于 您是想寻找一个网址,或是一个e-mail地址、一只股票的历史数据还是某日的天气 预报。但是在现在,由于搜索特性的集成化,如何开始搜索显得比从何处开始搜索 更为重要。 尽量使用“高级搜索”选项 如果您已把您喜欢的搜索引擎的主页用书签做了标记,那么请把书签指向对应 于搜索引擎网址的高级搜索功能的的页面吧。这些高级选项在默认值、灵活性、定 位精确性等方面都优于普通搜索功能(但要注意的是,它们通常位于别的独立网址 并且有着不同的名称。)比如说,如果您用Alta Vista的普通搜索功能查询类似于 Windows 98 Setup之类的词组,Alta Vista会在经过冗长的查找后提交一个超过2百 万个网页的清单!而如果您使用它的高级搜索完成同样的查询,它会返回26个文件, 每个都很切题,而且无须您多费事。这就是先进搜索功能的魅力所在! 精心构建查询表达式 仔细构建您的查询表达式非常之重要。在搜索引擎中构造表达式一般都很容易, 然而设计一个好的表达式以多快好省地实现查询却需要细心和技巧。所有的重要搜 索引擎都有自己特有的个性、技巧和捷径,不过幸运的是,我们仍然可以归纳出一 些能够节约您宝贵的时间并使用于大多数搜索引擎的技巧。请注意,象我们在前面 所建议那样,让我们从搜索引擎的高级搜索功能开始起步。 一般来说,尽量使用多个而不是一个或少许单词。比如说,如果您想查找有关 控制Java语言的法庭辩论的信息,查找\"Sun Microsoft Java Suit(Sun Microso ft Java诉讼)\"会比简单地查找\"Java\"一词得到多得多的相关信息。如果您确实 需要构造一个单词的查询表达式,则应当避免那些词义比较广泛的词,如Windows, shareware(共享软件)或news之类。 不要使用自然语言,即使搜索引擎宣称它可以处理自然语言。也许搜索引擎会 允许您输入象“Pleasetell me about all the sites that discuss the capabil ities of alternate CPU chipset(请告诉我所有讨论关于可供选择的CPU芯片组性 能的网址)\",但您得到的很可能是有关那些意义并不相关的单词如\"site\"或\" discuss\"的结果。自然语言太复杂,不容易解析,所以使用尽可能简单的查询语言 效果会更好。在上面的例子中,只需要输入\"alternate CPU chipsets\"就可以了。 在查询一个目标单词时,不要忘记查找它的同义词。举例说,如果要查找关于 计算机主板的信息,除了查找“motherboards\"外,查找主板的两个同义词\"main board\"和\"planar\"也会有用。同样地,\"harddrives(硬盘)\"有时被叫做\"W inchesters\"或\"hard files\",等等。为了方便用户,有的搜索引擎甚至特别为 此提供在线的同义词词典。 注意同时查找目标单词的常用变形,如单数形式、复数形式、大写和小写形式 等等。如果查找复合词,还可以尝试一下把单词分开形成词组进行搜索。比如说, 把“motherboard\"变为\"mother board\"。在使用多单词表达式时,用双引号把单 词括起来(\"mother board\"),这样搜索引擎会把它们作为词组对待。 了解计算机的用户都知道,成千上万的网页中都含有“NT\"或\"3D\"之类的数 字或字母。当您必须查询字母或数字时,引号也非常有用处。您可以想一想有多少 英语单词里包含了\"nt\"这两个字母吧!所以当您查询这些类型的项目时,要注意 把它们放在引号里的词组中,如\"Windows NT 5.0\"或\"3D graphicsboards\"。 当逻辑表达式不奏效时 人们常常使用逻辑表达式来对多个查找项目加以组合或限制。所以这个小标题 显得有点异端,似乎对逻辑表达式不恭。但是这里仍然要告诫您:尽量不要使用简 单的逻辑表达式。因为有一些更好、更明白的方法来构造您的查询表达式,通常您 并不需要用逻辑表达式来进行搜索。事实上,布尔搜索应当到万不得已的情况下才 使用--但这种情况很少发生。 这并不是说布尔逻辑晦涩难懂--实际上它非常简单,只使用AND、OR、AND N OT(或只是NOT),有时还有NEAR,等几个逻辑关系符来比较和筛选数据组合。举例 说,如果您搜索Windows ANDmagazine,您会得到既包含单词\"Windows\"又包含单 词\"magazine\"的所有页面。而搜索Windows ORmagazine则会得到包含\"Windows\ "的页面和包含\"magazine\"的页面,显然会比前者多得多。而WindowsAND NOT ma gazine则会向您展示提及\"Windows\"但没有提及\"magazine\"的页面,规则其实非 常简单,对吗? 问题在于,不同的搜索引擎用不同的方式理解同一个布尔表达式。有的按照从 左到右的顺序解析表达式,依次进行布尔运算。但别的引擎则定义了它们自己的运 算符优先级。比如AND的级别高于OR,这就使情况变得扑朔迷离了。 假设您想寻找提及Wintel联盟之中的任意一家--Microsoft或者Intel同时又 提及IBM的所有网址。您可以这样构造查询表达式:Microsoft OR Intel AND IBM。 这在采用从左到右分析逻辑表达式的搜索引擎工作会完全正常。在这种场合,查询 表达式与右边的表达式等价:(Microsoft OR Intel)ANDIBM,会查到既提到\"Mi crosoft\"又提到\"IBM\"的网页和既提到\"Intel\"又提到\"IBM\"的网页。但分配 了布尔运算优先权的搜索引擎则可能将同一个查询表达式翻译成这样一个等价表达 式:Microsoft OR(IntelAND IBM)。这样您会得到完全不同的查询结果:包含\" Microsoft\"的网页和既包含\"Intel\"又包含\"IBM\"的网页。 这就是不同的搜索引擎可能对于看起来完全相同的表达式返回截然不同的查询 结果的原因之一:在搜索引擎内部,它们翻译查询表达式的方式各相径庭。 简化布尔运算符 假如您必须使用布尔运算符的话,可以通过使用括号来避免发生混淆,就象前 面介绍的那样。这样虽然比直接键入简单的布尔字符串要显得稍许复杂一点,但它 使您能够准确表达运算项和运算符之间的关系。通过括号的使用,您可以构造非常 复杂同时结构非常明晰的逻辑搜索表达式。比如说,要查找含有“Microsoft\"、\ "Mr. and Mrs. Gates\"和\"Microsoft VP Steve Ballmer\"等信息的文档,您可以 使用这样的高级查询表达式:Microsoft AND(((Melinda OR Mrs.)NEAR Gates) AND((Bill OR William)NEAR Gates)AND((Steve OR Steven)NEAR Ballmer))。 这么多的括号看起来有点烦人,是不是?没关系,许多搜索引擎允许您简单地 使用加号(+)和减号(-)来实现类似布尔运算的操作:加号表示它后面的单词 必须出现在文档中,而减号则相反,表示它后面的单词必须不出现在文档中。它们 分别相当于逻辑操作符AND和NOT,简化了使用OR、操作优先级和括号带来的复杂性。 请看这个例子:搜索表达式+Borland+Kahn返回提及\"Borland\"(美国著名 软件公司,现在叫做Inprise)和它的前首席执行官Philippe\"Kahn\"的所有网页; 而搜索表达式+Borland-Kahn则只返回提到\"Borland\"但没有涉及\"Kahn\"的网 页。 搜索没有被覆盖的Web 不管您相信不相信,Web搜索就是这么简单:从通用的搜索引擎开始;然后过渡 到一个独立搜索引擎的高级搜索功能;仔细构造您的查询表达式。如果您要寻找的 东西位于Web中已经过检索的部分的话,您一定会找到它。 然而问题并没有彻底解决。根据一项发表在《科学》杂志(Science,http:// www.sciencemag.org)上的最近的研究表明,搜索引擎只能涵盖整个Web的60%,而 人类却了解它的全部。那么,如果我们的搜索主题位于Web中没有被检索到的部分, 或者不在Web之中,我们又该怎么办呢?在这种情况下,您还可以通过新闻组(Use net)求助于网上的人们。因为因特网上成千上万的新闻组里讨论的问题几乎涵盖了 任何想象得到的主题。况且,即使您还找不到您需要的东西,您在网上大有机会遇 上能够帮助您寻觅到您孜孜以求的东西的人。 如果Web和Usenet都没有您寻求的信息,还有两个免费网址可以把您连接到几乎 任何种类的信息内容,那就是Beyond General World Wide Web Searching(http: //www.lib.berkeley.edu/TeachingLib/Guides/Internet/BeyondWeb.html)和Lib rarian\'s Index to theInternet(http://sunsite.berkeley.edu/InternetInde x)。这两个网址都是由伯克利的加利福尼亚大学建立的,信息资源极为丰富。 其它还有一些网址,如Inquisit和Northern Light,对商业用户提供专业性的 有偿搜索服务。Inquisit提供一种类似于\"推\"技术的Web搜索:它让您定制接入许 多新闻服务和商业杂志的查询表达式。Inquisit的搜索引擎收集查询结果,并将它 们自动投寄到您的e-mail信箱。Northern Light则可以帮助您从那些无法在Web上 访问到的超过2百万个商贸期刊和专业数据库中收集信息。 结束语 Web宛如一个浩淼无垠的信息海洋。但如果您掌握了今日先进的Web搜索工具和 正确的搜索技巧,一切又尽在您的指间,唾手可得。