中文搜索引擎的十大誤區
-
騰虎網絡:2010-03-24 閱讀數: 分享到:
誤區1、網站目錄就是搜索引擎 網站目錄通常是經過人工分類的有系統的網站列表,通常附帶有搜索功能。網站目錄就是搜索引擎的名詞始于雅虎,雅虎初創時就是只有一個網站目錄。當然很快就通過外包的形式增加了網頁級的搜索。中文網站提供目錄搜索的遠多于提供網頁搜索的,加之媒體的各種炒作,許多網民誤以為網站目錄的搜索功能就是搜索引擎。 在美國,因特網搜索引擎通常指的是收集了因特網上幾千萬到幾億個網頁并對網頁中的每一個詞進行索引的搜索服務系統,是基于網頁的全文檢索系統。 誤區2、搜索引擎就是門戶站點 如果你要提供搜索服務,大家就認為你是一個門戶網站,你就要吸引用戶、提高頁視率(PageView)。實際上,搜索引擎完全可以為內容提供商(ICP)、門戶網站提供專業的搜索服務,而不必直接面對用戶,這是一種典型的應用服務提供(ASP)模式。 誤區3、搜索引擎的概念已經過時 搜索引擎是互聯網上更先商業化的一個應用服務,它對于幫助網民快速尋找到所需要的信息非常關鍵。因特網搜索引擎是一個全自動的軟件服務,并且非常容易在搜索結果網頁中插入具有很高針對性的廣告,CPM 更高可達70美元;所以一旦投入運轉,其收益與成本的比率遠高于一般的網站內容服務。根據中國互聯網信息中心(CNNIC)2000年1月的統計結果,在中國網民中,搜索是排在電子郵件之后的第二大互聯網應用。 誤區4、中文搜索引擎技術已經成熟 不要說中文,即使英文的搜索引擎也沒有發展成熟。這一方面表現在新的搜索引擎公司層出不窮,如Google, Ask Jeeves等;另一方面更表現在美國前三大網站都外包了它們的網頁搜索部分。實際上,美國在線、雅虎和微軟網絡的搜索服務都是由一家叫Inktomi 的公司提供的。這是因為搜索引擎技術變化非常快,這些網站無法自行跟蹤更前沿的技術。之所以有人會有搜索引擎技術已經成熟的概念,其實是因為網站門戶公司意識到了它們的長處并不是搜索技術的創新,而是互聯網上大眾品牌的建立。 中文搜索引擎技術出現的時間并不比英文的晚多少,然而發展速度卻遠遠趕不上英文,這是由于網頁級搜索引擎的開發難度相當大,該方面的專業人才奇缺,有開發這種搜索引擎經驗的人,即使在硅谷也屬鳳毛麟角,開發所需要的硬件要求也比一般的網頁制作高出很多。百度公司結合硅谷搜索引擎人才精英,依托北京更優秀的軟件人才,開發了大型商業化的中文搜索引擎,中文搜索從此與英文站在了同一起跑線上。 誤區5、中文搜索引擎速度很慢 某些中文網站的網頁搜索服務外包給了一些服務器在境外的應用服務提供商(ASP),如AltaVista或Openfind等,由于用戶搜索需要占用出國帶寬,因而速度極慢。這不是中文搜索引擎的錯,而是這些網站沒有選對ASP 所致。 誤區6、中英文混合檢索詞是不被支持的 當你輸入“MP3” 時,有些網站會認為你在查找英文網頁,進而自動將你送到一個英文搜索引擎上;更多的網頁搜索服務不能對“甲A”、“F-1一級方程式”等中英混合查詢作出恰當的反應。然而搜索技術并非對此無能為力,百度搜索就完全解決了中英文混查的問題。 誤區7、中文搜索引擎的相關性無法與英文相媲美 中文與英文更大的不同之處在于中文中有詞的概念,檢索字串與網頁中文字的簡單匹配并不見得就是語義上的匹配;要想提高中文搜索的相關性,必須結合中文詞和中文字,并使用一些先進的算法,如新一代信息檢索(IR)算法、超鏈分析(Link Analysis)等。中文搜索也有許多英文搜索望塵莫及之處,如中文網頁極少有針對搜索引擎的欺騙(Spamming)行為,中文沒有單復數、時態等的變化,大多數先進的算法也完全適用于中文。中文搜索的相關性完全可以與英文媲美。百度搜索使用了目前國際上先進的搜索引擎技術,并結合中文的語言特點和文化特點,成功地解決了中文搜索的相關性問題。 誤區8、用戶要找的信息在網上不存在 目前大多數的中文搜索引擎都收集了較少數量的網頁,收集上百萬的就算是信息量很大了;可是隨著中國互聯網的繁榮、政府、企業和各行各業對互聯網的重視,以及大量風險投資的進入,中文互聯網的內容益豐富,網頁數量激增。另外很多搜索引擎不支持新的中文編碼標準,如“GBK”例如“朱櫧基”的“櫧”字不在GB2312的字符集中,但是卻在GBK編碼中可以找到,許多搜索引擎由于不支持GBK,因而用“朱櫧基”無法找到有關的網頁。所以許多網上存在的信息在當前的主要搜索引擎中無法找到很可能是因為您用的搜索引擎不好,而不是因為您要找的信息在網上不存在。 誤區9、搜索引擎數據更新更快要30天 對于那些依靠海外服務器提供檢索的網站來說,這也許是對的;網易掌門丁磊辭職的消息傳出后的三個星期內,各大門戶網站的網頁搜索服務都無法查到任何相關的網頁。但這絕不是說及時更新數據是做不到的。百度搜索就巧妙地解決了數據更新的瓶頸,整個中文網頁的數據庫可以更快每天更新一次。 誤區10、搜索引擎不能查找動態生成的網頁 目前世界上沒有一家主要的搜索引擎支持動態網頁,因為大多數負責搜索網頁的蜘蛛軟件不敢去碰動態網頁,怕被變化無窮的動態系統黑洞吸進去出不來。然而,網站使用動態網頁生成工具乃是大勢所趨,ASP、PHP、JSP等編程工具益流行,解決動態網頁查找的問題已經是人心所向。百度在這一方面又在國際互聯網界首開先河,成功解決了動態網頁的收集和索引問題,用搜索引擎來查找動態生成的網頁已經不是神話。