360推搜索,百度股價應聲下跌,業(yè)界震動,為此作者從4個角度對360搜索進行分析,并做出預言。
這篇文章,我盡可能回避專業(yè)的技術,盡可能用通俗的語言給大家分析一下360等搜索,如有不當之處,請勿見笑。
一、周鴻祎的搜索情結
軍事上可以從一個統(tǒng)帥的性格,來判斷他可能的指揮方式。同樣,從一個企業(yè)的產品、企業(yè)運作,我們可以看到一個企業(yè)領導人的性格,從而從這個性格又可以進一步推測他下一步可能的行動。
360最近推出了搜索,這個徽劍我在07年的時候就說過,我說周鴻祎早晚還會做搜索,因為他不是那種愿意做最原始的信息貢獻的性格,而是喜歡整合資源,或者說投機取巧的人。無論是早期的3721,還是后來奇虎聚合等,都可以看到這點。
周鴻祎其實是有很強的搜索情節(jié)的,因為他的第一桶金就來自一款搜索產品—3721,盡管后來這款產品被人評價為流氓軟件,但是不可否認一點,那就是在中國互聯(lián)網普及的階段,對于大批連com和net是啥都分不清楚的人來說,3721讓他們使用熟悉的中文就可以在網上暢游了。
當初3721是這么宣傳的:“3721公司提供的中文上網服務――3721“網絡實名”,是第三代中文上網方式,用戶無需記憶復雜的域名,直接在瀏覽器地址欄中輸入中文名字,就能直達企業(yè)網站或者找到企業(yè)、產品信息。”但是在網絡上3721被稱為是最大的流氓軟件之一,現(xiàn)已停止運營。
“3721網絡實名插件由奇虎公司現(xiàn)任董事長周鴻祎一手創(chuàng)辦,它通過地址欄實現(xiàn)中文搜索。2003年11月,雅虎1.2億美元收購3721公司,該軟件更名雅虎助手。2005年10月,阿里巴巴宣布完成對雅虎中國全部資產收購,3721業(yè)務隨之并入馬云手中。2006年,互聯(lián)網業(yè)內掀起“反惡意軟件”的熱潮,周鴻祎率領360安全衛(wèi)士成為反惡意軟件先鋒,曾經由他一手創(chuàng)辦的3721軟件(雅虎助手)則成了他“圍剿”的重點目標之一。當年9月,阿里巴巴宣布投資1億元繼續(xù)開發(fā)與推廣雅虎助手,但隨后并未看到有實質的市場舉動。”這是網上對3721的一段描述。
3721最大的爭議,就在于他的傳播方式,還有安裝后排斥競爭對手、獨占用戶電腦的網絡查詢接口的技術手段。3721雖然給那些菜鳥網民提供了極大的方便,但是對于那些掌握一定技術能力的熟練網民,還有就是被3721所干擾的競爭對手,都會采取各種手段針對3721。從而使得3721在幾年后變得越來越被更多的人所排斥。
當年的3721一出來,采用的是利用WINDOWS 98的系統(tǒng)漏洞,用病毒的方法進行傳播,在短期內就積累了海量的用戶。有人曾經問過徽劍“你覺得中國最大的黑客是誰?”我當時回答“我也許不好說中國技術最牛的黑客是誰,但是我可以肯定周鴻祎是商業(yè)上最成功、規(guī)模最大的黑客。別的黑客只能賺點小錢,他可以通過病毒等黑客手段賺到以億來計算的財富”。
當然,時過境遷,我們今天再來評價3721已經有些過時,下面就讓我們來看看360的搜索吧。
二、搜索的技術門檻
最原始的搜索,就是建立在數(shù)據(jù)庫基礎上的關鍵字匹配,后來進一步延伸到所謂模糊查詢、統(tǒng)計分析、知識發(fā)現(xiàn)等系列技術的應用。因為搜索,可以讓網民從海量的信息中找到他需要的資源,減少了他挨個去查找的時間,提高了他的使用效率,從而使得今天的網民,在上網的時候,已經無法離開搜索。
很多人把搜索看的神乎其神,其實根本沒那么復雜。只要一個會做網頁的技術人員、一個懂得存儲應用開發(fā)的技術人員、一個對C或者C++開發(fā)TCP/IP應用比較熟悉的技術人員、一個對索引檢索開發(fā)熟悉的技術人員,就可以組成一個搜索引擎開發(fā)團隊。
1、會做網頁的,去做跟用戶對接的那部分。
2、懂得存儲應用開發(fā)的技術人員,負責搭建存儲系統(tǒng),一個最簡單的方式,就是搭建一批服務器,每個服務器分門別類,比如A組服務器負責存儲新聞,B組服務器負責存儲娛樂等。再細分下去,A1服務器負責存儲人民網的,A2服務器負責存儲新華網的,B1服務器負責存儲李宇春的信息、B2服務器負責存儲周杰倫的信息等等,如此類推,
3、對C或者C++開發(fā)TCP/IP應用比較熟悉的技術人員,就可以開發(fā)一個所謂“網絡蜘蛛”的爬蟲程序,其實說白了就是一個“離線下載”工具,下載下來后,對頁面里面的鏈接進行分析,繼續(xù)不停找新的來源。
4、對索引檢索開發(fā)熟悉的技術人員,負責對抓下來的文本做進一步分析,利用單詞和短語庫,對文本進行分析,按照存儲服務器的配置,把不同的信息,存儲到對應的服務器里面。同時他還需要和1合作,對于網頁上用戶提出的查詢要求,他要做出文本分析,然后導引到指定服務器上調出相應結果。
[!--empirenews.page--]
以上就是一個搜索引擎的技術的大致體系,當然,實際中的搜索引擎,遠比這個復雜。區(qū)別就好比鉆天猴的煙花和火箭的那么大。但是基本的架構原理還不會變化的。其實我們都知道,很多時候,理論很好明白,但是實際做起來會在細節(jié)上面臨大量問題。那么這里有哪幾個地方會比較難呢?
依照徽劍我對搜索引擎技術差不多十來年的關注,我總結出搜索引擎技術的兩大門檻:
第一個門檻:海量的數(shù)據(jù)搜集和存儲,
第二個門檻:搜索結果的優(yōu)化
下面分別表述:
第一個門檻:海量的數(shù)據(jù)搜集和存儲,因為搜索引擎需要查詢大量的網絡數(shù)據(jù),并且把這些數(shù)據(jù)抓回爬蟲服務器,在做進一步的處理,最后存儲在自己的存儲系統(tǒng)里面,對于大多數(shù)搜索引擎的來說,更多是通用查詢,也就是“亂查一氣”,你不知道上億網民會通過你的網頁接口,提交什么樣的查詢關鍵詞。所以你只能盡可能多的搜集各種信息,以備不測。
這這個海量數(shù)據(jù)的搜集就需要大量的爬蟲服務器、還有大量的時候去處理。問題在于不光是搜集過來,這邊還得儲存,這就需要大量的存儲系統(tǒng),說白了就是需要海量的硬盤。你想想,你要把差不多整個互聯(lián)網上的各種網站的數(shù)據(jù)都要抓一部分,甚至全部。這數(shù)據(jù)量多大可想而知。
第二個門檻:搜索結果的優(yōu)化,這個就涉及到好幾個方面,一是存儲系統(tǒng)的數(shù)據(jù)檢索需要做到快捷方便,需要定期對搜索行為做出分析,對于不同熱度的查詢數(shù)據(jù),用不同優(yōu)先權的緩存服務器來處理。二是對網民查詢內容的優(yōu)化,很多時候,網民在查詢時,并不能很好的表達他的意思,所以如何去理解,給出盡可能近似的結果,是非常關鍵的事情,打個比方,用戶搜索張柏芝,也許是要找謝霆鋒相關的,也可能是要找跟陳冠希相關的。三是存儲時要對網頁進行語義分析,如何準確識別一個網頁的主要內容,還有這個網頁在網絡上的價值,比如是不是第一個發(fā)布的?是不是有跟類似網頁區(qū)別的?等等,這些都需要做很復雜的工作。
目前而言,搜索引擎更多集中在文本或者說字符搜索上面,諸如圖片識別和語音識別、視頻識別,目前都在研究,也取得了一些進展,但是很遺憾,因為識別的效率、成本等原因,短期還無法在非專業(yè)領域有多大的應用。所以有關這方面的,這里就不一一贅述。
三、360搜索的基礎
百度做搜索引擎已經差不多十年了,在這十年間,百度建立起一個極其龐大的海量數(shù)據(jù)系統(tǒng),這個系統(tǒng),儲存了海量的中文互聯(lián)網上的各種數(shù)據(jù),基本上可以認為,百度存儲了一個中國互聯(lián)網的鏡像。通過這個數(shù)據(jù)系統(tǒng),百度能夠為網民提供非常詳細、完備的網上數(shù)據(jù)信息。
那么對照下360,這些年來,360即使有意開發(fā)一套自己的搜索引擎系統(tǒng),充其量也就是開展技術研究,掌握一整套搜索引擎的技術架構,但是360沒有辦法建立像百度那么龐大的數(shù)據(jù)系統(tǒng),因此360搜索檢索到的數(shù)據(jù)是不完善的,或許過幾年360能夠盡可能接近百度的數(shù)據(jù)量,但是現(xiàn)在不行。
這種建設不光是時間,還有金錢,徽劍我可以毫不客氣地肯定,百度的存儲系統(tǒng)的硬件造價,肯定遠遠超過了360公司的市值。
其次,更為關鍵的是,百度做了這么多年的搜索引擎,對于中國網民的檢索習慣等,有了極其豐富的了解。這種了解,不僅僅是建立在一般的技術優(yōu)化上面,更多是可以建立一整套完善的人工干預體系。
也許有人不明白為啥需要人工干預,道理很簡單,因為計算機無法基于語義分析,而網民使用搜索引擎的時候,是按照他的個人意識來檢索的,因此搜索引擎檢索出最接近語義的結果,就成了一個非常迫切的任務。因此這個時候,建立在基于統(tǒng)計結果的數(shù)據(jù)基礎上,通過對于數(shù)據(jù)做出的知識發(fā)現(xiàn),然后再結合人工輔助修正,就可以得出更加完美的結果。
如果有人對上面這段話覺得不好理解,那么大家可以去看看百度和谷歌的搜索結果,你會發(fā)現(xiàn)一個有意思的現(xiàn)象,越是精確性的檢索關鍵詞例如科技等方面內容,谷歌做的比百度更準確,越是跟社會生活領域接近的內容,百度能夠讓使用者找到更多相關的有效信息。其實這個現(xiàn)象告訴我們,百度的人工干預遠遠多于谷歌,徽劍我的定義是:百度是社會學系的,谷歌是數(shù)學系的。
以上的優(yōu)勢,360即使高薪聘請頂級搜索引擎開發(fā)工程師,他也無法在短期內追上百度。如果說跟百度相比,360的優(yōu)勢在哪里呢?
如果僅僅從搜索的角度看,360的系列軟件,特別是瀏覽器有海量的安裝用戶,瀏覽器本身就是互聯(lián)網的入口,360可以利用瀏覽器上嵌入的導航頁面和搜索框,使得用戶默認選擇360搜索引擎。這就是360可以驕傲的資本。
除此以外,別無其他。
[!--empirenews.page--]
四、360搜索可能的幾種方向
那么360搜索的瀏覽器優(yōu)勢又會有多大?
很多人都在說,360有瀏覽器,所以360的搜索肯定可以做的很好,那么徽劍要反問一句,微軟還有操作系統(tǒng)呢,那么他的BING做得如何呢?網民使用搜索引擎,其核心在于他能不能通過這個搜索引擎,找到他想找的東西,如果他試過幾次,發(fā)現(xiàn)找不到或者不是很好找,他就不會用的。就像bing這樣所有WINDOWS系統(tǒng)上都裝了,但是大多數(shù)中國的網民還是不會去用,為啥?答案很簡單,因為BING提供內容,無法像百度那樣滿足普通網民的需求。
那么有人會問360搜索會如何發(fā)展呢?徽劍我把看可以分為這幾個部分:
第一,利用360瀏覽器的搜索入口,從而帶來巨大的入口數(shù)量眾所周知,360瀏覽器在國內目前有較大份額,因此利用瀏覽器上的導航網址和搜索接口,吸引用戶使用默認的360搜索,這個肯定是360的重點發(fā)展方向。從目前360搜索推出來的這幾天看,也是這樣運作的。
第二,調用其他搜索引擎的結果。前面分析了360搜索面臨的“累積”門檻,也就是說,因為360缺乏大量的儲備網絡鏡像數(shù)據(jù),因此不管360的搜索團隊技術水平如何,他們在短期內都會面臨無法向用戶提供足夠的數(shù)據(jù)困境。因此從技術角度看,最簡單的方法就是調用其他搜索引擎的檢索結果,就像當初SOSO跟谷歌合作,谷歌為SOSO提供檢索數(shù)據(jù)一樣。這幾天大家也看到了,360大量調用百度的數(shù)據(jù)。這種情況必然會導致雙方的版權沖突,不排除百度會采取技術手段對360服務器端的爬蟲進行屏蔽。
第三,干擾其他搜索引擎的發(fā)展,360搜索的發(fā)展必然面臨其他搜索引擎的競爭,但是短期內360又無法提供足夠優(yōu)質的搜索結果,那么怎么競爭?如同跑步比賽一樣,如果你跑不過其他人,你又想拿第一,怎么辦?一個最簡單的方法,就是讓其他人變慢。因為諸如360安全衛(wèi)士、360防火墻等占據(jù)了大量的用戶計算機,那么360完全可以對其他搜索引擎的結果展示頁面進行“安全”考察,可以采用的方法包括,利用360防火墻,干擾其他搜索引擎的數(shù)據(jù)包傳輸;利用360安全衛(wèi)士,對其他搜索引擎的結果向用戶報警,提示“有安全威脅”,從而實現(xiàn)干擾用戶的選擇。
第四,對于跟其他搜索引擎合作的網站等,采取諸如“提示警告”等方式,干擾用戶的選擇。這一招跟上面說的第三條做法很像,但是真對的是那些搜索引擎的客戶,比如對于百度的付費客戶,如果360安全衛(wèi)士等,在用戶檢索這些頁面時提出警告,從而干擾這些客戶的廣告行為,試想如果一個廣告客戶,因為在百度等上面投放廣告,網民訪問時,頻頻被提示有“安全威脅”,大多數(shù)菜鳥網民會如何選擇?
五、綜述:
多年前,我就成功預言了360的搜索引擎之路,今天我又對360搜索做出了幾項預言吧。
有人問360的搜索未來能做多大?徽劍我的回答是,跟搜狗爭老二,但是短期內,只能是老三的位置,不要看這幾天的數(shù)據(jù),因為360搜索的信息、用戶體驗等遠不搜狗,更不用說百度了。特別是周鴻祎的投機性格,始終讓我覺得他不是那種可以把一個產品做到長遠的人。
最關鍵是,我發(fā)現(xiàn)今天的360搜索,很多方面已經走上了3721的道路,所不同的是瀏覽器插件變成了瀏覽器等,下一步一些像前面說的那些手法,我覺得早晚必然會出來,一旦出來,必然會重蹈3721的覆轍。
更多雜談資訊盡在21ic網友雜談頻道