
手機(jī)配上攝像頭后,在最近十幾年的時(shí)間里,攝像頭的像素從30萬到100萬、200萬、500萬到1000萬,直至有超過2000萬像素的攝像手機(jī)的出現(xiàn);攝影功能日漸強(qiáng)悍的手機(jī)首先讓傻瓜相機(jī)銷聲匿跡,而家用數(shù)碼相機(jī)的市場也被日漸蠶食,岌岌可危。
像素越高,手機(jī)功能越強(qiáng)大,但是在手機(jī)像素越過2000萬門檻之后,各大手機(jī)廠商比拼像素量級的游戲玩不下去了。
在美國工作多年的資深視頻處理專家單記章告訴第一財(cái)經(jīng)記者,單個(gè)像素的尺寸從2004年的5.6微米,越做越小,現(xiàn)在已經(jīng)達(dá)到1微米的極限,在手機(jī)有限的物理空間里,靠擴(kuò)充像素提高圖像質(zhì)量基本上走到了盡頭。
攝像頭在硬件上碰到天花板后,要讓競爭持續(xù)下去,視頻技術(shù)公司開始在軟件和視頻數(shù)據(jù)處理優(yōu)化上為手機(jī)公司找到產(chǎn)品新的賣點(diǎn)。
攝像頭新舊事
攝像頭的運(yùn)用最早是在電腦上?,F(xiàn)任黑芝麻智能科技有限公司(下稱“黑芝麻”)CEO的單記章經(jīng)歷了攝像頭從電腦運(yùn)用到手機(jī)的完整周期。
“當(dāng)年,我們的產(chǎn)品上市了,從賣得不錯(cuò)到無人問津,不過短短幾個(gè)月的時(shí)間。”回憶起17年前在硅谷的工作經(jīng)歷,單記章很是感慨。
彼時(shí),單記章所在的Omnivision(豪威科技)正在嘗試將攝像頭放入電腦中,以供消費(fèi)者拍照并分享。
電腦攝像頭市場卻沒有預(yù)期的火熱。單記章告訴第一財(cái)經(jīng)記者,PC端攝像頭遭到冷落,主要是因?yàn)楫?dāng)時(shí)的網(wǎng)速太慢,照片無法傳出去、無法分享。“所以我們考慮轉(zhuǎn)戰(zhàn)移動(dòng)端。雖然速度也不快,但至少(手機(jī))是能傳出去的。”
2000年9月,日本手機(jī)制造商夏普發(fā)布了世界上第一款帶有攝像頭的手機(jī)J—SH04。而Omnivision正是這款手機(jī)的供應(yīng)商之一,雖然那時(shí)的攝像頭僅有11萬像素而已。
此后,市場逐漸被打開。單記章對比了當(dāng)時(shí)的出貨數(shù)據(jù),“之前的市場上,我們的出貨量只有1k+1k;后來就變成了一天3kk,一年相當(dāng)于十億顆。”(編者注:1k為一千,1k+1k是兩千,1kk是一百萬)據(jù)介紹,Omnivision曾在全球圖像傳感器市場占有高達(dá)40%的份額。
市場研究機(jī)構(gòu)IDC最新預(yù)計(jì),2017年,全球智能手機(jī)的出貨量將達(dá)到15億部,到2021年,預(yù)計(jì)將增長至17億部。
每一部智能手機(jī)基本上都有幾個(gè)攝像頭,僅僅手機(jī)對攝像頭數(shù)據(jù)處理的需求,就是一個(gè)無比龐大的市場,單記章選擇離開Omnivision,而當(dāng)年的中學(xué)同學(xué)劉衛(wèi)紅離開一家世界500強(qiáng)企業(yè),選擇與他一起創(chuàng)業(yè),圖像市場的巨大前景是至關(guān)重要的一個(gè)考慮因素。
攝像頭背后的圖像傳感器與應(yīng)用處理市場,并不僅僅是局限于手機(jī)領(lǐng)域。隨著人工智能產(chǎn)業(yè)的發(fā)展,從圖像的獲取、傳導(dǎo)到計(jì)算、理解、反饋,再到應(yīng)用層面的倉儲物流、智能駕駛,圍繞在攝像頭身前身后的生意模式正逐漸走來。
所謂的圖像感知,是人工智能的一個(gè)重要細(xì)分領(lǐng)域,是計(jì)算機(jī)對圖像進(jìn)行處理、分析和理解,來感知并識別不同的目標(biāo)。
第一財(cái)經(jīng)記者梳理發(fā)現(xiàn),在前端捕捉深度信息,后端處理并理解復(fù)雜數(shù)據(jù),最后反饋從而進(jìn)行決策,成為圖像感知產(chǎn)業(yè)活動(dòng)中的一個(gè)循環(huán)。
正是在這樣一個(gè)循環(huán)流程中,誕生了大量初創(chuàng)企業(yè),它們以自己掌握的硬件或算法為核心,提供軟件或軟硬一體化的產(chǎn)品,以期撬動(dòng)產(chǎn)業(yè)金礦。
平安證券發(fā)布的《人工智能圖像識別專題報(bào)告》顯示,截至2016年初,在所有AI領(lǐng)域的企業(yè)中,聚焦于圖像感知的公司數(shù)量總計(jì)有185家,僅次于最火的機(jī)器學(xué)習(xí)。而其截至2016年初的累計(jì)融資總額更是超過了11億美元。
和單記章一樣,敏銳的企業(yè)家們小心翼翼地打量著這個(gè)龐大的市場,試圖從各個(gè)垂直領(lǐng)域切入,尋找著更進(jìn)一步的可能。
從捕捉到理解
刷臉支付、機(jī)場自助通關(guān)、物流自動(dòng)分揀、無人駕駛等都是圖像感知技術(shù)快速普及的一個(gè)縮影。在這樣場景的背后,是越加成熟的技術(shù)和越發(fā)準(zhǔn)確的識別率。
據(jù)第一財(cái)經(jīng)記者了解,在ImageNet比賽的圖像識別中,對象分類項(xiàng)目的準(zhǔn)確率已經(jīng)從2010年的72%提升到了2016年的97%。那么,如此之高的準(zhǔn)確率是如何實(shí)現(xiàn)的呢?
無論是深度攝像頭、AI芯片,還是基礎(chǔ)算法、神經(jīng)網(wǎng)絡(luò),在圖像感知產(chǎn)業(yè)鏈上,一切都是為了兩個(gè)目的而服務(wù)的:更好地在前端捕捉深度信息,以及更準(zhǔn)確地在后端處理并理解數(shù)據(jù)。
“如果前面獲取的圖像壞了,或者糊了,那后方如何針對圖像進(jìn)行分析呢?”單記章問道。
的確,在圖像捕捉的過程中極容易受到外界的干擾與影響,較上述物流領(lǐng)域更為復(fù)雜的情況比比皆是,比如自動(dòng)駕駛:需要應(yīng)對山洞內(nèi)外的不同光信號強(qiáng)度、車身抖動(dòng)甚至極端的霧霾及雨雪天氣。“晚上很暗,雨飛來飛去、雨刷刮來刮去,這個(gè)時(shí)候怎么看清楚;大太陽照在攝像頭上,人眼都看不見,這個(gè)時(shí)候又如何判斷。這些都是圖像捕捉中的難點(diǎn)。”單記章表示。
此時(shí),就需要加強(qiáng)數(shù)據(jù)的預(yù)處理,其目的就是加強(qiáng)有用的信息,改善圖像質(zhì)量,便于對圖像進(jìn)行后期的處理分析。單記章透露,懸掛的攝像頭容易來回晃動(dòng),他們曾做過一個(gè)防抖的優(yōu)化方案,不僅增強(qiáng)了畫質(zhì),還提高了設(shè)備的使用壽命。
另一方面,相比前者捕捉圖像需要應(yīng)對各種突發(fā)因素,后者的處理分析看似更加簡單。但往往這種情況下的計(jì)算更為復(fù)雜。
單記章告訴記者,刷臉技術(shù)用人工智能、神經(jīng)網(wǎng)絡(luò)來做,識別率都能達(dá)到99%以上,很難出錯(cuò)。但是很多技術(shù)無法抵御蓄意的攻擊,比如讓機(jī)器判斷是真人、照片還是視頻或者模型。這時(shí)候,如何實(shí)現(xiàn)生物特征的判斷非常重要。
比如,當(dāng)開車遇到前方有物體時(shí),在判斷該物體的車道、速度、方向等因素之外,還需要判斷這是個(gè)路樁,還是輛車,或者是個(gè)人。“復(fù)雜環(huán)境下,需要對場景進(jìn)行理解,是人是車結(jié)果一定是不一樣的。”單記章稱。
超越硬件
“如何應(yīng)對不斷上漲的計(jì)算量是圖像處理中最難的部分之一。”圖漾科技副總經(jīng)理徐韜向記者透露,960P的深度攝像頭如果想要更進(jìn)一步做成1080P的話,換一個(gè)基礎(chǔ)攝像頭其實(shí)并不難,但精度的提高將導(dǎo)致計(jì)算量的大幅上漲,把握如此之高的計(jì)算量才是難點(diǎn)。
事實(shí)上,在圖像感知領(lǐng)域,硬件的難以突破由來已久,即便是在整個(gè)人工智能的發(fā)展歷程中,硬件的計(jì)算能力不足始終是制約其發(fā)展的瓶頸之一。可可資本合伙人李笙凱在接受第一財(cái)經(jīng)記者采訪時(shí)表示,雖然深度學(xué)習(xí)和GPU的利用對視覺硬件的處理計(jì)算能力有很大的提高,但怎么進(jìn)一步提高到可用的程度,市場上還始終沒有明確的解決方案。
單記章對此表示認(rèn)同,他認(rèn)為這是一個(gè)系統(tǒng)工程,一方面要提高硬件的計(jì)算能力,提高算法的適應(yīng)能力,同時(shí)也需要有創(chuàng)新的整體解決方案。他以不同時(shí)間開車為例,“在傍晚時(shí)太陽平射過來,攝像頭需要減少光強(qiáng)和炫光,而晚上又需要盡可能接受最多的光,還要解決對面大燈的照射問題,這里就需要結(jié)合光學(xué)、攝像頭和圖像處理技術(shù),在此基礎(chǔ)上采用機(jī)器學(xué)習(xí)的方法,才能從系統(tǒng)的角度更有效地解決端的計(jì)算能力不足的問題”。
另一方面,單記章認(rèn)為,現(xiàn)階段的很多硬件在物理上已經(jīng)達(dá)到極限,難以升級,比如圖像傳感器。“由于載體本身的大小限制,攝像頭需要做得很小,這就導(dǎo)致傳感器的感光點(diǎn)也越做越小。有人研發(fā)還在做0.9微米,但這個(gè)性能已經(jīng)很差了。靠這些東西提高也會有一定的空間,但是真的非常難。”
“圖像感知技術(shù)正處于發(fā)展階段,還有很長的路要走,比如軟件算法也還需要5——10年甚至20年的積累突破。”李笙凱對記者表示。他認(rèn)為,行業(yè)的技術(shù)壁壘和應(yīng)用壁壘一直都存在,市場的完全爆發(fā)還需要兩到三年的時(shí)間。
不過,也正是因?yàn)榇嬖谶@樣巨大的發(fā)展空間,潛力才得以凸顯,可能才得以孕育。這些在行業(yè)中耕耘多年的從業(yè)者,他們擁有最專業(yè)的眼光和最敏銳的嗅覺,有心證明他們的堅(jiān)持并非一場豪賭。
是不是豪賭無從得知,但正如李笙凱對當(dāng)下的判斷:優(yōu)化已有的技術(shù),以滿足市場的剛性需求,是這個(gè)行業(yè)最困難的痛點(diǎn),亦是最敞亮的通道。