計算(suan)機視覺發(fa)展(zhan)歷(li)史(shi)
時間:2024-12-04 來(lai)源:華清遠見
雛形階段:
20世紀50年代前后:
計算(suan)機視覺(jue)剛剛起步,依舊屬(shu)于模式識別領(ling)城,主(zhu)要處理對二維(wei)圖像的分析和識別。
20世紀60年代中期:
Lawrence Roberts的(de)(三維(wei)固體的(de)機器感(gan)知(zhi)》描(miao)述了(le)從(cong)二維(wei)圖片中推(tui)導三維(wei)信(xin)息的(de)過程,開創了(le)以(yi)理解(jie)三維(wei)場(chang)景為(wei)目標(biao)的(de)三維(wei)計算(suan)機視覺研究(jiu)。
初始階段:
20世紀70年代:
馬爾在計算機視(shi)覺(jue)領域做(zuo)出(chu)(chu)(chu)了(le)最(zui)具開創性和最(zui)重要(yao)的(de)(de)(de)(de)貢獻(xian),提出(chu)(chu)(chu)了(le)第一個完善的(de)(de)(de)(de)視(shi)覺(jue)框(kuang)(kuang)架--視(shi)覺(jue)計算理(li)論框(kuang)(kuang)架。在視(shi)覺(jue)計算中, 視(shi)覺(jue)被作為不同層(ceng)(ceng)次的(de)(de)(de)(de)信息處理(li)過程,實現目標是計算機對(dui)外部世界的(de)(de)(de)(de)描述(shu),以獲得(de)物(wu)體(ti)的(de)(de)(de)(de)三維形狀。他提出(chu)(chu)(chu)三個層(ceng)(ceng)次的(de)(de)(de)(de)研究(jiu)方法(fa),即(ji)計算理(li)論層(ceng)(ceng)、表征與算法(fa)層(ceng)(ceng)和實現層(ceng)(ceng),由(you)此提出(chu)(chu)(chu)了(le)自上而下無反饋(kui)的(de)(de)(de)(de)視(shi)覺(jue)處理(li)框(kuang)(kuang)架。
繁榮階段:
由于視(shi)(shi)覺(jue)(jue)計(ji)算理(li)論框架(jia)的魯棒性(xing)不夠,因此無法在(zai)工業界得到(dao)廣(guang)泛(fan)應用。隨后,出現了主(zhu)動視(shi)(shi)覺(jue)(jue)、定性(xing)視(shi)(shi)覺(jue)(jue)、目(mu)的視(shi)(shi)覺(jue)(jue)等各個學派。
中興階段:
繁(fan)榮階段(duan)持續的(de)時間(jian)不長,且(qie)方法繁(fan)多(duo),對(dui)后續計(ji)算(suan)(suan)機視覺的(de)發展(zhan)產生的(de)影響并(bing)不大,猶(you)如曇花一現。隨后,人們發現多(duo)視幾何(he)理論下的(de)分層三(san)維重(zhong)建(jian)(jian)能有效(xiao)提高三(san)維重(zhong)建(jian)(jian)的(de)魯棒性(xing)和精度,由此,計(ji)算(suan)(suan)機視覺進入中興階段(duan)。
現代階段:
1989年(nian),Yann LeCun將反向傳播算法應用于Fukushima的卷積神經網絡結(jie)構
LeCun發布了 LeNet模(mo)型(xing),這是第一個現代的(de)卷積神經(jing)網絡。
2006年前后(hou), Geoffrey Hilton提出(chu)(chu)了用GPU來優化深(shen)度神經網絡(luo)的工(gong)程方法,并在《科學》雜(za)志(zhi)上發表了論文,首次提出(chu)(chu)“深(shen)度信念網絡(luo)”的概念,他賦(fu)予多層神經網絡(luo)一個新名詞--深(shen)度學習(xi)。
隨后,深度學習在各個領(ling)域大放異(yi)彩。
2009年,FeiFeiLi在CVPR上發表(biao)了一(yi)(yi)篇(pian)名(ming)為ImageNet: A Large-Scale Hierarchical Image Database的(de)(de)論(lun)文(wen),發布了ImageNet數據集,這(zhe)改變了在人工智能領域人們對數據集的(de)(de)認識,這(zhe)時人們才(cai)真正開始意識到(dao)數據集在研究中的(de)(de)地位,就像算法一(yi)(yi)樣重(zhong)(zhong)要。ImageNet是(shi)計算機(ji)視(shi)覺(jue)發展的(de)(de)重(zhong)(zhong)要“推動者”,也是(shi)深度學(xue)習的(de)(de)關(guan)鍵“推動者”。
2012年(nian),Alex Krizhevsky, Ilya Sutskever 和 Geoffrey Hinton創造(zao)了一(yi)個(ge)大(da)型的深度卷(juan)積神經網(wang)絡,即AlexNet。此模型在ImageNet數(shu)據集中表現得極為出色,識(shi)別(bie)錯誤率(lv)從26.2%降低到15.3%。他們的論文ImageNet Classification with Deep Convolutional Networks,被視為計算(suan)機視覺最重(zhong)要的論文之一(yi),自(zi)此,卷(juan)積神經網(wang)絡成(cheng)為計算(suan)機視覺的標準(zhun)算(suan)法。
2014年,蒙特(te)利爾大學(xue)提出生成對(dui)抗網(wang)絡(luo)(GAN):擁有兩(liang)個(ge)(ge)(ge)相互(hu)競爭的神經網(wang)絡(luo)可(ke)以使機器(qi)學(xue)習得更快。一個(ge)(ge)(ge)網(wang)絡(luo)嘗(chang)試(shi)(shi)模仿(fang)真實數據(ju)生成假(jia)的數據(ju),而另(ling)一個(ge)(ge)(ge)網(wang)絡(luo)則試(shi)(shi)圖將假(jia)數據(ju)區分(fen)出來。隨著時間的推移,兩(liang)個(ge)(ge)(ge)網(wang)絡(luo)都會得到訓練,生成對(dui)抗網(wang)絡(luo)(GAN)被認為是計算機視覺領域的重(zhong)大突破。
2017-2018 年,深度(du)學習框(kuang)(kuang)架的(de)(de)開發發展到了成(cheng)熟期。PyTorch 和 TensorFlow 已成(cheng)為(wei)首選(xuan)框(kuang)(kuang)架,它們都提(ti)供了針對多項(xiang)任務(包(bao)括(kuo)圖(tu)像分類)的(de)(de)大量預訓(xun)練(lian)模(mo)型。
2019, BigGAN,同(tong)樣(yang)是一個GAN,只不過更強(qiang)大(da),是擁有了更聰明的課程學習(xi)技巧的GAN,由它(ta)訓練生(sheng)成的圖像連(lian)它(ta)自(zi)己都分辨不出真假(jia),因為除非拿顯微(wei)鏡(jing)看,否(fou)則將(jiang)無法(fa)判斷該圖像是否(fou)有任何問題(ti),因而,它(ta)更被譽(yu)為史上最強(qiang)的圖像生(sheng)成器。
2020年(nian)5月末,Facebook發布新(xin)購(gou)物(wu)AI,通用計(ji)算機視覺系統GrokNet讓“一(yi)切皆可(ke)購(gou)買”。
至今,計(ji)算機視(shi)覺與其(qi)他學科交叉(cha)融合日益加深,推(tui)動了多模態(tai)感知和認知智能(neng)的研究。

