機器學習的基本概念、五大流派與九種算法
時間:2024-05-11 來源:華清遠見
機器學習的基本概念
監督學習(Supervised Learning)
從帶有標簽的訓練數據中學習規律,用于預測或分類。
定義: 根據已有的數據集,知道輸入和輸出結果之間的關系。根據這種已知的關系,訓練得到一個最優 的模型。
在監督學習中訓練數據既有特征(feature)又有標簽(label),通過訓練,讓機器可以自己找到特征和標簽 之間的聯系,在面對只有特征沒有標簽的數據時,可以判斷出標簽。
簡單理解:可以把監督學習理解為我們教機器如何做事情。
無監督學習(Unsupervised Learning)
從無標簽的數據中學習隱藏的結構或模式,用于聚類、降維等任務。
定義: 我們不知道數據集中數據、特征之間的關系,而是要根據聚類或一定的模型得到數據之間的關 系。
在無監督學習中數據只有特征(feature)無標簽(label),是一種機器學習的訓練方式,它本質上是一個統 計手段,在沒有標簽的數據里可以發現潛在的一些結構的一種訓練方式。
簡單理解: 比起監督學習,無監督學習更像是自學,讓機器學會自己做事情。
強化學習(Reinforcement Learning)
通過試錯的方式學習,根據環境的獎勵和懲罰來調整行為。
在強化學習中,包含兩種基本的元素:狀態與動作,在某個狀態下執行某種動作,這便是一種策略,學 習器要做的就是通過不斷地探索學習,從而獲得一個好的策略。例如:在圍棋中, 一種落棋的局面就是 一種狀態,若能知道每種局面下的最優落子動作,那就攻無不克/百戰不殆了~
若將狀態看作為屬性,動作看作為標記,易知:監督學習和強化學習都是在試圖尋找一個映射,從已知 屬性/狀態推斷出標記/動作, 這樣強化學習中的策略相當于監督學習中的分類/回歸器。但在實際問題 中,強化學習并沒有監督學習那樣的標記信息,通常都是在嘗試動作后才能獲得結果,因此強化學習是 通過反饋的結果信息不斷調整之前的策略,從而算法能夠學習到:在什么樣的狀態下選擇什么樣的動作 可以獲得最好的結果。
半監督學習(Semi-supervised Learning)
結合有標簽和無標簽數據進行學習。
定義: 半監督學習的目標是利用同時包含有標簽和無標簽的數據來構建一個模型,使得模型能夠在測試 階段更好地泛化到新的、未見過的數據。
半監督學習介于監督學習和無監督學習之間。在半監督學習中,訓練數據同時包含有標簽的數據和無標 簽的數據。
與監督學習不同的是,半監督學習的訓練數據中只有一小部分樣本是帶有標簽的,而大部分樣本是沒有 標簽的。通常情況下,獲取帶有標簽的數據可能會比較昂貴或耗費大量的時間,而采集無標簽的數據則 相對容易和便宜。
在半監督學習中,無標簽的數據可以起到兩個重要作用:
(1)利用未標記數據的信息:未標記數據可能包含對數據分布、結構和隱含特征的有用信息,這些信息 可以幫助模型更好地進行泛化。
(2)利用標記數據的傳播效應:通過利用標記數據與無標簽數據之間的數據分布相似性,可以通過傳播 標簽信息到無標簽樣本,進而增強模型的性能。
半監督學習是一個非常有意義且有挑戰性的問題,它在現實世界的許多場景中都具有實際應用價值。通 過充分利用未標記數據,半監督學習可以在某些情況下顯著提高模型的性能,并且有助于在數據有限的 情況下構建更加健壯和泛化能力強的機器學習模型。
遷移學習(Transfer Learning)
將已學習到的知識遷移到新的任務中。
定義: 強化學習是讓一個智能體(agent)在環境中通過嘗試和錯誤來學習行為策略。智能體通過與環 境進行交互,根據獎勵信號來調整其行為策略,以達到最大化累積獎勵的目標。
在強化學習中,智能體不需要明確地告訴如何執行任務,而是通過嘗試和錯誤的方式進行學習。當智能 體在環境中采取某個動作時,環境會返回一個獎勵信號,表示該動作的好壞程度。智能體的目標是通過 與環境交互,學習到一種最優策略,使其在長期累積的獎勵最大化。
五大流派
符號主義學派(Symbolists)
強調基于邏輯和符號的推理,代表算法為決策樹、邏輯回歸等。
符號主義學派(Symbolists)是機器學習領域中的一個重要流派,其理論基礎是基于邏輯和符號的推 理。符號主義學派認為智能行為可以通過符號之間的邏輯推理來實現,強調符號表示和符號操作在認知 過程中的重要性。以下是符號主義學派的一些特點和代表性算法:
特點
1. 邏輯推理:符號主義學派倡導基于邏輯推理的方法,通過符號之間的邏輯關系來進行推斷和決策。 2. 符號表示:強調使用符號來表示知識和信息,將問題抽象成符號和規則的形式進行處理。
3. 符號操作:通過符號之間的操作和推理來實現智能行為,例如決策樹的分裂和邏輯回歸的邏輯運 算。
代表性算法
1. 決策樹(Decision Tree) :基于樹狀結構進行分類和回歸的算法,通過一系列邏輯判斷來進行預 測。
2. 邏輯回歸(Logistic Regression) :用于分類任務的線性模型,通過邏輯函數處理輸入特征并進 行分類預測。
3. 規則學習(Rule-based Learning) :基于規則的學習方法,將問題表示為一系列規則并進行推 理。
符號主義學派的方法在解決分類、預測等任務時具有一定優勢,尤其適用于需要邏輯推理和規則表達的 問題。然而,符號主義學派也存在一些局限性,如處理不確定性和復雜性方面相對困難。因此,在實際 應用中,需要根據具體問題的特點和需求選擇合適的學派和算法進行建模和訓練。
連接主義學派(Connectionists)
強調神經網絡模型,代表算法為深度學習、卷積神經網絡等。
連接主義學派(Connectionists)是機器學習領域中的一個重要流派,其理論基礎是神經網絡模型。連 接主義學派認為通過模擬人腦神經元之間的連接和交互來實現智能行為,強調神經網絡的學習和適應能 力。以下是連接主義學派的一些特點和代表性算法:
特點
1. 神經網絡模型:連接主義學派使用神經網絡模型來進行學習和推斷,模擬人腦神經元之間的連接和 傳遞。
2. 分布式表示:強調信息在神經網絡中以分布式表示的形式存儲和處理,不同神經元之間共同參與信 息的表示和計算。
3. 學習能力:神經網絡具有學習能力,能夠通過反向傳播等算法不斷調整連接權重以適應數據特征。
代表性算法
1. 深度學習(Deep Learning) :基于深層神經網絡的學習方法,通過多層次的表示學習來提取數據 的高階特征。
2. 卷積神經網絡(Convolutional Neural Networks ,CNN) :用于圖像處理和識別的神經網絡結 構,通過卷積和池化操作來提取圖像特征。
3. 循環神經網絡(Recurrent Neural Networks , RNN) :適用于序列數據的神經網絡結構,具有 記憶和時間依賴性。
連接主義學派的方法在圖像識別、自然語言處理等領域取得了重大突破,具有處理復雜數據和學習復雜 模式的能力。然而,連接主義學派也面臨著訓練數據需求大、模型解釋性差等挑戰。在實際應用中,需 要根據具體問題的特點和需求選擇合適的學派和算法進行建模和訓練。
進化主義學派(Evolutionaries)
借鑒生物進化理論,代表算法為遺傳算法、進化策略等。
進化主義學派(Evolutionaries)是機器學習領域中的一個流派,其理論基礎是仿生學和進化算法。進化 主義學派認為可以通過模擬生物進化的過程來解決問題,通過遺傳算法等進化算法進行優化和搜索。以 下是進化主義學派的一些特點和代表性算法:
特點
1. 仿生學思想:進化主義學派倡導受生物進化啟發的算法和方法,將優勝劣汰、適者生存等原則應用 于問題求解。
2. 進化算法:使用遺傳算法、遺傳規劃等進化算法進行優化和搜索,通過種群演化和基因遺傳來尋找 最優解。
3. 全局搜索:進化算法通常適用于全局搜索問題,能夠在大范圍的解空間中尋找較優解。
代表性算法
1. 遺傳算法(Genetic Algorithm) :模擬生物進化的過程,通過選擇、交叉和變異等操作來優化問 題的解。
2. 遺傳規劃(Genetic Programming) :利用遺傳算法來演化程序或模型的結構和參數,用于解決 復雜的優化問題。
3. 粒子群算法(Particle Swarm Optimization , PSO) :模擬鳥群或魚群的行為,通過個體間的 協作和競爭來搜索最優解。
進化主義學派的方法適用于復雜的優化和搜索問題,能夠有效處理多模態、多峰和高維度的問題。進化 算法具有一定的并行性和魯棒性,但在處理實時性要求高的問題時可能存在一定局限性。在實際應用
中,需要根據具體問題的特點和需求選擇合適的學派和算法進行建模和求解。
貝葉斯主義學派(Bayesians)
基于貝葉斯定理進行推斷,代表算法為樸素貝葉斯、貝葉斯網絡等。
貝葉斯主義學派(Bayesians)是機器學習領域中的一個流派,其理論基礎是貝葉斯統計理論。貝葉斯 主義學派認為可以通過貝葉斯定理和貝葉斯推斷來進行概率建模和推斷,強調對不確定性的建模和處 理。以下是貝葉斯主義學派的一些特點和代表性算法:
特點
1. 概率建模:貝葉斯主義學派將問題建模為概率分布,利用貝葉斯定理將先驗知識和觀測數據結合進 行推斷。
2. 不確定性處理:強調對不確定性的建模和量化,通過概率分布來表示模型參數和預測結果的不確定 性。
3. 貝葉斯推斷:通過貝葉斯推斷方法,如馬爾科夫鏈蒙特卡洛(Markov Chain Monte Carlo, MCMC)等,對后驗分布進行抽樣估計。
代表性算法
1. 樸素貝葉斯分類器(Naive Bayes Classifier) :基于貝葉斯定理和特征條件獨立性假設的分類算 法,適用于文本分類等問題。
2. 貝葉斯網絡(Bayesian Network) :用于表示變量之間依賴關系的概率圖模型,能夠進行推理和 預測。
3. 變分推斷(Variational Inference) :一種近似推斷方法,通過最大化變分下界來逼近后驗分 布。
貝葉斯主義學派的方法能夠有效處理不確定性和噪聲,適用于小樣本學習和決策問題。貝葉斯推斷方法 在處理復雜模型和大規模數據時可能面臨計算復雜度高的挑戰,但近年來隨著計算能力的提升和算法的 改進,貝葉斯方法在機器學習領域得到了廣泛應用。在實際應用中,貝葉斯主義學派常用于建模和預測 需要考慮不確定性因素的問題。
模糊主義學派(Fuzzyists)
考慮不確定性和模糊性,代表算法為模糊邏輯、模糊聚類等。
模糊主義學派(Fuzzyists)是機器學習領域中的一個流派,其理論基礎是模糊邏輯和模糊集合理論。模 糊主義學派認為可以通過模糊概念和模糊推理來處理不確定性和模糊性問題,適用于模糊或模糊邊界的 情況。以下是模糊主義學派的一些特點和代表性算法:
特點
1. 模糊概念:模糊主義學派引入模糊概念,允許事物或屬性具有連續的隸屬度,而非二元的真假值。 2. 模糊推理:通過模糊邏輯和模糊推理規則來進行推斷,能夠處理模糊規則和模糊關系。
3. 模糊集合:引入模糊集合理論,允許元素的隸屬度在0和1之間連續變化,適用于模糊分類和劃分問 題。
代表性算法
1. 模糊邏輯系統(Fuzzy Logic System) :基于模糊規則和模糊推理的系統,適用于模糊控制和決 策問題。
2. 模糊聚類(Fuzzy Clustering) :利用模糊集合理論進行聚類分析,允許樣本屬于多個類別。
3. 模糊關聯規則挖掘(Fuzzy Association Rule Mining) :挖掘模糊數據集中的模糊關聯規則,發 現模糊數據之間的關聯。
模糊主義學派的方法適用于處理模糊性和不確定性較高的問題,能夠有效處理模糊規則和模糊關系。模 糊邏輯系統在控制系統、模糊決策和模糊分類等領域有廣泛應用。盡管模糊主義學派在一些問題上表現 出色,但在處理復雜的高維數據和大規模問題時可能面臨一定的挑戰,因此需要根據具體問題的特點和 需求選擇合適的學派和算法進行應用。
九種常見算法
線性回歸(Linear Regression)
用于預測連續數值的算法。
在線性回歸中,我們試圖找到一個線性模型來描述自變量(輸入特征)與因變量(輸出)之間的關系。 線性回歸是一種用于預測連續型變量的監督學習算法。其基本思想是通過擬合一個線性方程來描述自變 量與因變量之間的關系,使得模型預測的輸出值與實際觀測值之間的誤差最小化。
線性回歸模型通常表示為:
[ y = w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n ]
其中,( y ) 是預測的因變量(輸出),( x_1, x_2, ..., x_n ) 是自變量(輸入特征),( w_0, w_1, w_2, ..., w_n ) 是模型的參數(權重),通過學習得到最佳的參數值來擬合數據。
線性回歸可以分為簡單線性回歸和多元線性回歸兩種形式:
1. 簡單線性回歸:只涉及一個自變量和一個因變量之間的關系。
2. 多元線性回歸:涉及多個自變量和一個因變量之間的關系。
線性回歸模型的訓練過程通常使用最小二乘法來求解最佳參數值,使得模型預測的輸出值與實際觀測值 的殘差平方和最小化。線性回歸模型的性能評估通常使用均方誤差(Mean Squared Error , MSE)或 R² 等指標來衡量預測的準確性。
線性回歸在實際應用中被廣泛使用,例如預測房價、銷售量、股票價格等連續型變量。然而,線性回歸 也有局限性,例如對非線性關系的建模能力有限,適用于簡單的線性關系。在實際應用中,可以通過特 征工程、正則化等方法來改進線性回歸模型的性能
邏輯回歸(Logistic Regression)
用于分類任務的算法。
邏輯回歸是一種用于解決分類問題的監督學習算法,盡管它的名字中帶有“回歸”一詞,但實際上邏輯回 歸用于解決二分類或多分類問題,而不是回歸問題。邏輯回歸是一種廣義線性模型,通過將線性回歸模 型的輸出通過一個邏輯函數(Logistic函數)映射到 [0, 1] 范圍內,從而得到分類概率。
邏輯回歸模型的基本形式如下:
[ P(y=1 | \mathbf{x}) = \frac{1}{1 + e^{-(\mathbf{w}^T\mathbf{x} + b)}} ] [ P(y=0 | \mathbf{x}) = 1 - P(y=1 | \mathbf{x}) ]
其中,( P(y=1 | \mathbf{x}) ) 表示在給定輸入特征 ( \mathbf{x} ) 的條件下,輸出為類別1的概 率; ( \mathbf{w} ) 是模型的權重參數; ( b ) 是偏置項; ( e ) 是自然對數的底。邏輯回歸模型通過 對輸入特征進行加權求和,并通過邏輯函數將結果映射到 [0, 1] 的范圍內,從而得到分類概率。
在訓練過程中,邏輯回歸模型通常使用最大似然估計或梯度下降等方法來優化模型參數,使得模型的預 測結果與實際標簽盡可能吻合。模型的性能評估通常使用準確率、精確率、召回率、 F1 值等指標來評估 分類的準確性。
邏輯回歸廣泛應用于二分類和多分類問題,如垃圾郵件識別、疾病診斷、客戶流失預測等場景。盡管邏 輯回歸在處理線性可分問題上表現良好,但對于非線性問題可能需要結合特征工程、多項式特征、正則 化等方法來提升模型性能。
決策樹(Decision Tree)
基于樹狀結構進行分類和回歸的算法。
決策樹(Decision Tree)是一種用于解決分類和回歸問題的監督學習算法。決策樹模型通過樹形結構來 表示不同的決策路徑和結果,每個內部節點代表一個特征屬性的判斷條件,每個葉子節點代表一個類別 標簽或回歸值。
在分類問題中,決策樹通過學習訓練數據集中的特征屬性和類別標簽之間的關系,構建一棵樹形結構, 使得對于新的輸入樣本,可以沿著決策樹的節點逐步判斷特征屬性,最終到達葉子節點得到預測的類別 標簽。
決策樹的訓練過程通常包括以下步驟:
1. 選擇最佳的特征屬性作為當前節點的劃分標準,例如信息增益、基尼不純度等指標來選擇最優的劃 分屬性。
2. 根據選定的劃分標準將訓練數據集劃分為子集,并遞歸地構建子樹。
3. 當滿足停止條件時(如節點樣本數小于閾值、樹的深度達到預設值等),停止分裂并將當前節點標 記為葉子節點,輸出類別標簽或回歸值。
決策樹算法具有易于理解、可解釋性強的特點,能夠處理離散型和連續型特征,并且不需要對數據進行 過多的預處理。然而,決策樹容易過擬合訓練數據,特別是在處理高維稀疏數據時,可能需要進行剪枝 等操作來避免過擬合。
決策樹算法的衍生版本包括隨機森林(Random Forest)、梯度提升決策樹(Gradient Boosting
Decision Tree)等,這些算法通過集成多棵決策樹來提升模型的泛化能力和性能。決策樹在實際應用中 被廣泛應用于金融風控、醫療診斷、推薦系統等領域。
支持向量機(Support Vector Machine ,SVM)
用于分類和回歸任務的算法。
支持向量機(Support Vector Machine ,SVM)是一種用于解決分類和回歸問題的監督學習算法,其主 要思想是找到一個最優的超平面來將不同類別的樣本分隔開,同時使得邊界與支持向量之間的間隔最大 化。
在分類問題中, SVM的目標是找到一個能夠將不同類別的樣本正確分隔開的超平面。如果樣本是線性可 分的,即存在一個超平面可以完全將兩類樣本分開, SVM會選擇使間隔最大化的超平面作為最優超平
面。如果樣本不是線性可分的, SVM通過引入核函數(Kernel Function)將樣本映射到高維特征空間 中,從而實現在高維空間中找到一個最優的超平面來進行分類。
SVM的優化目標是最大化間隔,即最小化模型的復雜度同時保持分類的準確性。在訓練過程中, SVM通 過求解凸優化問題來找到最優的超平面參數,通常采用拉格朗日乘子法等方法進行求解。
SVM在處理高維數據和非線性數據時表現出色,具有良好的泛化能力。它可以用于二分類和多分類問 題,同時也可以應用于回歸問題。然而, SVM在處理大規模數據集時可能會受到計算復雜度的限制。
除了標準的SVM算法之外,還有支持向量回歸(Support Vector Regression ,SVR)等變體,用于解決 回歸問題。 SVM在實際應用中被廣泛應用于文本分類、圖像識別、生物信息學等領域。
樸素貝葉斯(Naive Bayes)
基于貝葉斯定理進行分類的算法。
樸素貝葉斯(Naive Bayes)是一種基于貝葉斯定理和特征條件獨立假設的監督學習算法,常用于解決 分類問題。在樸素貝葉斯算法中,假設特征之間是相互獨立的,即給定類別的情況下,特征之間是條件 獨立的。
樸素貝葉斯算法的基本思想是通過計算樣本屬于每個類別的概率,然后選擇具有最高概率的類別作為預 測結果。在分類過程中,根據貝葉斯定理計算后驗概率,即給定特征條件下類別的概率,然后選擇具有 最大后驗概率的類別作為預測結果。
樸素貝葉斯算法通常包括以下幾種常見的變體:
1. 樸素貝葉斯分類器(Naive Bayes Classifier):用于解決分類問題,如多項式樸素貝葉斯、高斯樸 素貝葉斯、伯努利樸素貝葉斯等。
2. 樸素貝葉斯回歸(Naive Bayes Regression):用于解決回歸問題,通過對數幾率函數擬合數據來 進行回歸預測。
3. 半樸素貝葉斯分類器(Semi-Naive Bayes Classifier):在特征之間存在一定相關性的情況下,放 寬樸素貝葉斯算法中特征條件獨立的假設。
樸素貝葉斯算法具有計算簡單、易于實現、對小規模數據效果良好的特點。然而,由于特征條件獨立的 假設可能過于簡化實際問題,導致模型在處理特征之間存在相關性的數據時表現不佳。樸素貝葉斯算法 在文本分類、垃圾郵件過濾、情感分析等領域得到廣泛應用。
K均值聚類(K-means Clustering)
用于聚類任務的算法。
K均值聚類(K-means Clustering)是一種常用的無監督學習算法,用于將數據集中的樣本劃分為K個不 同的簇(cluster)。其主要思想是通過迭代的方式將樣本分配到K個簇中,使得每個樣本與所屬簇的中 心點(質心)之間的距離最小化。
K均值聚類的過程如下:
1. 隨機初始化K個質心(簇的中心點)。
2. 將每個樣本分配到距離最近的質心所屬的簇。
3. 更新每個簇的質心為該簇所有樣本的平均值。
4. 重復步驟2和步驟3,直到質心的位置不再改變或達到迭代次數。
K均值聚類的優化目標是最小化簇內樣本的方差,即使得同一簇內的樣本相互之間的距離盡可能小,不同 簇之間的距離盡可能大。
K均值聚類適用于處理大規模數據集和高維數據,通常用于數據壓縮、圖像分割、異常檢測等領域。然
而, K均值聚類對初始質心的選擇敏感,可能收斂于局部最優解。因此,通常會多次運行算法以選擇最優 的聚類結果。
K均值聚類是一種簡單且高效的聚類算法,但在處理非凸形狀的簇、不同大小的簇或噪聲數據時可能表現
不佳。對于這些情況,可以考慮使用其他聚類算法,如層次聚類、 DBSCAN等。
隨機森林(Random Forest)
基于多個決策樹的集成學習算法。
隨機森林(Random Forest)是一種集成學習方法,通過構建多個決策樹來進行分類或回歸。隨機森林
的基本思想是通過對訓練數據集進行有放回抽樣(bootstrap采樣)生成多個不同的訓練子集,然后分別 訓練多個決策樹模型,最后將這些決策樹的結果進行整合,通過投票或平均值來做出最終的預測。
隨機森林的主要特點包括:
1. 隨機性:在構建每棵決策樹時,隨機選擇特征子集進行訓練,以增加模型的多樣性和泛化能力。 2. 高準確性:由于隨機森林集成了多個決策樹,可以有效減少過擬合,提高預測的準確性。
3. 可處理大規模數據:隨機森林適用于處理大規模數據集,對高維數據和稀疏數據具有良好的適應 性。
4. 可解釋性:相比于單個復雜模型,隨機森林通常具有較好的可解釋性,可以通過特征重要性來理解 預測結果。
隨機森林在分類和回歸問題中廣泛應用,特別適用于處理復雜的非線性關系和高維數據。它也可以用于 特征選擇、異常檢測和處理缺失值等任務。
然而,隨機森林也有一些缺點,例如模型訓練時間較長、模型參數調優相對復雜,對噪聲數據敏感等。 在實際應用中,可以通過調整參數、增加樹的數量、限制樹的深度等方式來優化隨機森林模型的性能。
神經網絡(Neural Networks)
模擬人腦神經元網絡進行學習和預測的算法。
神經網絡(Neural Networks)是一種模仿人類大腦神經元網絡結構設計的機器學習模型。神經網絡由 多個神經元(節點)組成,分為輸入層、隱藏層和輸出層,每個神經元都與下一層的所有神經元相連, 每條連接都有一個權重。神經網絡通過學習調整連接權重,從而實現對輸入數據的復雜非線性映射。
神經網絡的訓練過程通常通過反向傳播算法(Backpropagation)來實現,即通過計算損失函數關于權 重的梯度,并根據梯度更新權重,不斷優化模型以減小預測誤差。常用的神經網絡結構包括多層感知機 (Multilayer Perceptron, MLP)、卷積神經網絡(Convolutional Neural Networks, CNN)和循環神 經網絡(Recurrent Neural Networks, RNN)等。
神經網絡在機器學習領域有著廣泛的應用,包括圖像識別、語音識別、自然語言處理、推薦系統等。由 于神經網絡的強大擬合能力和表征學習能力,它能夠處理復雜的非線性關系和大規模數據,取得了許多 領域的 state-of-the-art 成果。
然而,神經網絡也存在一些挑戰,如需要大量的訓練數據、計算資源消耗大、模型解釋性差等。在實際 應用中,需要根據具體問題選擇合適的神經網絡結構、優化算法和超參數,以達到最佳的預測性能。
主成分分析(Principal Component Analysis , PCA)
用于降維和特征提取的算法。
主成分分析(Principal Component Analysis , PCA)是一種常用的降維技術,用于將高維數據轉換為 低維數據,同時保留數據中最重要的信息。 PCA的目標是通過線性變換將原始數據投影到一個新的坐標 系中,使得投影后的數據具有最大的方差,從而找到數據中的主要特征或主成分。
在PCA中,首先計算數據的協方差矩陣,然后通過特征值分解(Eigen decomposition)得到協方差矩陣 的特征向量和特征值,特征向量即為新坐標系的基向量,特征值表示數據在特征向量方向上的方差大
小。最后,選擇最大的特征值對應的特征向量作為主成分,將數據投影到這些主成分上,實現數據的降 維。
PCA在機器學習中有著廣泛的應用,包括數據可視化、特征提取、噪聲過濾等。通過降低數據的維度, 可以減少數據的冗余信息,加快模型訓練速度,降低過擬合風險,并且有助于發現數據中隱藏的模式和 結構。
需要注意的是, PCA假設數據服從高斯分布且具有線性關系,因此在應用PCA之前需要對數據進行預處 理,確保數據滿足這些假設。此外, PCA是一種無監督學習方法,僅通過數據本身的結構進行降維,不 能保證最終的低維表示一定對應于最好的分類或回歸結果,因此在實際應用中需要結合具體任務需求進 行綜合考慮。

