久久婷婷香蕉热狠狠综合,精品无码国产自产拍在线观看蜜,寡妇房东在做爰3,中文字幕日本人妻久久久免费,国产成人精品三上悠亚久久

當前位置:首頁 > 學習資源 > 講師博文 > 人工智能-機器學習

人工智能-機器學習 時間:2024-02-22      來源:華清遠見

機器學習

作者:曹一萌

一、基本簡介

 

網站scikit-learn: machine learning in Python — scikit-learn 1.3.2 documentation

 

簡單有效的數據挖掘和分析工具

 

可供所有人訪問,并在各種環境中重復使用

 

基于Numpy,Scipy和Matplotlib構造

 

機器學習是一門從數據中研究算法的科學學科。 

 

機器學習直白來講,是根據已有的數據,進行算法選擇,并基于算法和數據 

構建模型,最終對未來進行預測;

 

 

 

二、機器學習分類

1.有監督學習 

 用已知某種或某些特性的樣本作為訓練集,以建立一個數學模型,再用已建立的模型來預測未知樣本,此種方法被稱為有監督學習,是最常用的一種機器學習方法。是從標簽化訓練數據集中推斷出模型的機器學習任務。 

2.無監督學習 

 與監督學習相比,無監督學習的訓練集中沒有人為的標注的結果,在非監督的學習過程中,數據并不被特別標識,學習模型是為了推斷出數據的一些內在結構。 

 • 無監督學習試圖學習或者提取數據背后的數據特征,或者從數據中抽取出重要的特征信息,常見的算法有聚類、降維、文本處理(特征抽取)等。 

 • 無監督學習一般是作為有監督學習的前期數據處理,功能是從原始數據中抽取出必要的標簽信息。

 

3.半監督學習 

 考慮如何利用少量的標注樣本和大量的未標注樣本進行訓練和分類的問題,是有監督學習和無監督學習的結合.主要考慮如何利用少量的標注樣本和大量的未標注樣本進行訓練和分類的問題。 

 

半監督學習對于減少標注代價,提高學習機器性能具有非常重大的實際意義。 

 • SSL的成立依賴于模型假設,主要分為三大類:平滑假設、聚類假設、流行假設;其中流行假設更具有普片性。 

 • SSL類型的算法主要分為四大類:半監督分類、半監督回歸、半監督聚類、半監督降維。 

 •缺點:抗干擾能力弱,僅適合于實驗室環境,其現實意義還沒有體現出來;未 來的發展主要是聚焦于新模型假設的產生。

 

 

 

三、機器學習的開發流程

1.數據的收集

• 數據來源: 

• 用戶訪問行為數據 

• 業務數據 

• 外部第三方數據 

• 數據存儲: 

• 需要存儲的數據:原始數據、預處理后數據、模型結果 

 • 存儲設施:磁盤、mysql、HDFS、HBase、Solr、Elasticsearch、Kafka、Redis等 

• 數據收集方式: 

• Flume & Kafka

• 在實際工作中,我們可以使用業務數據進行機器學習開發,但是在學習過程 

中,沒有業務數據,此時可以使用公開的數據集進行開發,常用數據集如下:

 

 • //archive.ics.uci.edu/ml/datasets.html 

 • //aws.amazon.com/cn/public-datasets/ 

• //www.kaggle.com/competitions 

 • //www.kdnuggets.com/datasets/index.html 

 • //www.sogou.com/labs/resource/list_pingce.php 

 • //tianchi.aliyun.com/datalab/index.htm 

 • //www.pkbigdata.com/common/cmptIndex.html

 

2.數據的清洗和轉換

 

 • 對數據進行初步的預處理,需要將其轉換為一種適合機器學習模型的表示形式,而對于許多模型類型來說,這種表示就是包含數值數據的向量或者矩陣 

 • 將類別數據編碼成為對應的數值表示(一般使用1-of-k\啞編碼方法) 

• 從文本數據中提取有用的數據(一般使用詞袋法或者TF-IDF) 

 • 處理圖像或者音頻數據(像素、聲波、音頻、振幅等<傅里葉變換>) 

 • 對特征進行正則化、標準化,以保證同一模型的不同輸入變量的取值范圍相同 

• 數值數據轉換為類別數據以減少變量的值,比如年齡分段 

• 對數值數據進行轉換,比如對數轉換 

 • 對現有變量進行組合或轉換以生成新特征(基于對數據以及對業務的理解),比如平均數 (做虛擬變量),需要不斷嘗試才可以確定具體使用什么虛擬變量

 

3.模型訓練

模型選擇:對特定任務最優建模方法的選擇或者對特定模型最佳參數的選擇。 

 • 在訓練數據集上運行模型(算法)并在測試數據集中測試效果,迭代進行數據模型的修改,這種方式被稱為交叉驗證(將數據分為訓練集和測試集,使用訓練集構建模型,并使用測試集評估模型提供修改建議) 

• 模型的選擇會盡可能多的選擇算法進行執行,并比較執行結果

 

4.模型評價指標

4.1.ROC曲線

 

 

4.2.AUC

 

• AUC的值越大表達模型越好 

 • AUC(Area Under Curve)被定義為ROC曲線下的面積,顯然這個面積的數值不會大于1。又由于ROC曲線一般都處于y=x這條直線的上方,所以AUC的取值范圍在0.5和1之間。使用AUC值作為評價標準是因為很多時候ROC曲線并不能清晰的說明哪個分類器的效果更好,而AUC作為數值可以直觀的評價分類器的好壞,值越大越好。 

 • AUC = 1,是完美分類器,采用這個預測模型時,不管設定什么閾值都能得出完美預測。絕大多數預測的場合,不存在完美分類器。 

 • 0.5 < AUC < 1,優于隨機猜測。這個分類器(模型)妥善設定閾值的話,能有預測價值。 

 • AUC = 0.5,跟隨機猜測一樣(例:丟銅板),模型沒有預測價值。 

 • AUC < 0.5,比隨機猜測還差;但只要總是反預測而行,就優于隨機猜測。

 

4.3.  FPN

 

4.4.  分類算法評估指標

 

• Precision

• Recall

•F1

• 混淆矩陣

• ROC曲線

•AUC(ROC曲線的面積)

4.5.  回歸算法評估指標

 

•MeanSquareError (MSE,RMSE)

•AbsoluteError (MAE,RAE)

•R2_score

•Explained variance score

 

5.模型的部署和整合

•當模型構建好后,將訓練好的模型進行部署

•方式一:直接使用訓練好的模型對數據做一個預測,然后將預測結果保存數據庫中。

•方式二:直接將模型持久化為磁盤文件的形式,在需要的代碼處從磁盤中恢復模型

對象,然后使用恢復的模型對象對數據做一個預測。

•方式三:直接將模型參數保存到數據庫中,然后在需要的代碼處直接從數據庫把模

型參數加載到代碼中,然后根據模型算法原理使用模型參數對數據做一個預測。

•模型需要周期性的進行修改、調優:

•一個月、一周

 

 

 

 

上一篇:泛型簡明解析

下一篇:梯度下降法總是在同一點收斂嗎?

戳我查看嵌入式每月就業風云榜

點我了解華清遠見高校學霸學習秘籍

猜你關心企業是如何評價華清學員的

干貨分享
相關新聞
前臺專線:010-82525158 企業培訓洽談專線:010-82525379 院校合作洽談專線:010-82525379 Copyright © 2004-2024 北京華清遠見科技發展有限公司 版權所有 ,京ICP備16055225號-5京公海網安備11010802025203號

回到頂部