13161216443

您所在位置: 首頁> 學習課程> 大數據培訓 | 數據科學最常用流程CRISP-DM

大數據培訓 | 數據科學最常用流程CRISP-DM

發布百知教育 來源:學習課程 2019-12-06

導讀:什么是CRISP-DM?有什么用?本文帶你搞明白。


作者:約翰·凱萊赫(John D. Kelleher)、布倫丹·蒂爾尼(Brendan Tierney)

譯者:張世武、黃元勛 
來源:大數據DT(ID:bigdatadt)


為了幫助人們勇攀數據科學金字塔,很多人或公司提出了他們認為的最佳的數據科學處理流程。最常用的流程為“跨行業標準數據挖掘流程”(Cross Industry Standard Process for Data Mining ,CRISP-DM)。


事實上,多年來,CRISP-DM一直穩居各種行業調查第一名。CRISP-DM的主要優勢,也是它被廣泛使用的原因,其關鍵在于它被設計成獨立于任何軟件、供應商或數據分析技術。


CRISP-DM最初是由一個由領先的數據科學供應商、終端用戶、咨詢公司和研究人員組成的聯盟開發的。CRISP-DM項目最初由歐盟委員會(European Commission)在ESPRIT項目中提供了部分資助,該流程在1999年的一次研討會上被首次提出。從那時起,許多人嘗試更新這個流程,但是最初的版本目前仍然廣為使用。


多年來,CRISP-DM有一個專門的網站,但近年來這個網站已經廢棄,有時你可能會被IBM重定向到SPSS網站,IBM也是該項目的最初資助者之一。最初,聯盟發布了一個詳細的(76頁)但可讀性很高的指南,可以在線免費獲取該文檔(參考Chapman等1999),其中的幾頁對該流程的結構和主要任務進行了摘要。


CRISP-DM生命周期包括六個階段:


  • 業務理解(business understanding)

  • 數據理解(data understanding)

  • 數據準備(data preparation)

  • 建模(modeling)

  • 評估(evaluation)

  • 部署(deployment)


如圖2-3所示。


大數據培訓班



▲圖2-3 CRISP-DM生命周期


數據是所有數據科學活動的核心,這就是CRISP-DM圖以數據為中心的原因。階段之間的箭頭表示該流程的典型方向。這個過程是半結構化的,這意味著數據科學家并不總是以線性方式順序經過這六個階段。根據特定階段的結果,數據科學家可以回到前面的某個階段,重新執行當前階段的活動,或繼續進入下一階段。



01 業務理解和數據理解階段


在前兩個階段,即業務理解和數據理解階段,數據科學家試圖通過了解業務需求和業務可用的數據來定義項目的目標。在項目的早期階段,數據科學家通常會在關注業務和探索可用數據之間進行迭代。此輪迭代通常涉及業務問題的識別,然后探索是否有適當的數據可用于開發針對該問題的數據驅動型的解決方案。


如果有,項目可以繼續;如果沒有,數據科學家將不得不“越俎代庖”來確定待解決的問題。在項目的這個階段,數據科學家將花費大量時間與業務部門(例如,銷售、營銷、運營部門)的同事面談以了解業務問題,并與數據庫管理員溝通以了解有哪些數據可用。



02 數據準備階段


一旦數據科學家明確定義了業務問題并且為適當的數據可用而感到高興,然后他就會進入CRISP-DM的下一階段:數據準備。數據準備階段的重點是創建可用于數據分析的數據集。


通常,創建此數據集涉及集成來自多個數據庫的數據源,當組織機構具有數據倉庫時,這種數據集成相對簡單。創建數據集后,需要檢查數據質量并修復有問題的數據。典型的數據質量問題包括異常值和缺失值。檢查數據質量非常重要,因為數據中的錯誤會嚴重影響數據分析算法的性能。


03 建模階段


CRISP-DM的下一階段是建模階段。這是使用自動算法從數據中提取有用模式并對這些模式進行編碼的階段。在計算機科學領域,機器學習專注于此類算法的設計。


在建模階段,數據科學家通常會在數據集上使用多種機器學習算法并訓練出多個模型。此時通過在數據集上運行機器學習算法來訓練模型,以識別數據中的有用模式,對這些模式進行編碼,其輸出結果即模型。


在某些情況下,機器學習算法訓練出來的模型是模板化的,訓練的目的是根據數據集擬合出最佳的模板參數(例如,基于數據集擬合線性回歸或神經網絡模型)。在其他情況下,機器學習算法以分段方式構建模型(例如,從樹的根節點開始一次一個節點遞歸地創建決策樹)。


在大多數數據科學項目中,機器學習算法訓練出來的模型會被部署到線上以幫助組織機構解決數據科學項目中的問題。每個模型由不同類型的機器學習算法訓練出來,每個算法搜尋的模式也不盡相同。


在項目的這個階段,數據科學家通常不知道就手頭數據集而言哪些模式是最好的,因此,在這種情況下,需要嘗試使用多種不同的算法并檢驗哪種算法輸出了最精準的模型。


在大多數數據科學項目中,初始模型的測試結果就能揭示數據中的問題。當數據科學家發現模型的性能低于預期或模型的性能達到預期但真實性存疑時,數據錯誤有時會暴露出來?;蛘咄ㄟ^檢查模型的結構,數據科學家可能會發現模型依賴的屬性集并不是他所期望的,因此他重新訪問數據以檢查這些屬性是否被正確編碼。


因此,一個項目在建模跟數據準備這兩個階段之間進行多輪迭代是很常見的。例如,丹·斯坦伯格(Dan Steinberg)和他的團隊在一個報告中聲稱,在某個數據科學項目中,他們在6周的時間內重建了10次數據集,而在第5周,他們經歷了多次數據清理和準備,并且發現了數據中的一個重大錯誤。如果沒有識別并修復此錯誤,那么該項目不會成功。


04 評估和部署階段


在CRISP-DM中,評估和部署這兩個最后的階段側重于研究模型如何適應業務及其流程。在建模階段執行的測試更關注模型在數據集上的精度。評估階段涉及在業務需求這個更廣泛的上下文中評估模型。


模型是否滿足業務目標?如果模型不滿足,是否有任何業務方面的原因?在此過程中,數據科學家對項目活動進行常規的質量保證(quality assurance)審查也是很有用的:是否遺漏了任何內容?可以做得更好嗎?


基于對模型的一般性評估,在評估階段做出的主要決策是否應該在業務中部署任何模型,或者需要另一次CRISP-DM的迭代來創建適當的模型。


假設評估過程有一個或多個模型通過驗證,項目將進入流程的最后階段:部署。部署階段涉及確認如何將所選模型部署到業務環境中。這涉及規劃如何將模型集成到組織的技術基礎架構和業務流程中。最好的模型是無縫適應當前技術棧和業務流程的模型。


適合當前實踐的模型天然能獲得用戶的青睞,因為用戶有明確定義的問題,這樣的模型可以幫助他們解決問題。部署的另一個方面是制定計劃以定期檢查模型的性能。


CRISP-DM圖的外圈(圖2-3)突出顯示了整個過程是如何迭代的。數據科學項目的迭代屬性是這些項目的一個不可忽略的方面,而它在數據科學的討論中最容易被忽視。在項目開發并部署模型之后,應定期檢查模型,以檢查模型是否仍符合業務需求并且尚未過時。


數據驅動型模型可能過時的原因有很多種:


  • 業務需求可能已經改變;

  • 模型模擬的過程中獲取的洞察力可能已經失效(例如,客戶行為更改,垃圾郵件更改等);

  • 或者模型使用的數據流可能已經發生改變(例如,提供數據給模型的傳感器可能已經更新,并且新版本的傳感器提供了略微不同的讀數,導致模型不太準確)。


模型審核的頻率取決于業務生態系統和模型使用數據的變化速度,需要持續監控模型的效果以確定再次執行CRISP-DM的最佳時間。圖2-3所示的CRISP-DM的外圈正好揭示了這個道理。例如,根據數據特性,業務問題和領域,你可能每年、每季度、每月、每周甚至每天都要經歷此迭代過程。



05 每個階段需要安排多少時間?


圖2-4描述了數據科學項目過程的不同階段以及每個階段涉及的主要任務。


大數據培訓班



▲圖2-4 CRISP-DM各階段與任務


許多缺乏經驗的數據科學家經常犯的錯誤是將他們的工作重點放在了CRISP-DM的建模階段,并急于完成其他階段。他們可能認為項目中真正重要的可交付成果就是模型,因此數據科學家應該將大部分時間用于構建和調試模型。


然而,資深數據科學會花費更多時間來確保項目具有明確定義的重點并且擁有正確的數據。要使數據科學項目取得成功,數據科學家需要清楚地了解手頭項目試圖解決的業務需求。因此,CRISP-DM的業務理解階段非常重要。


關于為項目獲取正確數據這件事情,2016年對數據科學家的調查發現,79%的時間花在數據準備上。項目主要任務的時間分布如下:


  • 收集數據集,19%;

  • 清理和組織數據,60%;

  • 構建訓練集,3%;

  • 根據數據挖掘模式,9%;

  • 算法調優,4%;

  • 執行其他任務,5%。


79%的準備數字來自于收集、清洗,以及組織數據。大約80%的項目時間用于收集和準備數據,這在多年的工業界調查中一直都是一致的結論。


有時這一發現令人驚訝,因為他們想象數據科學家會花時間構建復雜的模型以從數據中獲取洞察力。但簡單的事實是,如果沒有應用到正確的數據集上,無論數據分析技術有多好,它都不會挖掘出有用的模式。  


關于作者:約翰· D.凱萊赫,都柏林理工學院計算機科學學院的教授以及信息、通信和娛樂研究所的學術負責人。他的研究得到了ADAPT中心的支持,該中心由愛爾蘭科學基金會(Grant 13 / RC / 2106)資助,同時也接受歐洲區域發展基金的資助。

布倫丹·蒂爾尼,都柏林理工學院計算機科學學院的講師,同時也是Oracle ACE 主任,還著有多本基于Oracle技術的數據挖掘類著作。


本文摘編自人人可懂的數據科學,經出版方授權發布。


大數據培訓班:http://www.onhairsalon.com/bigdata2019


上一篇:河南python培訓班 | 小白 Python爬蟲:urllib 基礎使用(五)

下一篇:應屆生去公司找個Java程序員的職位需要什么技能?

相關推薦

www.onhairsalon.com

有位老師想和您聊一聊

關閉

立即申請