了解最新公司動態及行業資訊
數據科學是一種將業務數據轉化為資產的方法,可幫助組織增加收入、降低成本、捕捉商機并改善客戶體驗。
什么是數據科學?將數據轉化為價值
數據科學定義
數據科學是一種使用從統計分析到機器學習的方法從結構化和非結構化數據中收集見解的方法。對于大多數組織而言,數據科學用于以增加收入、降低成本、提高業務敏捷性、改善客戶體驗和新產品開發的形式將數據轉化為價值。
首席數據科學家 Adam Hunt 說:“如果你愿意的話,一家公司可用的數據量是巨大的,但如果它什么都不做并把它變成有趣的東西怎么辦?數據科學就是提供數據的目的。”
數據科學與分析
盡管密切相關,但數據分析是數據科學不可或缺的一部分,用于理解組織的數據。數據科學使用分析的輸出來解決問題。
“數據科學正在得出驅動數據的結論,”亨特說。“如果你不是用數據來解決問題,如果你只是在做研究,那就是分析。如果你真的想用結果來解釋一些事情,你需要分析科學。數據科學更多地與解決實際問題有關而不是觀察、檢查和繪制數據圖表。”
對于 Green- 的首席數據科學家,數據分析和數據科學之間的區別在于時間尺度。她說,數據分析描述了當前的現實。數據科學使用這些數據來預測或了解未來。
Green- 說:“許多人認為數據分析師只是初級數據科學家;有些人長大后想成為數據科學家。有時這是真的,但事實上我發現一個非常優秀的分析師擁有不同的數據科學家技能組合”
數據科學與大數據
數據科學和大數據經常重合,但數據科學可用于從各種規模的數據中提取價值,無論是結構化、非結構化還是半結構化。當然,在很多情況下,大數據對數據科學家很有用,因為公司擁有的數據越多,給定模型中可以包含的參數就越多。“有了大數據,公司就不必受限于小數據的維度,”亨特說。大數據確實在某些方面有所幫助,但更多并不總是更好。如果股市在正確的地方,它就不會起作用。”
數據科學的商業價值
數據科學的商業價值取決于組織需求。數據科學可以幫助組織構建工具來預測硬件故障,使組織能夠執行維護并防止意外停機。它可以幫助預測超市貨架上的商品,或根據產品的屬性預測產品的受歡迎程度。
MapR 的首席應用程序架構師 Ted 說:“數據科學團隊可以擁有的最大價值是當他們融入業務團隊時。幾乎根據定義,尋找新人,真正創新的人,會發現價值或漏洞價值,而不是人們所期望的。通常他們對商業人士來說是一個驚喜。價值不是人們最初認為的。
數據科學團隊
數據科學通常是團隊科學。數據科學家是大多數數據科學團隊的前瞻性核心,但從數據到分析,再將分析轉化為生產價值需要一系列技能和角色。例如,數據分析師應該在維護數據模型之前向團隊提供數據并進行調查。數據工程師必須構建數據管道來豐富數據集,并使它們可供公司中的其他人使用。
分析副總裁馬克 - 警告不要尋找數據科學“獨角獸”,他們將非線性思維與高級數學、統計知識和編碼技能相結合。
- 解釋說it技術工程師,“我不認為數據工程是數據科學家的關鍵特征。我希望有人真正添加其他東西。如果我能讓某人建立模型,我可以評估統計數據并傳達好處將模型提交給業務部門,然后我可以聘請一名足夠成熟的數據工程師來采用該模型并實施它。”
嵌入式數據科學方法
一些組織選擇將數據科學家與其他職能相結合。例如,Mapr 的建議遵循一種數據方法,將數據科學家嵌入到負責業務領域的團隊中。這些數據運營團隊通常具有運營、軟件工程、架構和產品管理等跨職能技能和技能,能夠自始至終協調數據、工具、代碼和環境。數據運營團隊傾向于將分析管道視為類似于生產線。
說:“一個孤立的數據科學團隊可能希望部署最復雜的模型,而嵌入式數據科學家將尋找負擔得起的低成本勝利。他們對他們選擇的解決方案很務實。”
數據科學目標和可交付成果數據科學的目標是構建從數據中提取以業務為中心的洞察力的方法。這需要了解價值和信息在企業中的流動方式,并能夠利用這種理解來識別商機。雖然這可能涉及一次性項目,但更典型的是,數據科學團隊尋求確定可以轉換為數據管道以支持可維護工具和解決方案的關鍵數據資產。例如,銀行使用的信用卡欺詐監控解決方案,或用于優化風力渦輪機在風電場中的布置的工具。
傳達團隊所做工作的演示文稿也越來越成為重要的可交付成果。Riskq 的 Hunt 說:“確保他們將結果傳達給公司的其他部門非常重要。當數據科學團隊陷入困境的時間過長時,它就會開始陷入困境。產品經理理所當然地認為工作已經完成,除非我們一直在談論它。.并注意它。”
數據科學過程和方法論
生產工程團隊按周期工作,并有計劃的時間表。亨特說,這對于數據科學團隊來說通常很難做到,因為確定一個項目是否可行需要時間。
“很多時候,第一周甚至第一個月都是研究,收集和清理數據。我們能回答這個問題嗎?我們能有效地做到嗎?我們花了很多時間設計和調查,遠遠超出了標準的工程團隊表現。”
對于亨特來說,數據科學應該遵循科學方法,盡管他指出情況并非總是如此,甚至可能并非如此。
亨特說:“企業正試圖從數據中提取一些見解。為了反復和自信地做到這一點,必須用科學的方法來準確地證明他們的假設。但我認為很多數據科學家實際上并沒有使用任何科學。”
亨特說真正的科學需要時間。公司花時間確認他們的假設,然后花很多時間反駁自己。
亨特說:“有了數據科學,公司需要深入研究數據來檢驗這些假設。我們試圖回答的許多問題都是短暫的。例如,試圖找到安全威脅的解決方案。”
因此,他說,數據科學通常意味著采用“足夠好”的答案,而不是最佳答案。然而,危險在于結果可能成為確認偏差或過度擬合的受害者。
“如果這不是真正的科學,也就是說,公司使用科學方法來證明假設,那么他們所做的就是使用數據來檢驗他們的假設,”他說。
數據科學工具
數據科學團隊使用各種工具,包括 SQL、R、Java 以及 Hive、oozie 和 . 這些工具用于各種與數據相關的任務,從提取和清理數據到通過統計方法或機器學習對數據進行算法分析。算法分析是通過統計方法或機器學習進行的。
“企業需要好的可視化工具。編程工具是目前最流行的。企業需要能夠構建有趣模型的工具,”MapR 說。
該公司表示,當 MapR 對其客戶數據團隊進行調查時,該團隊至少使用了五種建模工具,甚至沒有使用可視化工具。
“事情正在增加,因為人們更加懷疑。這種其他建模技術會產生更好的模型嗎?” 鄧寧說。
數據科學家薪水
根據 Data 的數據,以下是一些最受歡迎的數據科學相關工作和每個職位的平均工資:
分析經理:67,000 美元至 126,000 美元
助理數據科學家:58,000 美元至 101,000 美元
商業智能分析師:49,000 至 95,000 美元
數據分析師:42,000 美元至 83,000 美元
數據:77,000 美元至 153,000 美元
數據工程師:64,000 美元至 132,000 美元
數據科學家:65,000 美元至 134,000 美元
IT 數據科學家:61,000 美元至 135,000 美元
首席數據科學家:95,000 美元至 172,000 美元
研究分析師:40,000 至 70,000 美元
研究科學家:48,000 至 118,000 美元
高級數據科學家:93,000 美元至 160,000 美元
統計學家:50,000 美元至 108,000 美元
數據科學技能
雖然數據科學學位課程的數量正在迅速增加,但它們不一定是組織在尋找數據科學家時所尋找的。公司 - 說他正在尋找具有統計背景的候選人,所以他們知道他們是否正在查看實際結果,領域知識以將結果付諸實踐;和溝通技巧,以便他們可以將結果傳達給業務用戶。
“如果我有一位數據科學家可以完成所有工作,那么我擔心通過數據工程團隊來完成,”他說。
Seek表示對具有博士學位的候選人非常感興趣。“我更愿意雇用擁有博士學位的人,但我不會放棄擁有豐富經驗的人,”亨特說。“醫生可以對一個主題進行非常深入的研究,并將該信息傳播給其他人。但對于扎實的背景或個人項目來說,卻非常有趣。”
亨特說他在物理學、數學、計算機科學、經濟學甚至社會科學方面都有天賦。他不看具有數據科學或分析學位的候選人,但他對雇用他們持保留態度。“我個人的經驗是,我發現它們非常有用,但它們過于關注模型的運作方式,而不是思維方式,”他說。MapR 更關注申請人的個人能力,而不是展示新事物的能力。他說:“當我聘請數據科學家時,我首先想到的是:面試者能不能教我一些東西?我不想要一個能告訴我怎么做的人。我真的想找到一個能做我想做的事的人。”不能。要做的事情。或者可以傳授給團隊的才能。”
鄧寧指出,一些優秀的數據科學家或數據科學領域的領導者具有非傳統背景,并指出與他共事過的一些最優秀的人包括從事園丁工作六年的人、具有藝術背景的人、一些人。即使是擁有法國文學學位但沒有接受過計算機培訓的新聞專業學生。
“我想用數據感知來測試人,而不是公式。我希望能夠看到并理解他們,”鄧寧說。
數據科學培訓
鑒于目前缺乏數據科學人才,許多組織正在制定計劃來培訓內部數據科學人才。培訓是另一種快速增長的培訓員工擔任數據科學家角色的方法。
數據科學學位
根據美國新聞與世界報道,這些是數據科學領域的頂級研究生學位課程:
統計學碩士:斯坦福大學數據科學
信息與數據科學碩士:伯克利信息學院
數據科學碩士:哈佛大學約翰保爾森工程與應用科學學院
分析學碩士:芝加哥大學格雷厄姆學院
計算機數據科學碩士:卡內基梅隆大學
數據科學碩士:華盛頓大學
跨學科數據科學理學碩士:杜克大學
應用數據科學碩士:密歇根大學信息學院
數據科學認證
組織需要具有數據分析技術專業知識的數據科學家和分析師。他們還需要大數據架構師將需求轉化為系統it技術工程師,需要數據工程師來構建和維護數據管道,需要了解集群和其他技術的開發人員,以及連接一切的系統管理員和管理員。認證是求職者展示其具備合適技能的一種方式。
一些頂級大數據和數據分析認證包括:
數據科學專業成就認證
認證分析師專家
認證助理 (CCA) 數據分析師
EMC 認證專業數據科學家協會 ( )
MapR 認證數據分析師
認證解決方案專家 (MCSE):數據管理和分析
SAS 認證數據科學家使用 SAS 9