了解最新公司動態及行業資訊
藍盟IT小貼士,來!
IT 員工和數據專業人員需要構建物理基礎架構,以便在不同來源和多個應用程序之間移動數據。它還必須滿足性能、可擴展性、及時性、安全性和數據治理要求。此外,業務可能會迅速失控,因此必須提前考慮部署成本。
也許最重要的是,企業首先需要弄清楚大數據如何以及為什么對他們的業務很重要。
“大數據項目面臨的最大挑戰之一是如何更好地應用所獲得的知識,”ERP 軟件提供商 VAI 的商業智能經理比爾說。
雖然許多應用程序和系統都在捕獲數據,但企業往往難以理解有價值的數據,并且未能以一種有影響力的方式應用這種觀點。
從更廣泛的角度來看,以下建議可幫助組織了解這 10 大數據挑戰以及如何應對這些挑戰。
1.管理大量數據
在這個定義中,大數據通常包括存儲在各種系統和平臺上的大量數據。企業面臨的第一個挑戰是將來自 CRM、ERP 系統和其他數據源的大型數據集集成到一個集成的、可管理的大數據架構中。
他說,當他知道正在收集的數據時,通過進行較小的調整來縮小洞察范圍會更容易。要實現這一點,請構建一個允許增量更改的基礎架構。如果您嘗試進行重大更改,最終可能會遇到新問題。
2. 查找并修復數據質量問題
如果數據質量問題蔓延到大數據系統,基于大數據構建的分析算法和人工智能APP應用可能會導致不良后果。如果數據管理和分析團隊嘗試部署更多不同類型的數據,這些問題可能會變得更加嚴重且難以審核。在在線市場中尋找在線購物助手,以幫助人們購買產品并安排運輸。在擴展到 500,000 個客戶時遇到此問題。該公司的主要增長動力是利用大數據來提供高度定制的體驗、識別追加銷售機會并監控新趨勢。有效的數據質量管理是一個重要問題。
“我們需要不斷監控和修復數據質量問題,”Pavel 說。他說重復條目和拼寫錯誤很常見,特別是如果數據來自不同的來源。為了確保他們收集的數據的質量,該團隊創建了智能數據分類器。此分類器匹配具有較小數據差異的重復數據,并報告拼寫錯誤的可能性。這有助于提高通過分析數據生成的集團業務洞察力的準確性。3. 應對數據集成和準備的復雜性
開源分析平臺提供商 Knime 的首席數據科學家表示,大數據平臺可以解決收集和存儲大量不同類型數據的問題,并快速獲取分析所需的數據。但是it技術,數據收集過程仍然非常困難。
企業收集的數據存儲的完整性取決于持續更新。這需要保持對各種數據源的訪問并擁有專門的大數據集成策略。
一些公司使用數據湖作為綜合存儲庫來存儲從不同來源收集的大型數據集,而不管各種數據將如何集成。例如,不同的業務領域生成的數據對于聯合分析很重要,但往往具有不同的潛在含義,公司需要消除歧義。警告我們暫時不要集成項目。這可能包括大量的返工。為了優化大數據項的投資回報,通常建議制定支持數據集成的戰略方法。
4. 大數據系統的高效和經濟擴展
如果企業沒有使用大數據的策略,那么存儲大數據可能會浪費大量資金。根據技術和服務提供商 ZL Tech 企業解決方案負責人的說法,企業需要了解大數據分析始于數據捕獲階段。管理企業數據存儲還需要一致的保留策略來回收舊信息。尤其是現在,COVID-19 之前的數據在當今市場上往往不準確。
云管理平臺供應商產品副總裁 Rehl 表示,數據管理團隊必須在部署大數據系統之前規劃數據類型、模型和用途。然而,這并不容易。
“我們通常從數據模型開始進行擴展,但很快意識到該模型不適合新的數據點,并且突然需要解決技術債務問題,”他說。
具有適當數據結構的公共數據湖可以更輕松、更高效、更經濟地重用數據。例如,文件通常比數據湖 CSV 轉儲提供更好的性能成本比。
5、大數據技術評價與選擇
數據管理團隊擁有多種大數據技術,而且各種工具的功能通常會重疊。
NoSQL 數據庫公司的首席戰略官表示,來自流和批處理源的當前和未來數據,包括大型機、云應用程序和第三方數據服務,例如 Kafka、、AWS 和 pub 等企業流平臺。/sub ) 可以是云、本地和混合。然后,團隊需要評估復雜的數據準備能力,并將數據提供給人工智能、機器學習和其他高級分析系統。計劃處理數據的位置也很重要。如果延遲是一個問題,團隊應該考慮如何在邊緣服務器上運行分析和 AI 模型it技術,以及如何輕松更新模型。企業必須在這些功能與部署和管理在本地、云端或邊緣運行的設備和應用程序的成本之間取得平衡。
6. 產生商業洞察力
數據團隊傾向于關注大數據技術而不是結果。經常發現他們不太關心如何處理數據。
從企業中的大數據應用程序中生成有價值的業務洞察需要考慮多種場景,包括基于 KPI 的報告、識別有用的預測以及提出不同類型的建議。
這需要具有機器學習專業知識的業務分析師、統計學家和數據科學家的協助。她說,這些團隊與大數據工程團隊合作,可以提高構建大數據環境的投資回報率。
文/上海藍盟IT外包專家