香港2024年9月6日 /美通社/ — 人工智能(AI),尤其是生成式AI,是全球熱門話題。在所有關於AI的熱議中,一個關鍵問題被提了出來: 企業真的為AI做好數據準備了嗎?換言之,企業的數據做到AI就緒了嗎?我們不禁要認真思考AI應用與數據準備之間的關係,以及如何做好數據準備從而可以跨整個企業來擴展AI。
事實上,為AI做好數據準備不僅僅是一個熱詞,它意味著要把準備和組織數據與AI算法相匹配,以確保AI在實際應用中發揮最佳效果。這個過程不僅涉及收集數據,還包括精心構建數據結構、準確標記數據,並以最適合AI模型的方式來組織數據。
在 IBM 香港科技論壇 主題為「您的數據是否已經為AI做好準備?」的專題討論中,來自金融科技公司Alpha Square、恒生銀行、數據素養協會和香港樹仁大學的專家就數據就緒的重要性、如何識別適用於AI的數據,以及培養AI時代「數據為先」的文化對於理解和做好數據準備工作的關鍵作用進行了深入探討。
為AI的成功做好基礎架構、算法和數據準備
Alpha Square科技的創始人兼首席執行官Arthur Wong先生 擁有 30 多年利用新興數碼技術和解決方案推動 IT 轉型的豐富經驗,他強調了成功實施人工智能的三個關鍵要素:底層基礎架構、人工智能模型或算法,以及數據就緒。
然而,資源通常被用於基礎架構設施和AI模型,數據就緒的工作經常被忽視。做好數據準備極具挑戰性但又至關重要,它與特定行業的需求和內部流程密切相關,是令企業脫穎而出的關鍵。Authur分享了他在銀行業的經驗,他專注於元數據管理和利潤分配這類複雜任務的解決方案,這些任務需要耗費大量時間和精力。雖然更多的數據可以提高AI的準確性,但確保數據質量同樣重要。他建議企業增加數據準備工作的資源和人力投入,有效應對與數據相關的重要挑戰。
Authur談到企業在數據管理方面所面臨的挑戰,包括組織內部分散的數據、中小型組織缺乏明確的數據管制政策以及與數據使用相關的企業文化等。他強調要將分散的數據源整合到集中式存儲庫中;要管理好元數據和血緣等數據元素,從而可以實現有效的決策和 AI 建模,亦要改進數據在關鍵決策中的系統化使用。
此外,他還分享了Alpha Square科技公司在開發基於 WhatsApp 和微信的信息平台時處理非結構化數據的經驗。由於客戶互動語言的多樣性、音頻內容和表情符號等因素,從非結構化數據中提取有價值的見解非常複雜。他認為,要解決這些問題,自然語言處理(NLP)、音頻識別和圖像識別等先進的AI模型對於構建高效的AI應用至關重要。
數據就緒的關鍵控制指標
恒生銀行數據與分析辦公室主管Edwin Hui先生是一位經驗豐富的數據專家,已經在這個行業工作了20多年,目前負責領導恒生銀行的數據和分析團隊。Edwin 對追求絕對準確性而不是速度提出了質疑,他說如果將準確率的要求略微降低到90%,可以加快流程,尤其是在效率至上的營銷活動場景中。
這同時引發大家對投資回報率 (ROI) 的討論,尤其是關乎銀行業等受到嚴格監管的行業場景,各種關鍵控制指標 (KCI) 要如何從不同角度有效衡量企業實施AI的數據就緒性。Edwin 詳細闡述了不同層面KCI 的複雜性,包括對整体互連的上游和下游系統的數據就緒性和可用性的評估。他反思如何在考慮時間和資源限制的同時又能嚴格保證數據的準確性,提出是否有必要追求絕對完美,或者應該從投資回報率的角度尋找一個平衡的方法。
Edwin 承認,向業務領導證明數據治理支出的合理性是一個難題,尤其是從投資回報率的角度來看更是如此。他強調保持長期視角和持續努力開展數據治理、控制和準備工作的重要性,強調這些工作對於促進組織成功实施AI至關重要,對於業務利益相關者來說,這也是他們資助這些計劃並從中受益的關鍵。
以恒生銀行正在實施的關鍵措施為例,Edwin 認為採取整體的數據管理方法對企業具有實際價值。他強調,要建立有效管理數據的控制措施,實施提升企業數據素養的計劃,加強企業整體對於數據潛在價值的認識,培養分析能力並以數據洞察推動決策。這些要素相互配合,有利於形成一個集管理、文化和分析於一體的整體戰略。
數據素養:AI項目獲取ROI的關鍵
Toa Charm 博士是數據素養協會的創始主席,他曾在Cyberport、HSBC、IBM 和 Oracle 擔任高管,經驗豐富。他強調數據素養對於數據和 AI 計劃的投資回報率(ROI)至關重要。
Toa Charm 博士強調,組織的數據素養對於最大限度地提高其數據和 AI 項目的ROI至關重要,這關乎評估組織內部「數據為先」的文化和員工的數據思維方式,只靠擁有大量數據並不能保證組織獲得最佳的投資回報。
在談到元數據管理的挑戰時,Toa Charm 博士強調跨部門明確數據定義很有必要,可以促進協作、解決複雜問題。目標是通過在全公司普及數據知識,使員工能夠利用數據解決問題和創造價值,使組織能夠從數據資產中獲利。
他同时強調,評估用於數據湖的數據,对于有效應對業務挑戰並達到用例所期效果非常重要。他指出,需要對數據的清理、準備和管治等任務進行優先排序,將重點放在能為公司带来價值的行動上。
要從數據資產中獲利,一個閉環的反饋系統也很重要。Toa Charm 博士指出,數據和AI計劃的實施需要多個部門協作努力,不單是靠 IT 和數據專家。要想取得成功,企業必須培養數據驅動的文化和思維方式,培養所有員工的數據素養,使他們對於使用企業數據的目標、語言和理解保持一致,從而實現高效協作與共贏。
數據就緒性在學界的現狀
香港樹仁大學應用數據科學系副教授兼系主任Connie Yuen博士 是該校大數據實驗室的創始主任,她分享了AI的數據準備工作在教育和研究領域的現狀。
Connie Yuen博士借鑒一個與非政府組織合作開發早期閱讀障礙識別智能系統的項目,探討了他們在數據收集方面遇到的挑戰。這些挑戰源於早期教育中心沒有保留原始數據,因此需要花費大量精力和時間來收集必要的數據。她強調跨商業和非政府組織推動AI就緒的數據準備工作很有必要。
她引用現實案例,介紹了香港的大學通過採用行業合作夥伴的建議來定制提升學生數據素養的學分與非學分課程。她認為實踐對於學生大有助益,如通過暑期實習參與行業項目,以此來加深他們對於數據的AI就緒性和數據素養的理解。Connie Yuen 博士預計未來幾年學生會進一步掌握和理解這些概念。
數據就緒:成功實施 AI 的基礎
專家們強調了企業和組織在實施AI的過程中,數據就緒對於釋放AI的全部潛力和成功擴展AI的重要作用。
企業需要可信賴、可擴展和具有適應性的AI。為了幫助企業把握AI機遇,IBM 提供了 watsonx 數據和AI平台,其中包括三個組件和一整套AI助手,旨在幫助企業利用可信數據擴展和加速AI的影響:[i]
- watsonx.data: 是一個基於開放式湖倉一體(lakehouse)架構的數據存儲,針對受管控的數據和AI工作負載進行了優化,支持以查詢、管治和開放數據格式來使用和共享數據。它簡化了複雜的數據景觀,消除了數據孤島,優化了不斷增長的數據工作負載的性價比,管理數據並做好數據準備,以提高AI的相關性和精確性。利用 watsonx.data,使用者可以經由單一入口、在跨雲或本地環境取用數據 — 這不再只是數據科學家或工程師的特權,非技術背景的使用者也可以在單一協作平台上,隨時使用高品質、可信賴的企業數據,並透過集中管治與採用本地自動化政策,實現企業資訊安全與符規。[ii]
- watsonx.ai: 將由基礎模型驅動的生成式AI功能與機器學習功能整合到一個跨越 AI 生命週期的強大開發平台之上;可以利用企業的數據來調整和指導模型,滿足企業的需求,並提供易用的工具來構建和優化高性能的AI提示。借助watsonx.ai,企業可以花費較少的時間,使用較少的數據,來構建他們的AI應用程序。
- watsonx.governance: 是一個整合的 AI 管治平台,用於指導、管理和監控 AI ,促進AI的責任性、透明度和可解釋性,支持可信的 AI 工作流程。
AI 的基礎架構設施和模型開發固然重要,然而AI的數據就緒性(包括數據治理、數據素養和高級分析)同樣重要。組織必須採用整體方法,整合不同的數據源,制定強大的控制措施,並培養以數據為中心的文化[iii],使各級員工都能有效地理解和利用數據。
事實上,79% 的組織認為,未來一年內數據將越來越多地參與到組織決策中[iv]。IBM 建議企業要從數據準備、數據清理和數據利用這幾個方面著手為實施和擴展AI做好數據準備。
在一個 AI 賦能、數據驅動決策的組織當中,數據素養是每個員工都要具備的能力,而不僅僅是數據科學家,所有員工都要能夠使用數據進行理解、推理和交流。提升企業的數據素養,塑造「數據為先」的文化,可以從以下四項基礎工作開始 [v]:
- 在企業內部實現數據訪問的民主化:通過創建受管制的集中式數據存儲庫(例如 Data Fabric),整個組織的人員可以輕鬆訪問和分析數據,利用分析和 AI 等技術來改進工作流程。IBM 建議公司採用 Data Fabric 架構來簡化數據的集成、治理、可觀察性、血緣和主數據管理。為給生成式 AI 提供高質量的數據,IBM Data Fabric 為組織提供可信賴的數據基礎,使企業能夠利用 IBM 的數據治理和數據質量功能,利用自動化進行數據的發現、豐富和保護,可以採用多種數據集成樣式為 AI 工作流提供可靠的數據。IBM Data Fabric架構具有可組合性,客戶無論處在數據旅程的哪個位置, IBM 都可以滿足他們的需求。[vi]
- 以清晰透明的方式組織信息:建立受管制的數據訪問平台只是第一步。然後,要幫助組織內所有利益相關者(從技術用戶到非技術用戶)瞭解數據的價值、來源和質量,這一點至關重要。透明、可解釋的數據流程是通過明確數據血緣和流程來激發大家對 AI 計劃的信任。雖然不是每個人都需具備數據科學的專業知識,但所有人在搜索數據、訪問相關數據和利用數據啓用業務應用程序的時候,都應該瞭解這些數據,瞭解它們的血緣以及是如何在組織端到端的流程中流動的。
- 幫助員工負責任地使用數據和AI生成的行動見解:數據素養培訓對於幫助團隊負責任地使用數據和 AI 生成的見解至關重要,以幫助他們做出更好的決策、取得更好的業務成果。通過培養員工對數據工具的深刻理解和對數據進行具像化的能力,組織可以將原始數據轉化為行動見解。有效的數據素養計劃可以幫助員工將數據轉化為戰略資產,最終把數據洞察與有形的業務成果聯繫起來。
- 培養和激勵數據倡導者,打造「數據為先」的文化:好奇心對於提升企業的數據素養,打造「數據為先」的組織文化至關重要,員工和領導者都應積極驗證 AI 生成的建議是否與組織的目標一致。同時培養和激勵數據倡導者在不同職能部門部署數據和 AI 功能,培育一個持續學習的數據倡導者網絡。
歸根結底,企業為AI做好數據準備的工作,一方面要做好數據管理,另一方面要塑造數據驅動的思維方式,這是一個旅程。對於那些希望利用AI 推動增長、提升競爭優勢的企業,做好數據準備是需要優先考慮的工作。
在此,衷心感謝四位尊敬的行業專家參與我們的討論,他們的見解與視角讓我們的討論更加全面,让我們進一步瞭解了數據就緒對於成功實施 AI 的重要性。
Alpha Square 科技創始人兼首席執行官 Arthur Wong 先生(上圖左一)、 香港樹仁大學應用數據科學系副教授兼系主任 Connie Yuen 博士(上圖左二)、恒生銀行數據及分析辦公室主管 Edwin Hui 先生(上圖左三)及數據素養協會創會主席 Toa Charm 博士(上圖左五)出席了由 IBM 香港软件銷售主管Kayton Wan先生(上圖左六)主持的主題為「您的數據是否已經為AI做好準備?」的专题討論。IBM 中國香港總經理Mimi Poon女士 (上圖左四)與嘉賓及主持人合影。
關於本文作者:
Kayton Wan,IBM 中國香港有限公司軟件銷售主管
Kayton Wan 現任 IBM 中國香港有限公司軟件銷售主管。他帶領一支專業團隊,為不同行業的客戶提供創新的定制化軟件解決方案。憑借在信息技術和服務領域超過 10 年的經驗,Kayton 在推動 IBM 技術產品組合的收入增長、客戶滿意度和市場滲透方面成績斐然。他的核心能力包括銷售、客戶關係管理、IT 戰略、專業服務和數據中心管理。 憑借其會計背景和商業敏銳度,Kayton 深知客戶的需求和挑戰,並為他們提供最佳和具有成本效益的解決方案。他的目標是幫助 IBM 在香港成為企業信賴與看重的技術合作夥伴。
媒體聯絡人: