我们从2011年坚守至今,只想做存粹的技术论坛。  由于网站在外面,点击附件后要很长世间才弹出下载,请耐心等待,勿重复点击不要用Edge和IE浏览器下载,否则提示不安全下载不了

 找回密码
 立即注册
搜索
查看: 947|回复: 2

[最新新闻] 玉山資料科學團隊心法大公開

[复制链接]

该用户从未签到

1359

主题

487

回帖

127

积分

二级逆天

积分
127

社区居民原创达人忠实会员社区劳模终身成就奖特殊贡献奖原创先锋奖金点子奖

QQ
发表于 2016-11-8 17:56:19 | 显示全部楼层 |阅读模式
企業在導入大數據、資料科學後,所有問題就能迎刃而解嗎?帶領玉山銀行資料科學團隊的資訊處協理郭健男表示,資料科學就像採礦,得經多重萃取才能找出含金資訊。


788_xin_wen_15-16-yu_shan_yin_-960.png
在本土銀行業者中數位轉型布局較為積極的玉山銀行,除了在2000年開始隨即實驗電子支付,近年更是成立了資料科學團隊,開始用大數據分析各通路、實體分行及用戶的特質。
帶領玉山銀行資料科學團隊的玉山銀行資訊處協理郭健男表示,在玉山銀行成立24年以來,經營團隊團清楚地以10年為1個單位,訂定每階段所要達成的目標。他表示,最開始20年的玉山銀行,已經完成兩階段任務,能夠提供用戶專業服務,「第3個10年,我們則鎖定利用科技,來實現玉山銀行的業務目標。」
郭健男表示,資料科學經常處理過往不曾碰過的新問題,過程中必然會碰上許多失敗、挫折。但是為了走向創新,公司高層也給予資料科學團隊相當大的空間進行實驗,「這也是玉山銀行資料科學步調較快原因。」
資料科學就如同採礦
雖然大數據、資料科學聽起來好似企業的萬靈丹,彷彿導入後所有問題都可以迎刃而解。但是打造良好的資料基礎環境仍然是必備品。光是資料的收集、整理、萃取及邏輯化,就耗費玉山資料科學團隊將近8成的力氣。
「我喜歡用採礦的概念比喻資料科學」,對郭健男來說,原始資料就像富含礦產的寶山,在收集資料過程中,就如採礦挖到一堆沙土,但是價值最高的資訊都隱藏在其中,首先得經過許多清洗、整理,「讓一開始的原始資料,變成有意義的資訊。」
在玉山資料科學團隊中,資料處理分析人員可分成三大團隊。第一是資料倉儲團隊,再者商業智慧分析團隊,最後則是資料科學團隊,除了許多具備管理資料倉儲、BI經驗的人員參與,「其中約有10位資料科學家,利用非傳統的BI方式,對資料進行探索,尋找新興業務價值。」
而所有玉山銀行資料的源頭,都是來自於資訊處建置的資料倉儲。而資訊處得負責將資料整理、建模等加工過程,讓其他部門的使用者可以迅速地進行分析或是繪製報表。
「資料是有生命周期的」,從最開頭資料的產生、收集、梳理,到歸納邏輯及規格化,最後則是產生實際加值應用,而每個步驟都需要不同專業團隊。因此,玉山銀行資料分析團隊也多是按照此流程依序分工。郭健男舉例,像是資料整理、收集,則交由資訊單位的某部門負責,資料的後端應用,則交給業務單位使用。另外,根據各單位所職掌相異的業務,如客群分析、行銷管理、風險管理、經營管理的性質,玉山銀行也會配置不同專長的資料分析人員。
然而,銀行內部擁有許多客戶個人資訊,包含姓名、性別、電話及消費紀錄等私密資料,在資料科學的應用中,玉山銀行不免會碰上資料去識別化的議題。
而郭健男強調,在資料倉儲中,每一用戶也都會給予一組獨特亂數,資料分析人員則是針對用戶屬性進行分析,並不需要知道分析對象的身份。同時,客戶個人資料都已經進行去識別化,無從得知分析對象的個資。如有產生客戶名單需求,則可以利用亂數,在資料倉儲中找到相對應用戶身份,「但這並非分析人員擁有的權限」,利用職權分割,不論是前端資料分析、後端應用,沒有任何資料分析人員可以看見完整客戶資料。
788 新聞 (15-16-玉山銀)-600-1.png

從靜態KYC資料轉為收集動態CRV資訊
在2006年時,玉山銀行也開始重視客戶資料的獲取及分析,並且產生客戶價值風險(Client's Risk &Value,CRV)分析方式,要利用既有內部的客戶KYC(Know Your Customer)資料作為基礎,近一步地加強分析細膩度,讓用戶可以更細緻地被分群。
郭健男解釋,KYC是收集最基本的客戶資料,像是男、女、教育程度、收入,「但是這樣的資料是比較靜態的。」隨著時間,用戶的經濟狀況也會不停地改變。
他舉例,比方說一名客戶從20歲開始,以學生身份成為玉山銀行的用戶,到了40歲時則成為了一名卓越成功人士。用戶需求從原本基礎的存款、提款,開始多了結婚、購屋等需求,「在他的人生旅途中,我們得要推薦不同的金融商品,比方說外幣、定存,這些都可隨狀況調整。」
為了要加深用戶與企業間的關係,玉山銀行必須與其保持著動態連結,資料也要隨用戶的人生進程改變,也因此,玉山銀行才得從KYC,進一步跨向CRV,「這樣才能適時地理解客戶的狀況。」
不過,除了用戶最初登記的個人資訊,以及客戶與銀行互動所留下消費資料、信用卡紀錄等內部資訊,使用者近年大量使用行動裝置的風氣下,往往也會在臉書、部落格等社群平臺留下許多數位足跡,「消費者自己產生了許多動態資訊。」消費者現在也兼任生產者身份,產製許多資訊,演變為生產性消費者(Prosumer)。
在資料如此爆炸性的成長下,玉山銀行不能只仰賴內部營運蒐集來的資料,「還要從外部管道了解用戶,此時就開始產生大數據分析的概念了。」然而,串接外部資料的挑戰性相當高,相比於內部資料可以自行定義姓名、性別等資訊欄位,外部資料往往雜亂無章,掌握度也遠不及行內資訊。
在資訊獲取管道已經從企業內部延伸至外部社群的情況下,同時意味著對於企業可以對用戶現況有更深層認識。因此,玉山銀行得與時俱進,從過去以產品為中心的大量銷售行為模式,轉為以客戶導向的量身訂做行銷方案,「不對客戶產生無謂的干擾。」
這時,高命中率的精準行銷概念便油然而生,資料細緻度從較粗糙的KYC資料、客戶分群(Segmentation),進步到顆粒度最細的個人化,「過程中我們需要借助科技的力量幫我們實現。」
在2006年前,玉山銀行資料的應用範疇是最基本的資料倉儲應用,例如產生法規報表、經營報表等資訊。
在2006年及2009年之前,資料分析應用的主力則著墨在BI範疇,並開始推廣客群經營、精準行銷的概念。雖然近兩三年玉山銀行已經踏入資料科學的領域,「但它不是一步到位」,目前玉山銀行仍然持續經營BI的應用。
對於用戶狀況的理解,也得從靜態轉為動態。郭健男舉例,假設過去A客戶的嗜好為打網球,在近期卻熱衷於游泳。此類的動態資訊無法從KYC的管道得知,必須主動從外部資訊渠道取得。這時便可向A客戶多推銷游泳的產品,「這類的情境式行銷,理解用戶的速度越快,效果越好。」
或是以銀行業務相關的案例為例,若分析用戶在網路平臺的點擊行為,發現A使用者經常瀏覽日本旅遊景點的資訊,便可推估客戶或許有出國旅行的需求,這時便可以推薦玉山銀行的外幣服務、雙幣信用卡,替消費者節省旅日刷卡時的額外手續費,改善使用經驗,「這就是恰到好處的行銷。」
然而從用戶長期不變的習慣,開始密切鎖定其短期行為的變動,其行為模式改變的軌跡,非BI能掌握的範疇,無從透過用戶在ATM領錢,或是銀行內部Log紀錄中理解,必須開始吸取挖掘外部管道資訊,「綜合不同的場合中觀察得知。」
比較傳統BI與資料科學本質上的差異
從BI應用演進至資料科學,兩者在研究資料本質的思維差異,也將對對玉山銀行帶來挑戰。在傳統BI中,企業能清楚了解資料帶來的洞見,像是產業性質、資料欄位的意義,但是一旦踏入了資料科學領域,企業則面對著海量資料,以及過去從未定義過的資料等未知領域,「我認為資料科學就像踏入一個不知其生態系統為何的森林」,唯有花時間走進去探索,才能了解它的真實相貌及意義。
相同的比喻套用至BI,內部資料的欄位都是企業自行定義,例如銀行存款用戶的姓名、教育程度、收入,「相當清楚此森林的面貌為何」,只要其他單位提出已經定義完成的條件,資訊單位馬上就可以根據其需求,過濾出符合要求的清單,快速、清楚取得所需要的答案,「但資料科學是一個探索的過程,過程中才會歸納出結果,找到行為模式,我不先預設題目、答案,但是要循著大方向前進。」
郭健男表示,在傳統BI的模式中,企業已經設定好條件,如同用篩網在資料中撈取需要的訊息,但是移轉至資料科學中,「我們喜歡分析小群聚的行為,從中找到一定的行為模式」,而後將其此模型挪用至更大的群集中分析,尋找能否也能找到類似的行為。
他解釋,無論是BI或者資料科學,都存在過濾資料、尋找模式的行為,但是在後者,資料科學家必須發覺資料中所存在的模式,再根據此結果,將群組間擁有類似行為的樣本都揀選出來,並非如BI般,利用既有條件直接將符合條件的樣本通盤過濾出來。
在資料科學在探尋行為模式的過程中,有時雖然能歸納出有邏輯、故事性的答案,得到符合邏輯規則若P則Q的解答,「但如果得不出符合邏輯的結果,就接受它吧!」郭健男笑著說。


788 新聞 (15-16-玉山銀)-400-1.png

企業內部資料不夠用,還要串接外部開放資料
在臺灣政府力推開放資料的政策下,企業除了內部資料應用,更多了大筆可以串接的外部資料集。但是這對於資料科學家,雖然是機會,但也是個嚴峻的挑戰。
銀行內部收集的資料,來源多半出自於用戶與公司互動所產生,大多也都是結構化資料,「這樣的資料不夠多樣化」,郭健男表示,目前玉山銀行在全臺總共有136家分行,如果只利用單一分行的營業數據做為判定該行表現的依據,而不把背景資料、各分行的獨特性列入考量,可能有失公正性。例如,當A分行的設立具有獨特戰略意義,刻意選在競爭激烈的區域內布局,當它表現不優於其他分行時,也是非戰之罪。
因此,光靠玉山銀行內部資料作為判斷依據,還不足以描述各個分行的特質,還要將背景資料納入評斷考量,例如人口資訊、所得資料、交通流量,甚至用電狀態,從多維度的角度分析,探究現象背後隱藏的故事、原因,「當把這些資料加入後,分行表現的排序評比也都不一樣了。」
目前,全臺灣總共有公布超過1萬多個開放資料集,不過,郭健男表示,玉山銀行目前經常串接的多半是金融、民生相關的資料。像是用電量報告,若使用得當,也能迸出特別火花。他表示,像是中國官方公布的資料包含了該地登記生產的工廠數量,但是如果僅名義上登記,實際上並沒有生產,此資料集也不能代表此區域的實際狀況。此時便可以從當地其他的民生資料切入,像是反應中國經濟的李克強指數,其中用電資料就是一個指標,如果該區有實際用電,就代表該地有生產行為,「越繁榮的商圈,用電量則越多,比起工廠登記數目還有意義。」
外部資料顆粒度仍過粗糙
玉山銀行串接外部開放資料時,也發現目前資料品質仍有改善之處,郭健男舉例,目前全臺灣ATM交易量及交易金額,都是以全國尺度釋出,「這樣的資料顆粒度太粗糙。」除了區域尺度外,資料統計時間也出現類似的問題,「大多以年、月為單位提供」,當資料統計時間能以星期,甚至每日為單位區間釋出,資料也會更具有參考性。
郭健男認為,顆粒度越精緻的資料富含的價值越高,比起已經經過梳洗的資料,他寧願想要複雜、未加工的原始資料,「因為資訊都是從很小顆粒的資料累積起,因此,取得最底層的資料很重要。」
他舉例,像是銀行某用戶今日帳戶結餘的數字,無法從中解讀特別的資訊,但若能提供該用戶帳戶一整日的操作行為資料,「這個行為軌跡就很重要,而不是看總結的數字。」
資料科學人才必須靠企業內部自行培養
然而,資料之於資料科學家,就如千里馬之於伯樂,空有一座資料寶山,沒有明眼人也無法察覺其價值,郭健男認為資料科學家必須經由一連串的培養,像是進入玉山資料科學團隊的成員,得要從瞭解玉山銀行內部資料開始打基礎,在培養資料素養後,才能接受多樣化的工作挑戰,「不能使用傳統的統計分析、BI觀念去審視資料。」
郭健男表示,玉山銀行的資料科學家具有一個重要人格特質,「那就是很喜歡問問題」,碰到工作作業流程不順暢之處,也會積極想要改善,並且具備不害怕改變的勇氣。在專業上,則需要具備三大專業能力:IT素養、產業知識,以及統計能力。
由於資料科學已經擺脫過去BI領域,使用現有套裝工具的機會也會大幅減少,因此團隊成員得要能使用R語言等工具,結合演算法及統計知識,自行開發統計分析工具。
同時,資料科學家也要對銀行內業務瞭若指掌,郭健男表示,玉山銀行所培養的資料科學家,每天都沈浸在銀行業務資料中,如果不熟悉內部資料欄位的意義,根本無法提供服務給第一線人員。「此外,我們得支援內部IT服務,要跟前線人員保持密切合作」,他表示,IT僅是實踐工具,而業務所包含的範圍、流程,也得跟一線工作人員討論、構思。
在累積一定程度的內部營運知識後,資料科學家也才能放手嘗試新的想法,例如,結合外部資料資料,產生一些新火花,因為「不了解基本運作流程,研究成果會很天馬行空,無法實際落地。」
不過,管理資料科學團隊同時也考驗著郭健男,必須給予資料科學團隊更大的嘗試空間,實驗不一樣的想法。在過去傳統BI思維之下,考慮到團隊生產力,會導入許多套裝軟體,提供建模、預測以及推薦等功能,加速成果產出的速度。「但碰上資料科學,我得要放慢步調,不要求馬上產出答案」,光是其中一個參數改變,就足以改變整體的行為模式。也因此,資料科學家得熟悉程式語言、統計工具及演算法,耗費精力使用非工具性的分析方式檢視資料。


788 新聞 (15-16-玉山銀)-600-2(1).png







資料科學應用無法一夕間在企業內部落地不過,郭健男坦言,現階段資料科學的研究,還需要長時間的探索,才可以在企業內部落地,「我們有許多實驗性質的成果,但是還需要經過反覆驗證,才能成為常規」,由於銀行作業追求精確,不希望在產品仍處未成熟階段時就草草釋出。他解釋,就像是機器學習應用,一開始也是從小規模樣本著手,逐漸修正、校對後,逐步在更大規模的樣本中驗證模型是否成立,「只要來回次數越多,精準度會越高」,像是蘋果人工智慧助理Siri,起初語音辨認準度也不夠精準,但是經由收集使用者回饋,近年系統辨認精確度也大幅提升。而資料科學團隊的研究成果,最終也會經過業務單位檢驗、把關,確定具有商業價值後,才會正式變成產品,「創新與紀律,兩者位在天秤的兩端,而創新不可踰越紀律」,但郭健男表示,創新可以讓企業跳出過去的框架,重新檢視銀行業。而玉山銀行也不趕鴨子上架,急忙將研究成果變成例行作業,「模型需要不停的條件,大約經過兩年才有可能成為納入常規」,他笑著說,現在資料科學還積累著許多尚未實現的點子,等著資料團隊去研究。態度是資料科學家最重要的人格特質不過,稱職的資料科學成員也難尋覓,除了銀行業對於人格操守的要求,還得有鍥而不捨的人格特質,面對問題時,要一直採用新技術、做法及觀念審視,在日常工作中也要追求最佳化。但回歸一個人才的本質,「無論是技術、統計概念都其次,最重要還是態度」,郭健男認為,態度始終決定一個人的高度,不管任何產業都不會有所改變,「願意學習及接受挑戰,這才是我心目中最優良的資料科學家。」他說。
回复

使用道具 举报

  • TA的每日心情
    开心
    2024-8-2 17:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    400

    主题

    4719

    回帖

    9520

    积分

    二级逆天

    积分
    9520

    社区居民社区劳模忠实会员原创达人终身成就奖优秀斑竹奖

    QQ
    发表于 2016-11-9 13:42:33 | 显示全部楼层
    回复

    使用道具 举报

    该用户从未签到

    22

    主题

    2908

    回帖

    100

    积分

    二级逆天

    积分
    100

    社区居民忠实会员终身成就奖优秀斑竹奖

    QQ
    发表于 2016-11-9 16:43:31 | 显示全部楼层
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    论坛开启做任务可以
    额外奖励金币快速赚
    积分升级了


    Copyright ©2011-2024 NTpcb.com All Right Reserved.  Powered by Discuz! (NTpcb)

    本站信息均由会员发表,不代表NTpcb立场,如侵犯了您的权利请发帖投诉

    平平安安
    TOP
    快速回复 返回顶部 返回列表