1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 大數(shù)據(jù)
  4. 正文

金融行業(yè)數(shù)據(jù)復(fù)雜 成本高 難獲取 看路孚特如何打破困局

 2019-11-27 12:44  來源:互聯(lián)網(wǎng)  我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競價(jià),好“米”不錯(cuò)過

嘉賓丨路孚特 RDP 研發(fā)總監(jiān)董玉棟,路孚特高級研發(fā)經(jīng)理趙儀,路孚特企業(yè)架構(gòu)總監(jiān)陳強(qiáng)

2018 年,湯森路透金融與風(fēng)險(xiǎn)業(yè)務(wù)部門獨(dú)立成為 Refinitiv(路孚特)。路孚特在湯森路透金融數(shù)據(jù)和市場知識積累之上,利用領(lǐng)先的技術(shù)、信息和分析方法繼續(xù)為行業(yè)者提供著服務(wù)。如今路孚特推出金融數(shù)據(jù)平臺。(Refinitiv Elektron Data Platform,簡稱 RDP),進(jìn)一步發(fā)揮其在行業(yè)積累的優(yōu)勢。InfoQ 記者專訪路孚特 RDP 研發(fā)總監(jiān)董玉棟、路孚特高級研發(fā)經(jīng)理趙儀、路孚特企業(yè)架構(gòu)總監(jiān)陳強(qiáng),揭秘 RDP 的設(shè)計(jì)理念及技術(shù)亮點(diǎn)。

從傳統(tǒng)的金融數(shù)據(jù)管理到現(xiàn)代金融數(shù)據(jù)治理,金融行業(yè)迎來巨大的轉(zhuǎn)變。由于數(shù)據(jù)量增長形成的倒逼,以及要順應(yīng)監(jiān)管機(jī)構(gòu)和用戶的需求,越來越多的金融從業(yè)機(jī)構(gòu)開始意識到“數(shù)據(jù)驅(qū)動(dòng)”的重要性,但全面釋放數(shù)據(jù)價(jià)值的過程并非一帆風(fēng)順。

金融行業(yè)在數(shù)據(jù)治理中面臨哪些痛點(diǎn)?

路孚特企業(yè)架構(gòu)總監(jiān)陳強(qiáng)表示,在金融行業(yè)里,數(shù)據(jù)來源非常復(fù)雜。面對不同的數(shù)據(jù)提供廠商、數(shù)據(jù)類型以及數(shù)據(jù)提供方式,企業(yè)要獲取所需的金融數(shù)據(jù)并作處理分析,成本并不低。而一些小型金融機(jī)構(gòu)即便獲取到數(shù)據(jù),也沒有足夠的技術(shù)能力去處理。

從另一個(gè)角度來看,路孚特高級研發(fā)經(jīng)理趙儀解釋,數(shù)據(jù)通常受到兩類人的關(guān)注:一類是數(shù)據(jù)提供商,另一類是數(shù)據(jù)消費(fèi)者。對于數(shù)據(jù)提供商而言,數(shù)據(jù)的權(quán)限管理、再分發(fā)權(quán)限的機(jī)制、數(shù)據(jù)合規(guī)等始終是痛點(diǎn);對于數(shù)據(jù)消費(fèi)者而言,如何解決數(shù)據(jù)來源不同、格式不統(tǒng)一、不一致等問題迫在眉睫。

總體來看,金融從業(yè)機(jī)構(gòu)面臨的主要痛點(diǎn)如下:

數(shù)據(jù)來源復(fù)雜,且在不同部門、不同業(yè)務(wù)系統(tǒng)以及不同領(lǐng)域的機(jī)構(gòu)間,數(shù)據(jù)缺乏流動(dòng)性和共享性。

數(shù)據(jù)標(biāo)準(zhǔn)化程度低。來自不同業(yè)務(wù)、不同時(shí)期的數(shù)據(jù),在用途、結(jié)構(gòu)、價(jià)值和質(zhì)量水平等方面差異較大,導(dǎo)致數(shù)據(jù)的提取、整理、分析和使用的難度加大。

成本問題。隨著用戶量和數(shù)據(jù)量的增加,訪問和使用數(shù)據(jù)的成本也在大幅提升。

目前金融機(jī)構(gòu)大部分可利用的數(shù)據(jù)依然是傳統(tǒng)業(yè)務(wù)產(chǎn)生的數(shù)據(jù),而外部數(shù)據(jù)源拓展不足,缺乏更高層面的統(tǒng)籌協(xié)調(diào)來支持全面的數(shù)據(jù)分析和使用。

基于以上原因,路孚特推出了自主研發(fā)的金融數(shù)據(jù)平臺 RDP。該平臺應(yīng)用統(tǒng)一的存儲層能力匯集來自全球的海量金融數(shù)據(jù),通過完整的清洗、分析和增值處理流程后,集中分發(fā)給用戶。

RDP 研發(fā)總監(jiān)董玉棟提到,路孚特已經(jīng)與全球的證券交易所、期貨交易所等機(jī)構(gòu)建立了合作關(guān)系,從數(shù)據(jù)生產(chǎn)端獲取到一手?jǐn)?shù)據(jù),面向全球發(fā)布到數(shù)據(jù)消費(fèi)的一端。簡單來講,就是“收之全球,發(fā)之全球”。

可以說,RDP 相當(dāng)于一個(gè)全球金融行業(yè)數(shù)據(jù)的統(tǒng)籌協(xié)調(diào)中心,其目的是方便金融從業(yè)者獲取更全面的行業(yè)數(shù)據(jù),同時(shí)盡可能減少用戶成本,增加數(shù)據(jù)價(jià)值。

RDP 如何幫助金融從業(yè)者以較低的成本訪問和使用數(shù)據(jù)?

據(jù)了解,企業(yè)在數(shù)據(jù)傳輸過程中,除了從上游不同業(yè)務(wù)數(shù)據(jù)庫中實(shí)時(shí)、定時(shí)傳輸?shù)较掠蜗到y(tǒng)之外,還需要從外部合作商、供應(yīng)商中獲取業(yè)務(wù)數(shù)據(jù)。RDP 具有大數(shù)據(jù)級別的行業(yè)數(shù)據(jù),那么,它是如何幫助金融從業(yè)者以較低的成本便捷地訪問和使用這些數(shù)據(jù)?

RDP 的解決思路是:將其核心數(shù)據(jù)存儲在 AWS 上,為用戶提供基于元數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)一的 API 接口。RDP 的數(shù)據(jù)和 API 接口可以通過所有主流的公有云產(chǎn)品、私有云設(shè)施,以及企業(yè)自有數(shù)據(jù)中心訪問。

從用戶角度來看,基于元數(shù)據(jù)的訪問大大簡化了客戶對數(shù)據(jù)的使用。但是,數(shù)據(jù)訪問越便捷意味著開發(fā)難度越高。董玉棟也提到,統(tǒng)一的 API 背后,需要理解客戶不同類型的請求,并能夠高效執(zhí)行,但云原生的 API 網(wǎng)關(guān)并不能完全實(shí)現(xiàn)這種特性。

API 網(wǎng)關(guān)處于客戶端與各個(gè)微服務(wù)之間,擔(dān)任著反向代理的角色,負(fù)責(zé)將不同的請求路由到相對應(yīng)的微服務(wù)中去。API 網(wǎng)關(guān)可以解決客戶端需求和每個(gè)微服務(wù)暴露的細(xì)粒度 API 不匹配、部分服務(wù)使用的協(xié)議非 Web 友好協(xié)議等問題。

為了提升 API 性能,滿足用戶不同類型的訪問請求,路孚特自主研發(fā)了 API 網(wǎng)關(guān)以及用戶數(shù)據(jù)權(quán)限管理系統(tǒng)。AWS 中的 API 網(wǎng)關(guān)會注冊其所有的 RDP API,包括內(nèi)部消費(fèi)的 API 和面向客戶的 API。用戶請求到達(dá)以后,API 網(wǎng)關(guān)會自動(dòng)驗(yàn)證用戶的權(quán)限,并保證后續(xù)的合法數(shù)據(jù)請求快速遞交給相應(yīng)的服務(wù),而超出服務(wù)范圍的請求會自動(dòng)拒絕。董玉棟表示,所有在 RDP 上的產(chǎn)品設(shè)計(jì)都是從 API 定義開始,這有助于實(shí)現(xiàn)把客戶需求放到第一位的目標(biāo),并最大化各種 API 及服務(wù)的重用性,避免重復(fù)實(shí)現(xiàn)相同的功能。

在數(shù)據(jù)分發(fā)上,RDP 統(tǒng)一了流式處理、批量處理和基于請求的數(shù)據(jù)提供方式。對于流式數(shù)據(jù)的訪問,董玉棟提到,這類數(shù)據(jù)即時(shí)性很重要,RDP 通過在中間做多層緩存將數(shù)據(jù)持續(xù)且高速地推送給客戶。

批量數(shù)據(jù)請求分為“定制批量請求”和“隨機(jī)批量請求”兩種情況。對于定制批量請求,RDP 按照約定時(shí)間定時(shí)打包推送給用戶;對于隨機(jī)批量請求,則采用異步打包,然后將數(shù)據(jù)提取位置發(fā)送給用戶的方式處理。

對于面向搜索的數(shù)據(jù),董玉棟介紹:“這類訪問基本都是同步請求,實(shí)時(shí)訪問我們的數(shù)據(jù)庫返回給客戶。有時(shí)候用戶基于搜索的數(shù)據(jù)量特別大,RDP 系統(tǒng)會進(jìn)行職能預(yù)測,自動(dòng)將這一類請求轉(zhuǎn)變成隨機(jī)批量數(shù)據(jù)請求來處理。”

那么,如何應(yīng)對諸如跨洋實(shí)時(shí)交易這類對時(shí)效性要求非常高的超低時(shí)延數(shù)據(jù)訪問?

趙儀解釋:“跨洋實(shí)時(shí)交易本身存在地理位置上的時(shí)延,再加上系統(tǒng)帶來的時(shí)延,通過云服務(wù)訪問無法滿足超低時(shí)延的需求。即便是快到 70ms 的時(shí)延,對于實(shí)時(shí)交易來講,也是一種延遲。”路孚特的做法是在全球部署數(shù)據(jù)中心,以此提高時(shí)效性。此外,目前公有云還無法提供具有超高時(shí)效性的數(shù)據(jù),因此,比較合適的做法是將數(shù)據(jù)通過專線直接部署到用戶所在地。

元數(shù)據(jù)驅(qū)動(dòng)的價(jià)值與挑戰(zhàn)

從簡單的庫表到整個(gè)數(shù)據(jù)平臺,再到服務(wù)管理,元數(shù)據(jù)管理的范圍正在擴(kuò)大,不斷突破傳統(tǒng)管理的范疇,并在大數(shù)據(jù)治理中發(fā)揮著關(guān)鍵作用。而 RDP 的整個(gè)系統(tǒng)便是由元數(shù)據(jù)驅(qū)動(dòng)的。

簡單來講,元數(shù)據(jù)是對數(shù)據(jù)本身進(jìn)行描述的數(shù)據(jù),如描述數(shù)據(jù)的格式、映射關(guān)系、語義、權(quán)限等。元數(shù)據(jù)管理具有以下三方面的價(jià)值:

可以為數(shù)據(jù)管理提供統(tǒng)一的視圖,方便數(shù)據(jù)交互共享;

實(shí)現(xiàn)數(shù)據(jù)自動(dòng)關(guān)聯(lián)分析,為數(shù)據(jù)分析、問題定位等提供支撐;

便于建立數(shù)據(jù)標(biāo)準(zhǔn),統(tǒng)一交換、存儲、應(yīng)用口徑,減少共享壁壘,降低應(yīng)用出錯(cuò)幾率,提升質(zhì)量。

在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的容量、多樣性等在持續(xù)擴(kuò)充,元數(shù)據(jù)管理也面臨著挑戰(zhàn)。目前,元數(shù)據(jù)仍然沒有統(tǒng)一的標(biāo)準(zhǔn),如何用一套統(tǒng)一的語義去描述種類繁多的金融數(shù)據(jù)間的特征,并且真正和數(shù)據(jù)管理系統(tǒng) / 微服務(wù)之間緊密集成而不是割裂的存在,是行業(yè)中普遍存在的問題。

企業(yè)首先需要集中化管理元數(shù)據(jù),由一個(gè)專門且人數(shù)較少的架構(gòu)師團(tuán)隊(duì)定義元數(shù)據(jù),并進(jìn)行統(tǒng)一管理。其次,研發(fā)團(tuán)隊(duì)要讓軟件能夠支持元數(shù)據(jù)體系,并與之融為一體,而非割裂存在。最后,不僅內(nèi)部的系統(tǒng)要實(shí)現(xiàn)元數(shù)據(jù)驅(qū)動(dòng),系統(tǒng)間的相互訪問以及對外開放也需要遵循同一套體系。

隨著元數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)管理、API 訪問和增值業(yè)務(wù)能力的增加,元數(shù)據(jù)實(shí)質(zhì)上已經(jīng)成為了更高級別抽象的代碼,這就帶來了一個(gè)難題:如何進(jìn)行數(shù)據(jù)的生命周期管理。確切地說,這類復(fù)雜的問題沒有單一的解決方案,必須從系統(tǒng)級架構(gòu)、可重用的代碼和服務(wù)、DevOps 和自動(dòng)化測試、代碼安全掃描等多個(gè)方面來解決問題。

對此,陳強(qiáng)分享了以下幾點(diǎn)經(jīng)驗(yàn):

(1)如何在權(quán)限管理系統(tǒng)中定義“誰”可以“管理”哪些“元數(shù)據(jù)”?可以把整個(gè)系統(tǒng)中的“誰”、“管理(行為)”、“元數(shù)據(jù)”這些業(yè)務(wù)概念也都元數(shù)據(jù)化,由統(tǒng)一的身份及權(quán)限系統(tǒng)通過共享服務(wù)進(jìn)行統(tǒng)一管理。

(2)對于可以在線修改并實(shí)時(shí)生效的元數(shù)據(jù),尤其是決定數(shù)據(jù)存儲和表現(xiàn)形式的元數(shù)據(jù),如何保證由其驅(qū)動(dòng)的數(shù)據(jù)系統(tǒng)的健壯性、穩(wěn)定性和可控性?首先,在線元數(shù)據(jù)的修改和發(fā)布是獨(dú)立的異步流程,可由相應(yīng)的權(quán)限進(jìn)行控制;其次,對元數(shù)據(jù)的前后變化進(jìn)行快照,并以版本號作為快照的唯一標(biāo)識符,在發(fā)布和回滾元數(shù)據(jù)版本時(shí)可以明確地識別具體的快照內(nèi)容;最后,發(fā)布和回滾的過程中,可以根據(jù)業(yè)務(wù)特點(diǎn),根據(jù)需要輔以各種在線的自動(dòng)化功能測試和發(fā)布策略。

(3)某些業(yè)務(wù)及技術(shù)實(shí)現(xiàn)的復(fù)雜度導(dǎo)致一些元數(shù)據(jù)的修改無法真正進(jìn)行熱加載和實(shí)時(shí)生效,或者實(shí)現(xiàn)熱加載 / 部署的代價(jià)過高,但仍然需要業(yè)務(wù)管理專家而非研發(fā)人員控制和實(shí)施元數(shù)據(jù)修改的部署。RDP 在應(yīng)用中會盡量利用公有云的彈性,對版本化后的元數(shù)據(jù)進(jìn)行修改,并進(jìn)行 CI/CD 持續(xù)集成和自動(dòng)化測試,同時(shí)輔助以藍(lán) / 綠部署策略。這樣,元數(shù)據(jù)的版本控制與代碼的版本控制流程及部署策略就可以非常接近。不同的是,元數(shù)據(jù)的修改是通過易于使用的控制界面,主要由業(yè)務(wù)專家進(jìn)行管理。在這背后,路孚特所有由業(yè)務(wù)專家使用的功能都會經(jīng)過充分的測試,確保界面上可以操作的功能是健壯有效的。

隨著數(shù)據(jù)量的增長,RDP 如何平衡性能與成本?

隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)平臺難免要面對數(shù)據(jù)或作業(yè)爆發(fā)式增長所帶來的挑戰(zhàn)。RDP 的用戶量和數(shù)據(jù)量每年都會大幅增長,相應(yīng)的成本投資增長不容小覷。在這種數(shù)據(jù)量和計(jì)算量不斷增長的情況下,如何去平衡性能和成本?趙儀表示,這一問題的核心在于每個(gè)用戶計(jì)算成本的控制,即如何保證每個(gè)用戶計(jì)算成本不隨用戶數(shù)量和數(shù)據(jù)量的增加而顯著增加。RDP 在控制成本方面可借鑒的方法有:

(1)盡可能地在用戶間共享可以共享的計(jì)算,只需支付對用戶的分發(fā)成本;

(2)控制熱點(diǎn)數(shù)據(jù)的規(guī)模,在 API 級區(qū)分熱點(diǎn)訪問和冷數(shù)據(jù)訪問;

(3)基于微服務(wù)的管理,方便用戶管理自己的數(shù)據(jù)需求;

(4)用戶輸入不同的數(shù)據(jù)源不盲目整合,避免在一個(gè)對象模型下產(chǎn)生巨量的數(shù)據(jù)集,從而降低用戶增加對單個(gè)用戶計(jì)算復(fù)雜度的影響;

(5)數(shù)據(jù)壓縮 / 訪問本地化 / 算法優(yōu)化等傳統(tǒng)方法。

對于大數(shù)據(jù)平臺而言,區(qū)分冷熱數(shù)據(jù)并安排不同的存儲方式是非常重要的一項(xiàng)工作,對存儲成本和計(jì)算性能至關(guān)重要。對于冷數(shù)據(jù),由于調(diào)用頻率相對較低,可以通過冷壓縮,將數(shù)據(jù)壓縮到最小,再存儲起來的方式節(jié)省存儲成本;對于熱數(shù)據(jù),則需要增加 Cache 或者采用一些優(yōu)化策略,讓用戶能快速調(diào)用,從而提升計(jì)算性能。

數(shù)據(jù)本身并不產(chǎn)生價(jià)值,基于數(shù)據(jù)的計(jì)算才能帶來價(jià)值。為了保證上層計(jì)算的有效性,通常將數(shù)據(jù)放在距離計(jì)算最近的地方,否則會帶來傳輸?shù)难舆t。數(shù)據(jù)的統(tǒng)一存儲并非是將數(shù)據(jù)都放在同一個(gè)地方,這里的統(tǒng)一存儲其實(shí)是一個(gè)邏輯概念。不同的數(shù)據(jù)應(yīng)該放在不同的存儲中,才能使數(shù)據(jù)上層的計(jì)算最有效,并將數(shù)據(jù)延遲降到最低。RDP 會針對不同的訪問請求提供不同的數(shù)據(jù)訪問緩存,并輔以共享計(jì)算的方式對數(shù)據(jù)傳輸進(jìn)行優(yōu)化。

路孚特金融數(shù)據(jù)平臺的未來發(fā)展趨勢

科技帶給金融行業(yè)的影響顯而易見,在金融機(jī)構(gòu)進(jìn)行各種互聯(lián)網(wǎng)創(chuàng)新的同時(shí),也將金融科技的重要性提升到了戰(zhàn)略高度,通過 AI、大數(shù)據(jù)、云計(jì)算、區(qū)塊鏈等新興技術(shù)不斷提升金融效率和競爭力,建立新的金融生態(tài)。

而大數(shù)據(jù)技術(shù)從最初的“新奇”發(fā)展到如今的“普惠”階段,用戶的關(guān)注點(diǎn)也發(fā)生了很大的改變。早期用戶比較關(guān)注“靈活”、“快”,現(xiàn)在更關(guān)心的是企業(yè)級能力,同時(shí)降低成本也變得越來越重要。目前,企業(yè)級數(shù)據(jù)平臺普遍存在的困難是高速增長的數(shù)據(jù)和計(jì)算量與成本之間的矛盾。如何用更低的成本獲取更多的信息,不僅是金融從業(yè)機(jī)構(gòu)的迫切需求,也是數(shù)據(jù)平臺的核心競爭點(diǎn)。

談及 RDP 未來的發(fā)展重點(diǎn),趙儀表示:“RDP 的目標(biāo)主要集中在加強(qiáng)數(shù)據(jù)的統(tǒng)一存儲和分發(fā)能力,降低客戶獲取數(shù)據(jù)的復(fù)雜度和成本。未來將用更低的成本擴(kuò)大數(shù)據(jù)覆蓋范圍。”與此同時(shí),RDP 會繼續(xù)獲取更多的用戶需求,并把這些需求統(tǒng)一到 RDP 數(shù)據(jù)分發(fā)機(jī)制里,更好地為客戶提供存儲和分發(fā)的能力。

用科技普惠金融,這是路孚特技術(shù)團(tuán)隊(duì)研發(fā) RDP 的初心。未來,隨著 5G、AI 等新興技術(shù)的發(fā)展,路孚特也將打造更加智能高效的平臺,給用戶提供更好的體驗(yàn)。

除了在技術(shù)上不斷精益求精,路孚特也在積極推動(dòng)金融科技的生態(tài)發(fā)展。11 月 29 日,由路孚特主辦,以“引領(lǐng)科技變革,洞見金融未來”為主題的 ReFinTech 金融科技峰會將在北京舉行。本次大會邀請了金融界知名專家和金融科技企業(yè)技術(shù)專家,深度探討行業(yè)發(fā)展思路和技術(shù)演進(jìn)趨勢,分享最前沿創(chuàng)新實(shí)踐,共同打造“創(chuàng)新、聚力、發(fā)展、共贏”的金融科技生態(tài)平臺。

申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章