淘寶代發(fā)菜鳥裹裹能看到貨源嗎,淘寶代發(fā)菜鳥裹裹能看到貨源嗎安全嗎?

作者:哈九,菜鳥裹裹數(shù)據(jù)研發(fā)

無刃,菜鳥裹裹數(shù)據(jù)研發(fā)

夏招,菜鳥裹裹數(shù)據(jù)產(chǎn)品

菜鳥寄件業(yè)務當前為菜鳥的基礎設施建設業(yè)務,是用戶與【菜鳥】品牌最直接最基本的認知聯(lián)系。通過與三通一達等巨頭快遞公司合作,降本增效,數(shù)字化、智能化的推動了中國快遞行業(yè)騰飛。在新的一年里,菜鳥裹裹更是【做物流行業(yè)數(shù)字化轉型的引擎】這一菜鳥大愿景的踐行者。目前裹裹寄件日常寄件訂單量百萬級別,且雙十一等大促期間訂單量更是成倍增長。
智能化履約過程及不斷精益化的業(yè)務系統(tǒng),菜鳥裹裹團隊急需一套一體化的數(shù)據(jù)產(chǎn)品,能夠智能化、專業(yè)化、高效化的解決日常遇到的數(shù)據(jù)問題與需求,并在日常的數(shù)據(jù)監(jiān)控與效果分析的過程中,用數(shù)據(jù)影響業(yè)務決策?;跇I(yè)務越來越頻繁的數(shù)據(jù)需求及數(shù)據(jù)應用,我們使用Hologres構建萬能查產(chǎn)品,一勞永逸的解決業(yè)務洶涌的需求與各種口徑、降本增效等問題。

通過本文我們將會介紹菜鳥裹裹基于Hologres構建萬能查產(chǎn)品的最佳實踐。

一、菜鳥裹裹數(shù)據(jù)舊時代的迷霧

1.冗余建設,數(shù)據(jù)口徑等差異導致的數(shù)據(jù)不準


菜鳥裹裹寄件業(yè)務發(fā)展至今,已經(jīng)歷過多輪的業(yè)務方向調(diào)整以及組織架構的變動,必然會存在極重的數(shù)據(jù)歷史包袱。各類數(shù)據(jù)指標根據(jù)業(yè)務類型、運營模式的不同分散于不同的看板模塊,效果分析關聯(lián)度低;或同時多數(shù)據(jù)看板重復建設,類型過度細分,找數(shù)難,直接影響業(yè)務分析效率及體驗感。此外,業(yè)務和BI所面對的分析場景、匯報對象、實際目標的不同,對于同一個指標可能存在多版本多角度的統(tǒng)計口徑,易出現(xiàn)數(shù)據(jù)口徑等細微差異導致的數(shù)據(jù)不準的情況,導致了數(shù)據(jù)同學日益繁重的“找茬”工作。若再不協(xié)同各方梳理指標口徑,確定口徑定義模式,統(tǒng)一底層數(shù)據(jù),刪減冗余看板,最后壓死數(shù)據(jù)同學的將是任意一個不知名的“包裹”。

2.數(shù)據(jù)開發(fā)周期長,阻礙發(fā)展進度


早期的數(shù)據(jù)產(chǎn)出常常以需求為導向,以快速滿足業(yè)務分析為目的。因此之前協(xié)作模式,主要為業(yè)務提出取數(shù)需求,分析現(xiàn)有數(shù)據(jù)看板是否支持,若無法支撐則重新搭建,并未將數(shù)據(jù)產(chǎn)品化??焖侔l(fā)展的業(yè)務必然會衍生出新的分析維度,目前固化的數(shù)據(jù)看板無法快速應對,同時也沒有業(yè)務可自助查詢數(shù)據(jù)的統(tǒng)一入口,數(shù)據(jù)分析進度與數(shù)據(jù)開發(fā)周期強綁定,從而導致業(yè)務常常不得不停下來等數(shù)據(jù),對業(yè)務進度上造成了一定的阻礙。

3.查詢速度慢,業(yè)務體驗差


離線數(shù)據(jù)分析和業(yè)務看板目前存在兩種常規(guī)設計方案,如下圖所示:

  1. 用FBI等工具直接訪問MaxCompute(原ODPS)離線表,但是由于ODPS開發(fā)資源短缺和MR的處理架構導致數(shù)據(jù)訪問速度相對較慢,用戶等待任務執(zhí)行時間往往超于數(shù)據(jù)分析本身;
  2. 形成一個adm層的聚合指標結果寬表,通過外表或DataX工具將聚合結果寫入OLAP引擎加速查詢(利用ADB提供的穩(wěn)定查詢加速能力),但該方案數(shù)據(jù)需維護大量同步任務,且任務同步耗時較長。同時,該方案僅適用于較少且相對穩(wěn)定的維度和指標查詢組合,只需對匯總層結果進行簡單聚合計算。

二、新時代面臨的挑戰(zhàn)

1.業(yè)務日益增長的數(shù)據(jù)需要和不平衡不充分的數(shù)據(jù)服務發(fā)展之間的矛盾

業(yè)務發(fā)展處于高速發(fā)展階段,裹裹寄件運營模式在快速試驗快速試錯的過程中急需數(shù)據(jù)中臺提供強有力的支持。個性化推薦、敏捷分析,大數(shù)據(jù)的應用在這個時代創(chuàng)造了很多千億級別的現(xiàn)象級公司,可見于此業(yè)務發(fā)展迅速膨脹,若數(shù)據(jù)中臺依舊保留一對一的數(shù)據(jù)服務模式,服務速度將遠遠跟不上時代的前進腳步。目前迫切于找到應對指數(shù)級增長的數(shù)據(jù)需求的出路,打造一套一體化的數(shù)據(jù)產(chǎn)品,智能化、專業(yè)化、高效化的解決日常遇到的數(shù)據(jù)問題與需求,真正做到數(shù)據(jù)賦能,驅動寄件模式升級。

2.在降本增效大背景下的人效匹配問題

業(yè)務核心訴求是通過數(shù)據(jù)化產(chǎn)品快速監(jiān)控分析,看清局部業(yè)務現(xiàn)狀并作出決策,并不在乎如何取數(shù)。數(shù)據(jù)計算過程,易造成數(shù)據(jù)過于定制化、靈活性差、分析維度不全面等問題。若后續(xù)出現(xiàn)同類取數(shù)分析需求,需增加新維度或指標時,數(shù)據(jù)同學需重新開發(fā)代替迭代,重啟新看板模塊,成本高、效率低、排期長,業(yè)務抱怨不斷,與開始快速響應業(yè)務快速看數(shù)需求目的相悖。兼顧成本和體驗,釋放人力的同時保證業(yè)務同學可快速自助獲取數(shù)據(jù),是一個迫在眉睫的問題。

三、迎難而上:Hologres的選擇,萬能查的誕生

1.裹裹穩(wěn)定的業(yè)務形態(tài)

目前裹裹寄件日常寄件訂單量百萬級別,且雙十一等大促期間訂單量更是成倍增長,其主要業(yè)務模式為收到各端寄件的需求(信息流),然后將寄件需求單分發(fā)給合作的快遞公司網(wǎng)點及小件員(三通一達),小件員在包裹俠上接單/消費者到站寄件;包裹攬收后消費者完成運費支付,快遞交付于第三方物流完成運輸配送。

2.Hologres的強大之處

Hologres是一站式實時數(shù)據(jù)倉庫引擎,支持海量數(shù)據(jù)實時寫入、實時更新、實時分析,與MaxCompute、Flink、DataWorks深度融合,提供離在線一體化全棧數(shù)倉解決方案,廣泛應用在實時數(shù)據(jù)中臺建設、精細化分析、自助式分析、營銷畫像、人群圈選、實時風控等場景。HOLO的主要特性有:

  • 支持高并發(fā)數(shù)據(jù)實時寫入和實時查詢,存儲計算分離可獨立擴展;
  • 底層數(shù)據(jù)架構統(tǒng)一,行存表支持高QPS KV點查詢,列存表適應于OLAP分析或Adhoc查詢;同時支持負載隔離,統(tǒng)一數(shù)據(jù)訪問接口與安全策略;
  • 聯(lián)邦查詢,支持盤古2.0文件直接讀??;外表加速Hologres無縫對接MaxCompute,支持外部表透明加速查詢,支持OSS外部表讀寫;

3.萬能查產(chǎn)品構想

通過目前現(xiàn)有的數(shù)據(jù)支撐能力,依賴Hologres引擎,將裹裹寄件常用且穩(wěn)定的維度和指標封裝于萬能查中。用戶可根據(jù)自己的需求篩選字段,定制化自己的報表,快速自助完成運營數(shù)據(jù)分析?;谝惑w化數(shù)據(jù)分析產(chǎn)品「萬能查」,突破目前數(shù)據(jù)產(chǎn)品的壁壘,達到降低成本、提高效率、保證數(shù)據(jù)準確性、完成體驗升級的目的。

  • 統(tǒng)一口徑:協(xié)同BI、多方業(yè)務梳理業(yè)務過程、整理刻畫業(yè)務形態(tài)的關鍵性指標、統(tǒng)一數(shù)據(jù)指標計算口徑、及對外輸出查詢口徑;
  • 產(chǎn)品刻畫:萬能查為一套一體化多維度多場景的數(shù)據(jù)分析體系,快速為運營決策、產(chǎn)品策略提供快速有效的數(shù)據(jù)支撐。汰換之前的「報表」+「臨時取數(shù)」的數(shù)據(jù)輸出模式下,業(yè)務方可通過萬能查有效地監(jiān)控運力任務單據(jù)的生命周期,管理小件員運力流程,自主完成分析結論、臨時取數(shù)需求,減少開發(fā)成本,提高運營效率。

四、萬能查產(chǎn)品架構體系

1.模塊設計

產(chǎn)品需求設計過程中,會接受到不同的用戶各種的個性化訴求。業(yè)務團隊主要將運營過程劃分為訂單運營和用戶運營,而不同的需求會有不同視角和粒度的看數(shù)訴求。另外,由于淘退訂單的業(yè)務特殊性,需基于全局淘退訂單進行分析,訂單視角存在較大的區(qū)別。因此針對用戶的個性化需求,以及實際業(yè)務場景,我們將萬能查劃分為三大模塊:訂單,用戶,淘退,設計多款萬能查產(chǎn)品。


2.數(shù)據(jù)架構設計

  • 數(shù)據(jù)能力矩陣,根據(jù)前期的需求調(diào)研,積極協(xié)調(diào)業(yè)務、BI同學對裹裹寄件的分析場景、產(chǎn)出邏輯、最終目標進行統(tǒng)一;收集整理刻畫裹裹寄件業(yè)務過程的關鍵指標,構建數(shù)據(jù)指標矩陣

  • 數(shù)據(jù)建模,完成核心指標需求收集和分析后,劃分數(shù)據(jù)域,聯(lián)系多部門團隊同學,確定數(shù)據(jù)中間層,并進行數(shù)倉模型評審

3.數(shù)據(jù)模型設計

基于數(shù)據(jù)量大、周期長、鏈路范圍廣、維度特征多等業(yè)務需求特點,且結合Hologres存儲費用高等問題。我們整體萬能查設計結構如下:

  • 在ODPS中讀取各主題的公共層及維表,構建可擴展性較高的輕度匯總層。將查詢頻率較高的近一年數(shù)據(jù)通過內(nèi)表的形式導入Hologres表的各歷史分區(qū),提高高速查詢;
  • 考慮到業(yè)務分析時使用跨年的數(shù)據(jù)進行同期比較分析,但分析頻率并不高,因此選擇犧牲速度提供外表的形式查詢(外表最多支持512分區(qū)查詢)。目前FBI一個組件只支持一個數(shù)據(jù)集,為保證用戶的使用體驗,我們利用試圖的方式在Hologres中將內(nèi)表以及外表進行合并,對外只透傳視圖。
  • 基于輕度統(tǒng)計層的按時間范圍的OLAP查詢是主要的數(shù)據(jù)場景,存在大量聚合Group by等操作,因而Holo表的屬性選擇上,毫無疑問是列存+日期分區(qū)表。一方面對于日期(ds)設置為分區(qū)字段,可以有效縮小每次查詢的掃描范圍;另一方面也可以較安全的進行運維和排查問題。
  • 具體結構如下:

1)索引設計

Hologres提供了Distribution Key、Segment Key、Clustering Key、Bitmap Columns等一系列的索引方式對表進行優(yōu)化,合理的使用各類索引,可以大幅提升使用性能。

基于裹裹寄件業(yè)務導入數(shù)據(jù)為輕度匯總無唯一主鍵且無自增/類自增字段的特性,不設置Distribution Key以及Segment_key,采用隨機分發(fā)到shard的模式,其中,設計Segment_key索引中會存在一個誤區(qū),是指定具備遞增邏輯列,區(qū)別于ds分區(qū)字段,同時設置分段列需排序后寫入,才會生效。

此外,由于用戶存在多種等值過濾查詢場景,經(jīng)過統(tǒng)計分析經(jīng)常用在Filter和Range場景的字段,我們將使用次數(shù)相對較多的字段“業(yè)務子類”設置為聚簇索引Clustering Key,其余分析維度設置Bitmap,如攬件網(wǎng)點,運力類型,發(fā)貨城市等信息。

CALL SET_TABLE_PROPERTY('"public".holo_adm_ord_1d', 'orientation', 'column'); 
CALL SET_TABLE_PROPERTY('"public".holo_adm_ord_1d', 'clustering_key', 'send_sub_type'); 
CALL SET_TABLE_PROPERTY('"public".holo_adm_ord_1d', 'bitmap_columns', 'fac_id,fac_name',...); 
CALL SET_TABLE_PROPERTY('"public".holo_adm_ord_1d', 'time_to_live_in_seconds', '34560000');

2)動態(tài)分區(qū)回刷設計

由于采用了Hologres分區(qū)表的設計方式,但在ODPS數(shù)據(jù)回流至Hologres時,Hologres分區(qū)表無法直接向父表插入數(shù)據(jù),需依次刪除并重建分區(qū)子表,將數(shù)據(jù)插入分區(qū)子表中,實現(xiàn)分區(qū)父表動態(tài)更新數(shù)據(jù),且當前不支持python/shell等腳本循環(huán)調(diào)度Hologres SQL實現(xiàn)數(shù)據(jù)回刷。實現(xiàn)Hologres的分區(qū)表動態(tài)分區(qū)式更新回流數(shù)據(jù),即循環(huán)執(zhí)行Hologres分區(qū)表腳本將數(shù)據(jù)回流至每一個分區(qū)子表。(了解到后期holo1.3版本上線,將支持動態(tài)分區(qū)管理,離線將支持動態(tài)寫入,且可支持并行補數(shù)據(jù)。)

3)其它設計

Table Group的設置一般根據(jù)數(shù)據(jù)規(guī)模、訪問特性、資源規(guī)格和使用重心(Join頻次)等綜合考慮。需要關聯(lián)的表放入同一個Table Group,通過Local Join減少數(shù)據(jù)的Shuffle,可極大提升查詢效率。一定范圍內(nèi),Shard Count可以提高數(shù)據(jù)寫入和查詢分析處理的并行度。但大量的Shard數(shù)需要更多的節(jié)點間通信資源、計算資源以及內(nèi)存資源支撐,從而導致資源浪費。

目前,裹裹寄件輕度統(tǒng)計層數(shù)據(jù),數(shù)據(jù)來源統(tǒng)一,表單分區(qū)一般在數(shù)千萬行量級,一般做靈活多維度匯總,并發(fā)不高,且無需做多流join。因此選擇默認Shard Count為12,不做特殊修改。

4.產(chǎn)品展示

  • 篩選所需指標維度,也可以在搜索框中輸入你想要查找的字段。比如【及時回單率】【網(wǎng)點ID】點擊確定,指標數(shù)據(jù)將會自動聚合,秒級返回;可在同一數(shù)據(jù)入口,查詢分析包裹全鏈路的指標數(shù)據(jù);
  • 自主上傳運單號或用戶ID,快速分析用戶復購率、訂單流程進度等分析型數(shù)據(jù)需求;
  • 定制化,選擇指標結果及篩選項結果將會記錄下來,在下次進入時仍然會記住這些選項,無需重復操作;

五、高效的業(yè)務效能

  1. 統(tǒng)一口徑:萬能查統(tǒng)一了數(shù)據(jù)指標計算口徑、及對外輸出查詢口徑,大幅度減少不同報表數(shù)據(jù)對不齊、對不準等問題,預計下線30+FBI看板,且間接性達到對外傳遞數(shù)據(jù)支撐能力,反向沉淀數(shù)據(jù)資產(chǎn)的效果。
  2. 提高效率:萬能查涵蓋規(guī)模、客訴、服務質量、健康度考核、淘系逆向、用戶等多維度多業(yè)務的數(shù)據(jù),已可支撐業(yè)務日常的監(jiān)控考核需求;同時,業(yè)務方可通過萬能查多維度自由組合自行完成分析結論需求、及95%+臨時取數(shù)需求,數(shù)據(jù)指標開發(fā)需求從原來的一周提6次降低位兩周提2次,大幅減少開發(fā)成本,提高運營效率,業(yè)務同學滿意度95%+。
  • 爽約率案例:快速監(jiān)控網(wǎng)點爽約率波動,精準分析波動原因,并快速觸達至城市經(jīng)理;
  • 疫情訂單攔截案例:針對突發(fā)疫情,業(yè)務方可快速通過萬能查明細查詢異常包裹,將響應過程縮短至小時級別。
  1. 降低成本:萬能查數(shù)據(jù)產(chǎn)品上線以來,重新規(guī)整鳥查FBI數(shù)據(jù)看板,刪減冗余看板近30+;
  2. 產(chǎn)品影響力:萬能查已覆蓋了裹裹整條業(yè)務線的內(nèi)部用戶,涵蓋商家、運力、線上寄件、IOT、大B銷售、客服、體驗、業(yè)務產(chǎn)品技術等將近15個團隊,周均DAU200+,季度均DAU1000+,已收到幾十位業(yè)務同學的滿意反饋。目前該產(chǎn)品模式已廣泛復用于其他菜鳥業(yè)務線。

六、未來方向和思考

1.產(chǎn)品升級

目前運營決策、產(chǎn)品策略的效果分析關聯(lián)度分析能力還比較弱,能較大程度的滿足業(yè)務方全局監(jiān)控分析的需求,但卻無法精細化感知指標數(shù)據(jù)的波動以及產(chǎn)品變更與數(shù)據(jù)波動的因果關系。對于數(shù)據(jù)變化的業(yè)務能力升級,將是產(chǎn)品接下來迭代的重點方向;

2.時效升級

目前產(chǎn)品主要是基于離線數(shù)據(jù)設計,但是存在較多的實時數(shù)據(jù)查詢需求,如疫情預警時,需依賴實時/小時數(shù)據(jù)取出截止當前時段的包裹明細。我們后續(xù)可以讀取Hologres Binlog或者TT/MQ消息,利用Flink的流處理能力,通過查詢持久化存儲的Hologres維表補全模型字段,構成明細表,寫入到Hologres分區(qū)的當日實時分區(qū);并在T+1日我們通過Hologres的外表導出的功能,將T日實時寫入的這類快照狀態(tài)字段從Hologres導出到ODPS做持久化離線存儲,充分利用Hologres資源。

最后:
菜鳥裹裹數(shù)據(jù)產(chǎn)品設計任重道遠,Hologres在數(shù)據(jù)產(chǎn)品上的應用范圍非常廣泛,萬能查只是該數(shù)據(jù)引擎的探路者,中間碰到了各種各樣的問題,包括模型設計、性能調(diào)優(yōu)等,感謝數(shù)據(jù)團隊同學在數(shù)據(jù)技術和Hologres架構等方面的支持和幫助,未來我們也將會持續(xù)使用共建。

好了,這篇文章的內(nèi)容發(fā)貨聯(lián)盟就和大家分享到這里,如果大家網(wǎng)絡推廣引流創(chuàng)業(yè)感興趣,可以添加微信:80709525  備注:發(fā)貨聯(lián)盟引流學習; 我拉你進直播課程學習群,每周135晚上都是有實戰(zhàn)干貨的推廣引流技術課程免費分享!


版權聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 sumchina520@foxmail.com 舉報,一經(jīng)查實,本站將立刻刪除。

您可能還會喜歡:

發(fā)表評論

◎歡迎參與討論,請在這里發(fā)表您的看法、交流您的觀點。