編輯導(dǎo)語: 標簽體系在企業(yè)的數(shù)字化進程中是經(jīng)常需要用到的,也是數(shù)據(jù)建設(shè)過程中必不可少的環(huán)節(jié)。那么如何進行標簽的設(shè)計與加工呢?作者根據(jù)自身的一些項目交付經(jīng)驗進行了總結(jié),一起來看一下吧。
在企業(yè)的數(shù)字化進程中,標簽體系的創(chuàng)建與使用在業(yè)務(wù)場景需求中經(jīng)常用到,也基本是數(shù)據(jù)建設(shè)過程中必不可少的環(huán)節(jié)。
一般有互聯(lián)網(wǎng)基因的大公司,有專業(yè)的數(shù)據(jù)技術(shù)人才儲備,會自己實現(xiàn)整個標簽加工使用流程、技術(shù)選型等,也存在不具備相應(yīng)人才的公司需要標準產(chǎn)品幫他們快速實現(xiàn)這個過程,無需再自己探索,B端的標準產(chǎn)品可以幫客戶快速實現(xiàn)標簽體系的搭建與標準化管理,解決業(yè)務(wù)問題。
本次我們一些項目交付經(jīng)驗,先來聊聊標簽的設(shè)計與加工。
標簽的建設(shè)與應(yīng)用一般需要經(jīng)過幾個步驟:
一、標簽體系設(shè)計
標簽服務(wù)于業(yè)務(wù)應(yīng)用場景,好的標簽體系設(shè)計能夠讓業(yè)務(wù)人員在使用時隨需隨取,及時查詢出需要的數(shù)據(jù),就算不具備這個標簽時,業(yè)務(wù)人員也可以自己快速加工出來,無需尋求數(shù)據(jù)開發(fā)的幫助。那需要做到
- 標簽類目劃分合理
- 標簽涵蓋的數(shù)據(jù)源豐富,標簽完善
- 后續(xù)擴展性高,即基于基礎(chǔ)標簽加工出新的標簽時,方便快速
標簽體系的設(shè)計一般會按照以下步驟:
1. 數(shù)據(jù)梳理
根據(jù)現(xiàn)有業(yè)務(wù)背景,以及數(shù)據(jù),梳理出大概的標簽體系。如企業(yè)一般數(shù)據(jù)大概來源于這幾部分:
1)用戶基礎(chǔ)數(shù)據(jù)
用戶ID、性別、年齡、手機號、郵箱、身份證號、會員等級等基礎(chǔ)信息。
2)業(yè)務(wù)交易數(shù)據(jù)
如在零售領(lǐng)域,用戶發(fā)生的每一筆交易都會有記錄,如下圖:
3)用戶行為數(shù)據(jù)
如用戶在APP、PC、小程序等的瀏覽、點擊、收藏、評論行為,可反映出用戶的行為特點。
4)活動/積分數(shù)據(jù)
會員商城的cha會員等級、積分兌換等數(shù)據(jù)。
5)售后投訴數(shù)據(jù)
客戶投訴、售后處理等數(shù)據(jù)。
基于對數(shù)據(jù)的梳理,可進行標簽基本體系的梳理,梳理出一部分有價值的標簽。
2. 基于OLP模型體系化梳理標簽
OLP模型是目前比較通用的建立標簽體系的模型,OLP指“實體-關(guān)系-屬性”模型,用下方場景舉例:
- 實體:指對象,如人、書籍、門店等,可針對每個實體建立一套標簽體系
- 屬性:實體帶的特征,如人有性別、年齡屬性,書籍有價格、內(nèi)容屬性,門店有售賣渠道、地址位置等屬性,屬性是一種類型的標簽
- 關(guān)系:通過動作產(chǎn)生關(guān)系,如基于購買動作,人和書籍產(chǎn)生關(guān)系,基于這個動作可產(chǎn)生消費時段偏好、支付方式偏好等標簽
基于該模型,對標簽進行查漏補缺,梳理出標簽類目與標簽。
3. 定義標簽與加工口徑
- 標簽中文、英文名:標簽的中文名稱、英文名稱
- 標簽所屬類目:標簽所屬一級、二級、三級類目
- 標簽類型:根據(jù)不同維度的劃分,采用其中一種。比如統(tǒng)計類標簽、預(yù)測類標簽、自定義標簽等,亦或是原子標簽、衍生標簽、組合標簽、算法標簽等
- 標簽值定義:定義每個標簽的標簽值,如“近一個月買入金額區(qū)間”標簽,可根據(jù)購買金額的區(qū)間段定義“零/低端”、“普通”、“中端”、“準高端”、“高端”等標簽值
- 標簽含義(描述):描述該標簽業(yè)務(wù)含義,如“最近30天的購買商品的金額區(qū)間,對用戶消費力進行評估”
- 標簽業(yè)務(wù)口徑:標簽以哪個數(shù)據(jù)定義為準,如“用戶活躍城市”標簽,以用戶購買次數(shù)最多的城市為口徑加工,而不是瀏覽次數(shù)、評論次數(shù)等
- 標簽技術(shù)口徑:描述該標簽從哪個表的哪個字段取值,SQL取數(shù)邏輯是什么
- 業(yè)務(wù)方來源:該標簽的業(yè)務(wù)需求方是誰
- 標簽更新周期:描述標簽更新頻次,天(如T 1、T 2等)、周、月、小時、分鐘更新等
- 標簽更新優(yōu)先級:同一時間端跑多個標簽時,若資源有限,先跑優(yōu)先級高的標簽
基于以上工作,最終得出一份標簽體系表,以這份表和業(yè)務(wù)方最終確認標簽劃分、標簽與標簽值、標簽加工口徑是否有疑義,沒問題,便可進入標簽開發(fā)環(huán)節(jié)。
二、標簽?zāi)P驮O(shè)計
進入具體開發(fā)之前,需考慮標簽?zāi)P蛯釉O(shè)計,在數(shù)倉加工出來哪些數(shù)據(jù),標簽產(chǎn)品加工哪些數(shù)據(jù)。標簽?zāi)P鸵琅f遵循數(shù)倉建模的“ODS-DWD-DWS-ADS”分層設(shè)計,基于DWD、DWS層抽象一層標簽?zāi)P蛯?,加工標簽基礎(chǔ)標簽,屆時在標簽產(chǎn)品上讓業(yè)務(wù)人員通過規(guī)則可加工生成新的標簽。
一般遵循“公共層數(shù)據(jù)”、“大數(shù)據(jù)量計算”的標簽放在數(shù)倉中數(shù)據(jù)開發(fā)寫SQL實現(xiàn),“通過規(guī)則可定義”、“標簽規(guī)則經(jīng)常修改”的標簽在標簽產(chǎn)品中配置。數(shù)倉一般實現(xiàn):
1. 公共層數(shù)據(jù)
包含基礎(chǔ)屬性數(shù)據(jù)、基礎(chǔ)指標(指標也可以作為一種標簽,如最近30天購買金額、最近30天訪問次數(shù)等),這些數(shù)據(jù)不僅給標簽系統(tǒng)用,也可以給BI報表、數(shù)據(jù)門戶使用,所以放在數(shù)倉中加工表。
1)基礎(chǔ)信息類標簽
2)交易類標簽
3)行為類標簽
2. 大數(shù)據(jù)量計算的標簽
如計算歷史最高花費金額、商品的歷史最高庫存、累計消費金額、用戶排序等,這些標簽的計算基于的數(shù)據(jù)量大,最好放在hive中跑批上線。
在數(shù)倉中加工好標簽基礎(chǔ)表,這些表中的標簽一般稱之為原子標簽,再將該表對接標簽產(chǎn)品,在標簽產(chǎn)品中進行衍生類、組合類標簽加工。
三、標簽?zāi)P驮O(shè)計
基于標簽?zāi)P偷脑O(shè)計,一部分基礎(chǔ)指標類的標簽在數(shù)倉已建設(shè)完成,一部分標簽需要在產(chǎn)品界面上實現(xiàn)。我們接下來看下業(yè)務(wù)人員如何在袋鼠云標簽產(chǎn)品中配置標簽。
1. 根據(jù)業(yè)務(wù)對象,創(chuàng)建實體、關(guān)系
假設(shè)一個電商類客戶,需要建立一套用戶標簽體系,則首先創(chuàng)建“用戶”實體對象,并在實體對象下可以接入標簽多張基礎(chǔ)表,如用戶基礎(chǔ)信息表、用戶行為事件的指標表等,這些表的字段可作為原子標簽直接使用,作為后續(xù)加工衍生、組合標簽的基礎(chǔ)。
同時,在后續(xù)加工衍生標簽時,在某些場景上會用到多個實體下的原子標簽加工,這時候可以用“關(guān)系”將2個實體關(guān)聯(lián)起來,如將“用戶”實體與“書籍”實體通過用戶表的“最近購買商品ID”、以及書籍表的“書籍ID”關(guān)聯(lián)起來,便可以用到2個表的字段進行某個標簽的加工,如下圖:
2. 讀入原子標簽
從標簽基礎(chǔ)表中讀入原子標簽,進行原子標簽的元數(shù)據(jù)管理。
讀入原子標簽時,有些字段可能存儲的是編號或一些枚舉值,但業(yè)務(wù)人員需要看到具有真實業(yè)務(wù)含義的值,此處可做一層字典值映射。比如將“省市編號”映射為具體的省市名稱。
3. 創(chuàng)建衍生標簽
基于接入的數(shù)據(jù)表的原始字段和原子標簽,通過“且、或”關(guān)系、“求和、去 重計數(shù)、計數(shù)、最大值、最小值、均值”聚合函數(shù)、“等于、不等于、小于、小于等于、大于、大于等于、包含、不包含等”操作符,對源表字段進行加工,生成衍生標簽。
如基于用戶訪問次數(shù)、交易次數(shù),加工“用戶活躍度“衍生標簽,包含“高活躍”、“一般活躍”、“睡眠狀態(tài)”標簽值,對用戶活躍度進行衡量。
除通過可視化規(guī)則加工標簽外,也會開放SQL界面寫SQL加工標簽,因為在實際場景中,客戶場景不禁相同,有些復(fù)雜標簽需要SQL快速實現(xiàn),在產(chǎn)品界面上也可直接操作。
同時,雖然產(chǎn)品上會開放基于函數(shù)計算的標簽加工、SQL類的標簽加工,但還是會建議客戶將公共層的指標類標簽、及復(fù)雜類標簽放在數(shù)倉中實現(xiàn),以使標簽配置這層輕量,屆時進行數(shù)據(jù)跑批時快速。
4. 創(chuàng)建組合標簽
基于原子標簽和衍生標簽,可進行組合標簽的創(chuàng)建,如基于最近交易時間、最近1年交易次數(shù),最近1年交易金額區(qū)間這3個標簽,加工“用戶綜合價值”組合標簽,將客戶分為“低價值用戶”、“一般保持用戶”、“重要發(fā)展用戶”等。
5. 創(chuàng)建實時、算法標簽
- 實時標簽:如基于用戶實時行為數(shù)據(jù)通過Flink引擎計算實時標簽,如用戶點擊APP上的一個商品廣告,且加入購物車,判斷該客戶屬于“某類型商品感興趣用戶”,作為客戶短期興趣標簽。
- 算法標簽:如基于用戶的基金交易行為,預(yù)測該用戶屬于追漲、殺跌、高拋等哪種類型的客戶,作為客戶的風險偏好標簽。
最終將這些實時與算法標簽的元數(shù)據(jù)可統(tǒng)一接入標簽平臺統(tǒng)一管理。
標簽邏輯創(chuàng)建好之后,同時配置標簽的更新周期、更新優(yōu)先級,進行標簽的定時跑批、手動跑批等。
標簽體系設(shè)計與加工先講到這里,歡迎大家一起討論。
本文由 @木研 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。