冷啟動(dòng)(cold start)在整個(gè)推薦系統(tǒng)中,是一個(gè)重要的開始。推薦系統(tǒng)一般需要在大量的數(shù)據(jù)基礎(chǔ)上才能比較準(zhǔn)確的進(jìn)行推薦,APP的冷啟動(dòng)可能直接決定著這個(gè)新用戶會(huì)不會(huì)繼續(xù)使用,新物品的冷啟動(dòng)也影響著生產(chǎn)者的積極性,所以冷啟動(dòng)很重要。
冷啟動(dòng)問題分為3類:
用戶冷啟動(dòng)思路
用戶冷啟動(dòng),最常見的場景就是新用戶冷啟動(dòng)。一個(gè)新用戶轉(zhuǎn)化為老用戶的路徑是:新用戶興趣獲?。?gòu)建冷啟動(dòng)用戶初始畫像)->內(nèi)容消費(fèi)和興趣收斂->沉淀興趣成為老用戶。概括地說,第一步就是“千方百計(jì)”獲取用戶畫像或讓用戶主動(dòng)產(chǎn)生畫像,有幾種方法可以考慮。
利用用戶的社會(huì)屬性,如性別、年齡、地區(qū)等。在用戶第一次打開APP的時(shí)候,很多APP會(huì)提示或留有入口供用戶填寫相關(guān)信息。即使用戶不主動(dòng)輸入,也可以嘗試從外部渠道(渠道畫像、矩陣畫像、applist等)引入畫像信息(但需要注意用戶重合度和相關(guān)度)。有了這些信息,就可以基于社會(huì)屬性進(jìn)行粗顆粒度的個(gè)性化推薦。
利用用戶的關(guān)系鏈,可以借助運(yùn)營活動(dòng)收集(如支付寶活動(dòng)收集好友關(guān)系、親子關(guān)系)或從外部引入(第三方登錄或開放API),基于“人以群分”的道理給用戶推薦好友喜歡的內(nèi)容。
利用熱門內(nèi)容,對(duì)用戶“一無所知”的情況下,基于從眾心理和二八定律,可嘗試給用戶推薦熱門內(nèi)容,這種方式主要注意熱門的范圍和算法,效果會(huì)比隨機(jī)推薦好。利用高質(zhì)量內(nèi)容同理。
(左:微博,右:今日頭條)
用戶冷啟動(dòng)的指標(biāo)可以關(guān)注新用戶的畫像指標(biāo)(人均興趣數(shù)、畫像覆蓋率、畫像準(zhǔn)確率等)及新用戶活躍表現(xiàn)(點(diǎn)擊率、留存等)。
假設(shè)一款國際APP,基于國籍和性別就能在一開始有一個(gè)比較好的推薦效果,它有什么辦法獲得這些信息?
這類隱性探索,選取物品需要有技巧:
物品冷啟動(dòng)思路
利用物品內(nèi)容推薦:
(圖片來源于網(wǎng)絡(luò))
相關(guān)算法簡介
期間涉及的常用算法有哪些?假設(shè)A用戶是新用戶,只有少量畫像。
UserCF和ItemCF使用的是同一份用戶行為數(shù)據(jù),只是統(tǒng)計(jì)維度不同。如下圖簡單示例(1表示用戶點(diǎn)擊了該物品),UserCF是橫向計(jì)算用戶的相似度,ItemCF是縱向計(jì)算物品的相似度。
UserCF、ItemCF在冷啟動(dòng)問題上都有“第一推動(dòng)力”的問題。
UserCF,要讓新物品先出現(xiàn)在用戶展示列表,才有可能讓更多的人對(duì)這個(gè)物品產(chǎn)生反饋,物品才能擴(kuò)散出來,所以有一個(gè)第一推動(dòng)力的問題,即第一個(gè)用戶從哪里發(fā)現(xiàn)新物品。
ItemCF是隔段時(shí)間計(jì)算用戶行為(日志龐大,較耗時(shí))從而計(jì)算出物品相似度(如果大量用戶看了物品a,同時(shí)也看了物品b,即認(rèn)為這兩個(gè)物品是相似的),輸出一個(gè)物品相關(guān)度矩陣,新物品加入時(shí)并不會(huì)自動(dòng)加入這個(gè)矩陣表,也需要有用戶先發(fā)現(xiàn)這個(gè)新物品。
ContentItemKNN利用物品的內(nèi)容特征計(jì)算物品相關(guān)表,可以頻繁地更新相關(guān)表,沒有第一推動(dòng)力的問題。但它忽視了用戶行為,從而忽視了用戶行為中所包含的規(guī)律,結(jié)果精度低,新穎度高,效果一般不如協(xié)同過濾。但如果用戶行為強(qiáng)烈受某一內(nèi)容特征的影響,內(nèi)容過濾算法有亮點(diǎn)。
前文提及的第一推動(dòng)力問題,即物品冷啟動(dòng)問題,也稱“新物品試投”,有什么辦法解決?
新物品試投是“物品找用戶”。如果是“用戶找物品”,容易出現(xiàn)馬太效應(yīng):熱門分類曝光多,長尾現(xiàn)象嚴(yán)重。物品找用戶的方式有兩種:
假設(shè)我們定義曝光500次以下的物品是新物品(資訊類產(chǎn)品一般還有時(shí)間限制,如6小時(shí)內(nèi)),將新物品和用戶表征為多維向量,計(jì)算向量的距離,對(duì)較活躍用戶分發(fā),在冷啟動(dòng)階段排序加權(quán)和重排限制。物品在冷啟動(dòng)階段會(huì)有一個(gè)趨于穩(wěn)定的點(diǎn)擊率(或其他綜合指標(biāo)),該點(diǎn)擊率是它后續(xù)流量分配的依據(jù)——根據(jù)小流量的點(diǎn)擊率表現(xiàn),表現(xiàn)好的物品進(jìn)入下一個(gè)更大的流量池,表現(xiàn)差的物品被淘汰或降權(quán)。梯度流量分發(fā)策略是比較常見的個(gè)性化推薦“賽馬機(jī)制”。
用哪些指標(biāo)評(píng)估物品冷啟動(dòng)效果?
另外一點(diǎn),還需要注意用戶的上下文信息,包括時(shí)間信息、空間信息,走一些強(qiáng)規(guī)則。
例如電商APP,新用戶在夏天登陸,就不應(yīng)該推出羽絨服;在中秋節(jié)登錄,就不應(yīng)該推出端午節(jié)的資訊。但這不僅是在冷啟動(dòng)階段,在整個(gè)推薦場景都應(yīng)該留意用戶的上下文信息。
作者:張小喵Miu
來源:張小喵Miu
136 0806 8886【加微信請(qǐng)注明來意】
四川省成都市高新區(qū)天府三街1599號(hào)(天府三街與南華路交匯處)