99热在线精品播放,久草香蕉视频在线观看,亚洲欧美国产一区性感

今天vv直選的測(cè)評(píng)員一起和你探究一下抖音的算法哪些小秘密：

一、背景

隨著互聯(lián)網(wǎng)時(shí)代（特別是移動(dòng)互聯(lián)網(wǎng)）的到來(lái)，信息如同《三體》里“技術(shù)爆炸”一般，呈現(xiàn)出“信息爆炸”的狀態(tài)。

每天以EB為單位的信息量誕生在互聯(lián)網(wǎng)的每個(gè)角落。預(yù)計(jì)到2025年，全球每天產(chǎn)生的數(shù)據(jù)量將達(dá)到491EB（1 EB=1024 PB=1048576 TB）。

在這種情況下，消費(fèi)者對(duì)于信息的獲取無(wú)疑變得更加的主動(dòng)且豐富。

但豐富，并不意味著有效。

紙媒時(shí)代尚且有專業(yè)的編輯對(duì)內(nèi)容進(jìn)行篩選、排版后“分發(fā)”給消費(fèi)者。

但對(duì)于互聯(lián)網(wǎng)產(chǎn)品來(lái)說(shuō)，即使內(nèi)容再豐富，用戶如果不感興趣也是無(wú)效內(nèi)容。

“效率”始終是商業(yè)社會(huì)的本質(zhì)之一。低效意味著隨時(shí)有可能落后或被淘汰。

為了解決這一問(wèn)題，淘寶最早再在2013年提出“千人千面”的概念。

依托淘寶網(wǎng)十年發(fā)展積累下來(lái)的龐大數(shù)據(jù)庫(kù)，從細(xì)分類目中抓取那些與買家興趣相匹配的商品，進(jìn)行優(yōu)先展現(xiàn)。

而每個(gè)在淘寶網(wǎng)上購(gòu)買或是瀏覽過(guò)商品的消費(fèi)者，都會(huì)被平臺(tái)打上標(biāo)簽，比如年齡、地域、客單價(jià)、收藏偏好等。

標(biāo)簽的不同，在千人千面模式下，用戶所看到的產(chǎn)品自然就會(huì)有所差異。

更有效率的內(nèi)容分發(fā)方式，由此從野蠻生長(zhǎng)進(jìn)入到精細(xì)化運(yùn)營(yíng)的時(shí)代。

到了以“算法驅(qū)動(dòng)”為核心理念的張一鳴手里，今日頭條、抖音等產(chǎn)品更是在這種理念下飼養(yǎng)出來(lái)的洪水猛獸。

因此作為一名互聯(lián)網(wǎng)人，即使不用動(dòng)手去寫(xiě)編程算法，但了解相關(guān)算法知識(shí)、懂得相關(guān)內(nèi)容分發(fā)與推薦機(jī)制背后的基本原理，也有利于更上一個(gè)認(rèn)知的新臺(tái)階。

二、算法推薦系統(tǒng)的兩個(gè)核心

（一）抖音為何讓人如此上癮？

許多人或許會(huì)有這樣的體驗(yàn)：

在不同的場(chǎng)景下（在家、地鐵、公司）、不同的時(shí)間點(diǎn)（早上、中午、晚上），即使是同類型的電影，實(shí)際上所接收到的內(nèi)容也略有差別。

例如白天大多會(huì)收到比較幽默的內(nèi)容，而到了晚上則會(huì)收到略帶懸疑的影視剪輯片段等。

而無(wú)論是什么時(shí)候打開(kāi)抖音，它都能讓用戶沉浸其中，似乎感覺(jué)不到時(shí)間的流逝，往往一下子能過(guò)去一兩個(gè)小時(shí)。

你會(huì)發(fā)現(xiàn)抖音似乎很懂你，因?yàn)榻o你推送的內(nèi)容全都是你喜歡看的。

拋開(kāi)抖音的產(chǎn)品設(shè)計(jì)、沉浸式消費(fèi)體驗(yàn)、短平快的內(nèi)容節(jié)奏等，這其中還涉及到算法推薦機(jī)制和運(yùn)營(yíng)策略等因素。

而內(nèi)容的個(gè)性化分發(fā)，本質(zhì)上用一句大白話就可以解釋：

讓喜歡看妹子的用戶，看到含有妹子的內(nèi)容。

但在現(xiàn)實(shí)環(huán)境中，放眼互聯(lián)網(wǎng)，能把這句話做好的公司其實(shí)沒(méi)幾個(gè)。

那么問(wèn)題到底難在哪里呢？

（二）給內(nèi)容打標(biāo)，沒(méi)有想的那么簡(jiǎn)單

給標(biāo)簽定義難，給內(nèi)容打標(biāo)也難。

在給一篇內(nèi)容打上標(biāo)簽之前，首先需要做的是給標(biāo)簽做定義。

即講清楚什么是蘋(píng)果，什么是梨，而不是把蘋(píng)果叫成梨。

一篇內(nèi)容通常包括一級(jí)分類、二級(jí)分類、三級(jí)分類、標(biāo)簽等幾個(gè)層次。

如動(dòng)漫>日漫>火影忍者>鳴人等。

對(duì)于這些具有普遍性認(rèn)知的分類跟標(biāo)簽來(lái)說(shuō)，通常比較好下定義。

但是對(duì)于搞笑、美女這樣的標(biāo)簽，則因人而異。

因?yàn)槊總€(gè)人的笑點(diǎn)不同、審美不同。

到底什么內(nèi)容才算好笑、多好看才算美女？

蘿卜青菜各有所愛(ài)，打標(biāo)還沒(méi)開(kāi)始，就先卡在定義上面。

這里其實(shí)就涉及到兩個(gè)概念——實(shí)體標(biāo)簽跟語(yǔ)義標(biāo)簽：

1.實(shí)體標(biāo)簽

廣州就是廣州、上海就是上海；馬云就是馬云，淘寶就是淘寶。

他們都是確定的實(shí)體，通常在不同人那里不會(huì)產(chǎn)生太大的歧義。

2.語(yǔ)義標(biāo)簽

如沙雕、美女、奇葩等詞，并沒(méi)有確定的指定對(duì)象。

在不同人那里會(huì)有不同的認(rèn)知，因此打標(biāo)難點(diǎn)通常出現(xiàn)在語(yǔ)義標(biāo)簽的定義上面。

語(yǔ)義標(biāo)簽的推薦效果是檢驗(yàn)一個(gè)公司NLP（自然語(yǔ)言處理）技術(shù)水平的試金石。

不同公司根據(jù)其業(yè)務(wù)能力或需求的不同，對(duì)標(biāo)簽顆粒度的要求也不同。

比如有的公司拆分到火影忍者就不往下拆了，直接把這個(gè)詞當(dāng)作最小顆粒度的標(biāo)簽。

所有涉及到這部動(dòng)漫的內(nèi)容都可以打上這個(gè)“火影忍者”標(biāo)簽，但是難免有種一刀切的感覺(jué)，對(duì)后續(xù)的運(yùn)營(yíng)工作也有影響。

比如有的用戶想看、或者想搜索“鳴人”，結(jié)果推送的、搜索出來(lái)的全都是“火影忍者”里面的其他人。

而有的公司則繼續(xù)往下拆：例如拆到火影忍者>鳴人、佐助、小櫻等實(shí)體標(biāo)簽。

因此可以看得出：標(biāo)簽顆粒度越細(xì)，推薦的內(nèi)容越精準(zhǔn)，同時(shí)所需要投入的資源則越多。

即使把整個(gè)公司的打標(biāo)團(tuán)隊(duì)拉到一個(gè)會(huì)議室里面，大家通過(guò)統(tǒng)一培訓(xùn)、講解，一個(gè)月后大家終于對(duì)什么才算是美女有了一個(gè)統(tǒng)一的認(rèn)知，審美逐漸相同。

那么打標(biāo)就可以順利開(kāi)展了嗎？NO！

讓我們先喝口水緩一緩，然后再接著往下繼續(xù)聊。

（三）用戶標(biāo)簽：可能是最難搞的部分

1.用戶口味就像個(gè)難哄的女朋友

比內(nèi)容標(biāo)簽難度更大的便是用戶標(biāo)簽。

因?yàn)榛鹩叭陶呔褪腔鹩叭陶撸坏┐蛏线@個(gè)內(nèi)容標(biāo)簽，它就不會(huì)變成海賊王。

內(nèi)容標(biāo)簽尚且可以通過(guò)人工打標(biāo)+機(jī)器訓(xùn)練的方式進(jìn)行。

用戶不一樣，可能這個(gè)月他喜歡看火影忍者，算法推薦機(jī)制也給他匹配了相關(guān)的內(nèi)容。但是下個(gè)月他可能因?yàn)榕笥鸦蛲碌耐扑]開(kāi)始看海賊王了。

如果算法還沒(méi)反應(yīng)過(guò)來(lái)，繼續(xù)給他推送火影忍者的相關(guān)內(nèi)容，此時(shí)這些內(nèi)容對(duì)他來(lái)說(shuō)便是無(wú)效內(nèi)容，從而影響了內(nèi)容的分發(fā)效率。

好比胡蘿卜一直是胡蘿卜，但是用戶的口味卻一直在變化。

今天想喝湯，明天想吃肉。

這里其實(shí)涉及到“推薦窄化”的問(wèn)題，算法機(jī)制越差的產(chǎn)品，其推薦的內(nèi)容越容易出現(xiàn)窄化。

如不小心點(diǎn)擊了幾篇文章，算法便默認(rèn)你喜歡這一類內(nèi)容，此后便一直推送相關(guān)信息，無(wú)法做到根據(jù)用戶的需求變化進(jìn)行靈活更迭。

盡管在這個(gè)時(shí)代，無(wú)論使用哪一款內(nèi)容產(chǎn)品，都不可避免的會(huì)出現(xiàn)“信息繭房”的現(xiàn)象，但成熟的NLP技術(shù)與初級(jí)之間，實(shí)際的產(chǎn)品體驗(yàn)效果仍是天差地別。

2. 掌握用戶的基本信息

在做用戶標(biāo)簽之前，需要先掌握跟用戶相關(guān)的信息，通常包括性別、年齡、地點(diǎn)、興趣偏好等。

1）性別有助于分發(fā)性別屬性較明顯的內(nèi)容：如給男生推送體育、給女生推送美容護(hù)膚；

2）年齡也同理：給年輕人推送動(dòng)漫、游戲等內(nèi)容，給老年人推送養(yǎng)生、健康信息等；

3）地點(diǎn)則用于推送與區(qū)域熱點(diǎn)相關(guān)的信息：如給上海用戶推送上海突發(fā)新聞，北京限行對(duì)于廣州用戶似乎沒(méi)有多大影響。

以上三者通?？梢酝ㄟ^(guò)用戶自動(dòng)填寫(xiě)、授權(quán)訪問(wèn)位置信息的方式獲取，且不會(huì)有太大的變動(dòng)。

3.掌握用戶興趣偏好

對(duì)于用戶興趣偏好，如上所說(shuō)，則是做用戶標(biāo)簽的難點(diǎn)所在。

獲取用戶興趣偏好采用的方式，是根據(jù)用戶消費(fèi)過(guò)的內(nèi)容匹配相應(yīng)的標(biāo)簽，通常采取以下幾種方式進(jìn)行定位：

1）過(guò)濾噪聲：如用戶被標(biāo)題黨內(nèi)容吸引進(jìn)去，但是停留時(shí)間過(guò)段，則說(shuō)明用戶對(duì)該內(nèi)容所綁定的標(biāo)簽不感興趣，以此來(lái)過(guò)濾標(biāo)題黨；

2）熱點(diǎn)降權(quán)：對(duì)一些社會(huì)熱點(diǎn)、突發(fā)新聞（如某明星出軌），雖然短時(shí)間內(nèi)用戶瀏覽了相關(guān)信息，但并不能說(shuō)明該用戶一定對(duì)“娛樂(lè)”內(nèi)容特別感興趣，需要對(duì)該用戶的“娛樂(lè)”興趣偏好進(jìn)行降權(quán)處理；

3）時(shí)間衰減：如上所說(shuō)，用戶的興趣會(huì)發(fā)生偏移，因此推送策略需要更偏向于新的用戶行為；

4）懲罰展現(xiàn)：如果一篇推薦給用戶的文章沒(méi)有被點(diǎn)擊，則該內(nèi)容的相關(guān)特征（如內(nèi)容分類、標(biāo)簽）權(quán)重會(huì)被降低。

舉一個(gè)十分簡(jiǎn)單的例子：

如某新注冊(cè)用戶（女，25歲，上海）在刷抖音時(shí)，算法采用A-A、A-B的方式進(jìn)行測(cè)試。

首先連續(xù)推送兩條影視剪輯內(nèi)容（A-A），用戶都完整觀看并有點(diǎn)贊、評(píng)論等操作；

其次推送影視剪輯后推送母嬰內(nèi)容（A-B），用戶只觀看了影視剪輯內(nèi)容，卻劃走了母嬰內(nèi)容。

那么則說(shuō)明用戶對(duì)“影視剪輯”這一內(nèi)容的興趣偏好度較高，對(duì)“母嬰”標(biāo)簽內(nèi)容興趣偏好較低。

4. 不同內(nèi)容類型的推薦權(quán)重

我們都知道對(duì)于綜合型平臺(tái)而言，內(nèi)容通常不止一種類型，如今日頭條便包含了長(zhǎng)圖文、小視頻、短視頻、問(wèn)答、微頭條等幾種不同形態(tài)的內(nèi)容。

即使是同一個(gè)標(biāo)簽，如“美女”，不同內(nèi)容類型的推薦權(quán)重是否一樣？這也是算法推薦機(jī)制需要考慮的問(wèn)題。

三、如何衡量推薦系統(tǒng)的好壞

內(nèi)容推薦的準(zhǔn)不準(zhǔn)，通?？梢灾苯訌臄?shù)據(jù)上去分析。

CTR（點(diǎn)擊率）、消費(fèi)時(shí)長(zhǎng)、點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)數(shù)等“可量化指標(biāo)”。

如Y=F（X1,X2,X3），Y代表內(nèi)容可被加大曝光的權(quán)重，X代表點(diǎn)贊、評(píng)論等實(shí)際參數(shù)。

評(píng)論數(shù)的影響權(quán)重通常大于點(diǎn)贊?rùn)?quán)重，不同平臺(tái)由于產(chǎn)品差異對(duì)于參數(shù)的權(quán)重設(shè)置也有所不同。

而不同的用戶因其賬號(hào)“置信度”的差異，即使點(diǎn)贊了同一條內(nèi)容，對(duì)該內(nèi)容的影響權(quán)重也有差異，如某知乎大V點(diǎn)贊跟普通賬號(hào)點(diǎn)贊的權(quán)重顯然是不一樣的。

但有時(shí)數(shù)據(jù)也有缺陷。如對(duì)于低俗、標(biāo)題黨、涉黃內(nèi)容，如果短時(shí)間內(nèi)吸引了大量用戶點(diǎn)擊瀏覽，那么算法能判定其為好內(nèi)容，并加大推送量嗎？

答案顯然是否定的。

因此通常需要打壓降權(quán)的內(nèi)容主要有以下幾種：

1）廣告、低質(zhì)搬運(yùn)內(nèi)容打壓；

2）涉黃、低俗惡心內(nèi)容打壓；

3）標(biāo)題黨、低質(zhì)賬號(hào)內(nèi)容降權(quán)等。

基于社會(huì)責(zé)任感和政策法規(guī)等因素，平臺(tái)需要對(duì)該部分內(nèi)容進(jìn)行打壓、降權(quán)，而對(duì)重點(diǎn)時(shí)事新聞進(jìn)行置頂強(qiáng)插。

這些都是算法無(wú)法獨(dú)立完成的，需要運(yùn)營(yíng)配合進(jìn)行。許多資訊平臺(tái)都會(huì)有專門(mén)的首頁(yè)運(yùn)營(yíng)小組對(duì)內(nèi)容進(jìn)行人工干預(yù)。

大多數(shù)APP日常通知欄PUSH的內(nèi)容也是采取算法+人工的方式進(jìn)行推送的。

四、總結(jié)

回到開(kāi)頭所說(shuō)：要讓喜歡看妹子的用戶看到含有妹子的內(nèi)容。

這句如此簡(jiǎn)單的話想要實(shí)現(xiàn)它，需要做到：

1. 內(nèi)容標(biāo)簽的準(zhǔn)確定義、準(zhǔn)確打標(biāo)

因?yàn)椴煌娜藢?duì)于同一個(gè)語(yǔ)義標(biāo)簽會(huì)有不相同的認(rèn)知。

2. 用戶標(biāo)簽的準(zhǔn)確匹配

清楚用戶對(duì)于哪種“妹子”興趣偏好度更高：是長(zhǎng)發(fā)妹子？還是短發(fā)妹子？是南方人還是北方人等等顆粒度更細(xì)的拆分。

用戶標(biāo)簽是建立在內(nèi)容標(biāo)簽打的足夠準(zhǔn)確的前提條件之上的，一步錯(cuò)則步步錯(cuò)。

如果內(nèi)容標(biāo)簽無(wú)法準(zhǔn)確判斷，那么基于內(nèi)容標(biāo)簽建立起來(lái)的用戶標(biāo)簽也是不可信的。

3. 算法訓(xùn)練

要想訓(xùn)練機(jī)器能夠自動(dòng)打標(biāo)，往往一個(gè)“標(biāo)簽”就需要訓(xùn)練幾個(gè)星期的時(shí)間。

通常采用抓取標(biāo)題關(guān)鍵詞的方式打上內(nèi)容標(biāo)簽，但有時(shí)標(biāo)題與文章或視頻里面所有表達(dá)的內(nèi)容其實(shí)有很大出入，因此打上的標(biāo)簽很有可能是不準(zhǔn)確的，需要人工進(jìn)行復(fù)核，判斷其準(zhǔn)確率。

綜上所述，如今算法分發(fā)幾乎已經(jīng)是所有搜索引擎、資訊軟件、內(nèi)容社區(qū)、社交軟件等產(chǎn)品的標(biāo)配。

算法代表著用系統(tǒng)的方法去描述、解決問(wèn)題的策略機(jī)制。

因此無(wú)論你是一只產(chǎn)品汪、還是一只運(yùn)營(yíng)喵，了解了內(nèi)容平臺(tái)的基本算法原理，無(wú)論是對(duì)于產(chǎn)品推薦機(jī)制的設(shè)計(jì)，還是對(duì)平臺(tái)運(yùn)營(yíng)策略的構(gòu)建，都能有所幫助。

抖音的算法，是如何把你束縛在信息繭房里的？

一、背景