有人說智能推薦是一個偉大創(chuàng)造,是信息時代必不可少的工具。但與此同時,有人急切的想要拒絕智能推薦,認為這種追蹤是對個人隱私的侵犯,也有人認為智能推薦會使我們獲取的信息越來越狹窄、越來越片面從而走進信息繭房。
事實真的是他們所擔心的那樣嗎?答案是并非如此。那些帶來此類問題的推薦系統(tǒng),是無法真正稱之為“智能”的。而成熟的智能推薦系統(tǒng)是可以成功避免這些弊端的。
那么智能推薦究竟是如何實現(xiàn)的?它的運算過程中是否涉及了我們的姓名、電話、身份信息等個人隱私呢?
我們首先從它背后所需的數(shù)據(jù)看起
一、智能推薦所需數(shù)據(jù)有哪些
(1)物料類數(shù)據(jù):內(nèi)容的文本類數(shù)據(jù),如內(nèi)容的標題、正文、作者、內(nèi)容來源、標簽或關(guān)鍵詞、分類(如時政、健康、娛樂等)、發(fā)布時間等,在電商場景的話還可能會有價格、商品屬性、商品復(fù)購周期等。
(2)用戶類數(shù)據(jù):地理位置數(shù)據(jù):經(jīng)緯度坐標;特定場景下的靜態(tài)身份數(shù)據(jù):崗位、專業(yè)、技能等業(yè)務(wù)場景下才會需要到的身份數(shù)據(jù)。
(3)用戶行為數(shù)據(jù):包含了用戶對內(nèi)容發(fā)生的行為如點擊、分享、點贊、收藏、加入購物車、瀏覽時長、播放完畢等根據(jù)業(yè)務(wù)場景制定的能反映出用戶興趣的數(shù)據(jù),也包含了用戶發(fā)生行為的時間即用戶點擊這條內(nèi)容是在什么時間,用戶瀏覽10s是在什么時間。
二、智能推薦是如何采集數(shù)據(jù)的
物料類數(shù)據(jù)、用戶類數(shù)據(jù)通過數(shù)據(jù)庫到數(shù)據(jù)庫的方式便可完成上報,而用戶行為數(shù)據(jù)則需要進行行為的埋點才可以實現(xiàn)收集和挖掘。埋點就像公路上的攝像頭,可以采集到車輛的屬性信息,如顏色、車牌號、車型、人臉等。如果攝像頭分布處于理想狀態(tài),那么通過疊加不同位置的攝像頭所采集的信息,基本可以還原出某一輛車的路徑、目的地甚至推測出司機是否是老司機,司機的駕駛習慣是怎樣等。
從智能推薦所需要的數(shù)據(jù)以及采集數(shù)據(jù)的過程,我們不難發(fā)現(xiàn)我們的個人隱私并不是它涉及到的部分,它所需要的更多的是我們的行為數(shù)據(jù)。
其次,一個成熟的推薦系統(tǒng)應(yīng)當具備哪些條件呢,它會使我們進入信息繭房嗎?
信息繭房概念是由哈佛大學(xué)法學(xué)院教授、奧巴馬總統(tǒng)的法律顧問凱斯·桑斯坦在其2006年出版的著作《信息烏托邦——眾人如何生產(chǎn)知識》中提出的。通過對互聯(lián)網(wǎng)的考察,桑斯坦指出,在信息傳播中,因公眾自身的信息需求并非全方位的,公眾只注意自己選擇的東西和使自己愉悅的通訊領(lǐng)域,久而久之,會將自身桎梏于像蠶繭一般的“繭房”中。
如今的推薦系統(tǒng)早已能夠避免這個問題。它們擁有更加成熟的算法策略,更加全面的行為數(shù)據(jù)采集,以及為用戶提供的更多選擇。
內(nèi)容分發(fā),往往被看作是用戶對內(nèi)容的被動接受,但其實平臺給了用戶很大的主動選擇權(quán),這些選擇權(quán)就體現(xiàn)在用戶對內(nèi)容的搜索、瀏覽、停留、關(guān)注、收藏、評論和轉(zhuǎn)發(fā)等行為上,機器通過這些行為讀懂了你的選擇,所以才產(chǎn)生了內(nèi)容的個性化推薦。
智能推薦算法經(jīng)過不斷發(fā)展,已從單一的興趣推薦發(fā)展到拓展用戶的興趣認知的層面上了,也就是說在縱向深化我們興趣點的同時,也在通過內(nèi)容和用戶的交叉算法來橫向引導(dǎo)拓寬我們的興趣面。
編輯朋友們給我舉過一些例子,用戶在某平臺上看了幾篇“美國對中國加征關(guān)稅”的新聞,看完后發(fā)現(xiàn)信息流中推薦了大量的加征關(guān)稅的新聞,而用戶其實想看的是國內(nèi)經(jīng)濟發(fā)展的狀況。以此來說明,智能推薦會推薦大量重復(fù)的新聞,并且限制了用戶的視野。
推薦在資訊軟件里有不同的應(yīng)用場景,比如信息流推薦、文章詳情相關(guān)推薦、搜索的個性化詞云等等,如果大量相似的文章被分發(fā)到相關(guān)推薦中,那肯定是沒問題的,但如果僅僅是依靠文本語義的相似在信息流的主路徑中被反復(fù)推薦,那么這套推薦機制我們并不認為它屬于“智能推薦”。成熟的智能推薦底層算法中,一定有針對于內(nèi)容多樣性的考慮與設(shè)計。
在目前的智能推薦中便針對于推薦的多樣性設(shè)計了5套推薦策略:
1.用戶協(xié)同引擎:即尋找與當前用戶最相似用戶群體所感興趣的內(nèi)容,相似用戶群體數(shù)量的多少與用戶歷史數(shù)據(jù)的積累直接影響到了協(xié)同引擎所推薦的內(nèi)容,意在通過用戶關(guān)系發(fā)現(xiàn)用戶沒有意識到的自己可能會喜歡的內(nèi)容。
2.地域引擎:即當前用戶所屬的地域內(nèi)容會被推薦至信息流中,而地域范圍的粒度也可控制在城市區(qū)縣的級別。
3.熱門引擎:即此時此刻全網(wǎng)中最受關(guān)注的熱門新聞,注重于新聞的時效性和熱門性。
4.興趣引擎:即通過捕捉用戶當前與歷史的瀏覽習慣,在用戶興趣范圍之內(nèi),發(fā)掘那些長尾和個性化的內(nèi)容。
5.規(guī)則引擎:即資訊運營者(如編輯)主觀意愿上甄選的優(yōu)質(zhì)或者價值觀引導(dǎo)的內(nèi)容。
針對文章的相關(guān)推薦不是簡單粗暴的只是語義層面上的相關(guān),而是基于物品的協(xié)同過濾算法,即“看過此篇新聞的用戶還看過哪篇新聞”的算法也通過計算看過此文章的用戶群體的共同特征,推薦出當前用戶大概率上還有可能會感興趣的新聞進行興趣的擴散。
同時,用戶的實時行為反饋也會作為推薦引擎的“燃料”源源不斷的參與到算法引擎的計算當中。除了我們所熟知的用戶的顯性的行為表達(如點擊“我不喜歡”)之外,推薦引擎還實時收集著用戶的隱性行為表達,而這些隱性的行為恰巧是用戶最自然、最真實的對于所推薦內(nèi)容的態(tài)度表達。
對于成熟的智能推薦來說,以上的算法策略和推薦機制都同時存在并將多樣性的努力反饋給用戶。如果用戶在使用智能推薦時發(fā)現(xiàn)大量的內(nèi)容并不適合或者體驗很差,那么很可能是算法策略中的權(quán)重參數(shù)配比出了問題,或者是這套智能推薦還不夠成熟,當然也就不夠“智能”了。
誠如上文所示,智能推薦系統(tǒng)其實是運用用戶的基本信息及他們最平常的行為數(shù)據(jù),通過協(xié)同過濾算法、文本語義算法及權(quán)重召回體系等方式運算并推薦用戶最有可能感興趣的內(nèi)容。智能推薦系統(tǒng)是在信息爆炸的時代背景下,為了解決人們難以獲取有效信息的問題而產(chǎn)生的“工具”,既然作為工具,如文章開頭所言,是我們塑造了它,也同樣是會在某些方面被其塑造的。
但重要的是,無論今天智能推薦的應(yīng)用多么廣泛,獲取信息的主動權(quán)是從未離開過我們的手掌的。智能推薦的任務(wù)是使我們更加便捷的獲取有效信息,而并非主宰我們獲取的所有信息。
作者:艾克斯智能
鏈接:https://www.zhihu.com/question/392720139/answer/1211097139
來源:知乎
頂部
客服
微信掃碼聯(lián)系客服