聯商網前言:Netflix是近年來迅速竄起來的美國知名影片,音樂租賃零售商,已經連續五次被評為顧客最滿意的網站。公司可以提供在線影片租賃觀看,或者租賃實體DVD,并在大多數的知名實體零售商內設有Netflix自動影片租賃亭。在其急速滲透至美國消費者家庭的同時我們不得不感嘆公司背后強大的技術支持,下文分享的是Netflix基于用戶搜索作出的相關推薦運算法,譯者想表達的是:簡單的現象背后不簡單的工程。
假如你用過Netflix的影片租賃服務,你可能會被它基于你搜索下的影片相關推薦給驚訝到,因為它的“相關推薦”是在是有點特殊、甚至讓你覺得摸不著頭腦。
假如Netflix要為其約4000萬名顧客作出特殊的影片定制推薦,那它需要多大的個性化類型數據庫去描述整個好萊塢的電影呢?
當筆者意識到自己可能發現Netflix算法規律后,深深的被這個網站的技術理念給震懾了。通過大量而且重復工作,筆者發現Netflix的影片數據分類不是簡單的分幾百或幾千個,這個網站有76897種獨立的電影分類方法。
我們花了數周的時間去理解,分析,逆向解析Netflix的詞匯和語法的分類原理。我們已經拆分了Netflix最受歡迎的分類,計算出最受歡迎的演員和導演。
有史以來從沒有一家公司會像Netflix整合過這些數據。從數據中可以得知:Netflix分析非常細致,給每一部電影和電視劇都會設定標簽。他們幾乎擁有所有好萊塢的影片,而那些我們找到的流派僅僅是整個數據庫的冰山一角。
我們逆向解構Netflix的系統原理,發現真的難以超越。公司雇傭了很多人,工作前需要閱讀長達36頁的培訓文件,然后訓練他們如何對影片的暗示性內容、暴力程度、浪漫情節等元素做出精準的評級、分類。
他們捕捉了數萬種不同的電影屬性,甚至還為影片主要人物進行道德評級。這些標簽,與4000萬用戶的看片習慣進行匹配,隨即形成了Netflix獨一無二的競爭優勢。
在Netflix線下銷售中沒有一部電影的標簽超過五個,三個描述詞的比較多:如戀愛無果外國喜劇片,兩個描述詞的最常用,用得最多的就是一個形容詞。
從《洛杉磯時報》的一篇文章中我們學到了設置標簽的基本知識。這些標簽是如何與Netflix的個性化推薦祥結合的?是什么樣的算法能將標簽精確地轉化為76897個分類?
其中關鍵的一步是:將設置標簽的人類智慧與有著運算法則的機器智能相結合。不難看出,Netflix公司”個性化類型“完全是人為形成的,也從側面反映出人類可能還不能獨立解決這一問題。例如,形容詞“賞心悅目的”,要想給電影貼上這樣的標簽,電影必須滿足一系列特征以外,更重要的是有一個美滿的結局。工程師在給一部電影分類時,依據的是一系列基本的標簽,并不是直接得到這個電影的類型。
Netflix公司甚至拿出100萬美元的獎金用于鼓勵團隊設計出算法。要求其算法能夠提高公司預測用戶給電影評星的能力。而團隊花費數年時間也僅僅把算法提高10%。
Netflix這么做的最主要目的是留住訂閱用戶。而我們之前表象看到的奇怪推薦正是他們戰略的重要部分。早在2012年時,Netflix就在其官博中提到,“能精確捕捉到用戶喜歡的微類型內容,就能用提升訂購率,從而拉開自己與競爭對手的差距”事實也證明,Netflix更了解用戶,其網站內容對于用戶的粘性就越強。
現在Netflix建立了屬于自己用戶對美國電影喜好的強大數據庫。該數據庫雖然不能告訴導演編劇影視劇要怎么拍才能有好票房,但至少能提醒美國的制片人,影片需要有哪些元素才能抓住美國觀眾的眼球,例如在拍攝美劇“紙牌屋”的時候,就很好的利用了這些元素。
�。撋叹W編譯,轉載注明出處)