活動報導

【雲協技術專家專欄】預知第三方Cookie死亡紀事下的資料技術發展

字級:
小字級
中字級
大字級
友善列印

第一網站副總經理/雲協技術專家委員會委員 蔣居裕

Web隱私權保護概況

自Tim Berners-Lee在1990年提出第一版的Web Server (httpd) 暨包含瀏覽器與編輯器的客戶端註1到現今,已過了33年,歷經不同的網路浪潮,若說Web是Internet上最受歡迎的上層應用,應該沒有人會反對。基於HTTP通訊協定的各種Web Services、RESTful API,更是網路服務多元發展的技術支撐。

威風颯颯的網路經濟,從門戶網站 (以Yahoo!為代表)、電子商務 (以Amazon為代表)、搜尋引擎 (以Google為代表)、社群媒體 (以Facebook為代表) 到影音串流 (以Youtube為代表),裝置面從Desktop到Mobile,當今即便是行動App當道,Web依然是強而有力的存在。

在Web的世界,曾經有很長的一段時間,「使用者隱私權」一直是一個看似重要,但相較於網路經濟的發展,其優先順序又好像是可以被擺在後面來考量的尷尬議題。君不見每個品牌官網,一定都缺不了「隱私權政策」(Privacy Policy) 這一頁,但內容講白了,大多是在對瀏覽者說:「歡迎你來使用我們的網站,這同時代表你同意我們的隱私權政策 —— 我們會盡力保護你的隱私資料,不會濫用、不會蓄意外洩,但我要怎麼用、保存多久,還有經我同意的第三方也會來用。這些,你都不能干涉喔」。

直到2016年4月歐盟通過GDPR (General Data Protection Regulation) 法案,經兩年緩衝,於2018年5月強制執行後,由於事關國際商務往來的法遵,以及令人發麻的罰則,網路世界對使用者隱私權保護的優先順序與實際作為,才不得不積極了起來。

Browser Cookie與使用者隱私的消長

長久以來,Web Server – Browser主從運作架構最為人所詬病、危害使用者隱私最大的,無非是Cookie的使用。Cookie的運作,可以讓網站辨識使用者、紀錄使用者的狀態與行為,無論是當下正在瀏覽的網域第一方 (1st-party) Cookie,還是跨網域的第三方 (3rd-party) Cookie。

開始在瀏覽器中設計Cookie功能,是任職於Netscape公司的Lou Montulli,他與同事在1994年10月發行的Mosaic Netscape V0.9 beta中,實作了支援Cookie的模組,第一個應用場景就被用來檢查當下拜訪Netscape公司官網的瀏覽者是新訪客,還是回頭客註2

此後,不管是瀏覽器開啟網頁所屬網域的第一方Cookie,還是網頁中嵌入來自其他網域Javascript程式碼的第三方Cookie,就被廣泛使用,並成為強化使用者體驗、進行精準行銷的基礎設施,也是網路廣告要做再行銷 (Retargeting)、商品/內容推薦 (Recommendation)、客戶分群 (Customer Segmentation) 的要件。

於此同時,未經使用者同意就進行的各種Cookie應用,也成了隱私權倡議者抨擊的箭靶,從法律與道德的角度,進行對抗。進而呼籲各國政府與企業,尤其是具有莫大影響力的科技巨頭,能從擁有數以億計使用者的網路服務源頭,就提高使用者隱私的設計,以收事半功倍之效。

根據Statista註3一份報告指出,在2023年1月,全球瀏覽器市佔率最高的是Google Chrome (65.43%),第二名的Apple Safari才佔18%,其他的瀏覽器,如Edge、Firefox、Opera、IE等,均未有超過5%者。

Apple向來強力主張要保障其軟、硬體使用者的隱私安全,並長期有序地執行到位。從2017年9月Intelligent Tracking Prevention (ITP) 1.0開始,到2020年11月最後更新的2.3+版本,涵蓋Safari瀏覽器 (使用WebKit引擎) 到iOS作業系統,用3年多的時間,針對網站使用者追蹤技術,推進到以封鎖第三方Cookie為預設,使用者允許為例外 (想當然爾,使用者不會特意去修改這個預設,就這樣大幅降低了第三方Cookie的可用性)。另外,也限縮了第一方Cookie的有效期至1或7天 (這就是為何使用Safari定期造訪的網站,常會跳出需要使用者同意使用Cookie的原因)。

從瀏覽器的佔有率來看,Safari只佔18%,ITP造成的影響看似不大,但因為透過行動裝置來存取Web的比例,早就超過Desktop (包含桌機與筆記型電腦),流量比例已達到7:3的程度,而行動裝置作業系統的佔有率,iOS至少有半璧江山,略高於Android,所以iOS預設封鎖第三方Cookie (其他廠商在iOS上推出的瀏覽器,要跟Safari一樣,使用相同的WebKit引擎),估計至少影響到35%的Web流量,再加上MacOS上的Safari,被ITP影響的Web總流量,至少是40%。參考筆者自己的經驗,這個數字只會多,不會少。


圖1. Safari (v16.0) 預設「防止跨網站追蹤」為開啟,第三方Cookie就這樣被靜靜地封鎖了

面對世界各地日益高漲的使用者隱私保護浪潮,瀏覽器市佔第二名的Apple Safari表現得如此積極,全球第一的Google Chrome自然也無法置身事外,最早是在2020年初宣布會於兩年內 (也就是2022年底前),將Chrome支援第三方Cookie的能力關閉 (其用詞是“phase out”)註4,之後又兩度宣布延遲落日時程,目前是訂在2024年底前。一延再延,顯現的是重度依賴第三方Cookie來追蹤使用者的龐大網路行銷生態系,面對Cookie-less即將到來 (重大影響的是第三方,第一方Cookie還是預設可以運作,只是有效期可能會被限縮),在替代方案的發展與共識上,還是嚴重不足。


圖2. Chrome (v111.0) 預設「封鎖第三方Cookie」為關閉,即默許其運作

Web隱私權笑了,那誰哭了?

受第三方Cookie退場影響的網路服務,其實不少,但若是參與者有限,或是在可控的商業模式 (比如B2B服務) 底下,改採Server to Server的技術架構來交換資料,將可降低衝擊,甚或不受影響。

但若是要提到重大傷害,則無非是服務B2C行業應用的MarTech與更廣泛的AdTech廣告業者。MarTech業者或許可以轉向更強調第一方數據的Customer Data Platform (CDP),去發展精準的會員行銷技術。但以第三方Cookie為主的AdTech龐大數位廣告生態系:廣告主 (Advertiser) — 廣告需求方平台 (DSP) / 受眾數據管理平台 (DMP) — 廣告交換中心 (Ad Exchange) — 廣告提供方平台 (SSP) — 流量媒體方 (Publisher),在應對此一重大變革上,顯得分歧又難以轉身。

在上述Apple與Google持續謀劃封殺瀏覽器對第三方Cookie支援的當兒,據Advertiser Perceptions一份報告註5指出:在2021年5月,有97%的廣告主使用第三方Cookie來追蹤受眾。可見其對網路廣告商的重要與普遍存在的事實。

而即使整個數位廣告生態系對第三方Cookie落日應該開始有所準備的7個月過後,至2021年12月為止,仍有高達88%的廣告主還在使用第三方Cookie,即便報告說這已經算是「明顯下降」(declines significantly)。


圖3. 第三方Cookie是最受廣告主倚賴的受眾追蹤方法 (來源:Advertiser Perceptions)

第三方Cookie的替代方案在哪裡?

廣告只佔Apple營收很小的一塊,甚至可以忽略,所以可以站在道德的制高點,搖旗吶喊使用者隱私安全優先,持續堅定地更新ITP與其他保護機制,將使用者隱私資訊越縮越緊。相較之下,廣告則是Google的主業,雖然主要營收項目是來自第一方產品 (如關鍵字廣告、Youtube影音廣告),但在整個產業中,不可能獨好,還是必須先幫生態夥伴找到第三方Cookie消失的替代方案,讓數位廣告產業即使受了傷,但還可保有活路。可惜的是,瀏覽器內的替代方案發展不順,讓Chrome預設關閉第三方Cookie的時程一延再延。

2019年,Google宣布了Privacy Sandbox計畫 (https://privacysandbox.com/),推出一系列取代跨網站追蹤使用者技術的實驗,為即將沒有第三方Cookie的未來,還是可以進行某種程度的定向廣告 (Targeting Ads)。到了2022年,Privacy Sandbox又從Web延伸到Android手機,目的是要逐漸封鎖跨App的使用者追蹤。但同樣的,Google此舉也被認為是被迫對Apple於2021年推iOS App Tracking Transparency (ATT;就是造成Facebook行動聯播廣告營收砍半的兇手) 的不得不回應。


圖4. Privacy Sandbox for the Web的各項提案與其時程與狀態 (來源: privacysandbox.com)

如上圖4. 所示,在Privacy Sandbox for the Web的各種API提案中,第三方Cookie的替代方案主要是被歸類在「Show Relevant Content and Ads」,其中最早的FLoC (Federated Learning of Cohorts,群組聯合學習),實驗開始於2021Q1,結束於2021Q3,短命的原因是外界認為其限縮使用者隱私資訊的成效有限,代表一群有相同興趣使用者的群組ID為跨網唯一,有心人在交叉比對之下,還是有可能識別出個別使用者,可能比Cookie還要危險。

取代FLoC的,是2022.Q2啟動實驗的Topics,Google宣稱它讓興趣分類的範圍更加模糊 (從上萬的興趣標籤降到百、千數量級的主題),且保留三週後,就會重新運算,這樣就不容易追蹤到個人。

至於也是在2022.Q2開始實驗的FLEDGE,則是想在沒有第三方Cookie的環境中,建立一套廣告受眾即時競價的技術實驗。

各界都在努力打造不完美的Privacy-first方案

類似FLoC、Topics這種被稱為Privacy-first的方案,目標是讓應用者 (API 使用者,如廣告業者) 在不蒐集識別資訊的情況下,還可以保有一定程度的使用者分析與定向 (User Targeting) 能力。簡言之,是試圖要在隱私安全與使用者體驗之間,尋找出一個相關利益者都能接受的平衡點。這種「既想精準,又要保護」的矛盾,天生注定是一個無法成就完美的折衷方案。

從瀏覽器著手,對應用者是相對省力的處理方式,但瀏覽器市場又被巨頭寡占,外界對巨頭宣稱的中立角色,充滿了不信任,所以同時也會有其他非瀏覽器的Privacy-first方案在發展或已進入市場。在此僅介紹兩類目前比較有聲量,且有真實案例者:

  1. Contextual Relevancy (內容關聯性):針對使用者正在觀看的內容,可能是單一的文字、圖片、影片內容格式,或是不同格式的組合,在不需蒐集使用者資料的情況下,就能給予跟內容相關的廣告或推薦。這類方案,其實行之有年,關聯度要高,成效要好,在自然語言處理/理解、圖形或影片辨識/理解,必須具備一定的技術成熟度。
  2. Data Clean Room (資料潔淨室):相較於Contextual Relevancy,Data Clean Room (DCR) 可讓應用者在無法取得自身未擁有的個人辨識資訊 (Personal Identifiable Information, PIII) 情況下,也可以執行諸如定向廣告投放、行銷成效歸因、客戶洞察等作業。而這也是目前看來,最能令各方接受,也有不少已進入商業運作的實例,值得我們花點篇幅來介紹。

Data Clean Room運作原理

DCR的運作,是由一個以上的參與者提供各自擁有的第一方使用者資料,輸入到一個封閉的環境 (此即DCR),然後依照事先定義好的規則或演算法,在這個環境中進行資料處理,最後輸出彙整或演算後的結果 (Aggregated Data),或是根據結果再去串接後續的行動 (如定向廣告投放)。

這裡面最關鍵的,也是DCR營運者必須要確保的是:輸出的結果不能包含參與者提供的原始資料,更不能包含可識別使用者的資料。


圖5. Data Clean Room運作示意 (筆者繪圖)

如此一來,參與者提供的使用者識別資料會被鎖死或隱藏在DCR中,在達到隱私保護的同時,又能完成精準行銷的任務目標,算是各種不完美方案中,解決得比較漂亮的一種,難怪有人稱DCR是「資料界的瑞士」(Switzerland for Data)。Gartner指出,在2023年底前,年度媒體採購預算超過10億美金的廣告主,有8成會採用DCR服務或方案。

事實上,在資料科學領域,DCR的實作與運行由來已久,「資料交換中心」、「Data Hub」、「Data Exchange」等名號,大家應該不陌生,只是其運作規則,可能因各自的目標與服務模式而有所不同。

市場上的DCR服務或產品,主要可分兩類:

1. 封閉平台,又稱巨人的圍牆花園 (Giants’Walled Garden)

為科技巨人所擁有,特色是平台上天生自帶數量龐大、內容豐富的第一方使用者資料,如:

nGoogle Ads Data Hub:自帶Google各種網路服務的使用者資料。

nAWS Clean Room:自帶Amazon零售的使用者資料。

nMeta Advanced Analytics:自帶Facebook社群網路的使用者資料。

願意去使用封閉平台的人,看重的無非是巨人所擁有的強大使用者資料,可以讓DCR的輸出,更具價值。而巨人願意把家底都拿出來 (但不會讓你白白去使用這些寶貴的使用者資料,你也帶不出DCR高牆),看重的是DCR輸出可以自動串接他們的核心服務 —— 對這三家巨人而言,就是輸出可以拿來執行廣告投放。有一份報告註6指出,Google、Amazon、Meta這三家公司合起來,在2021年即佔了全球 74% 的數位廣告市場。

2. 多方開放平台 (Multi-platform DCR)

沒有自帶的第一方使用者資料可供參與者去對應 (Mapping)、擴增 (Enrichment)、分析 (Analysis),由純粹提供服務或產品的業者所營運或銷售,也稱為獨立DCR。這類尤其常見於本來就在市場上提供資料儲存、資料處理、資料分析的雲端服務或地端解決方案廠商,如Snowflake、BlueConic、Epsilon、LiveRamp等,或是整家公司只專心致力於打造DCR方案的新創,如Habu、Optable、InfoSum等。

對於擁有一定規模的廣告主或品牌商來說,邀請或要求往來的廣告商或媒體來一起參與使用這些獨立DCR,可能要比使用巨人的DCR,要來得讓自己安心。

給網路行銷/廣告應用開發者的結論與建議

就像真實世界一般,網路的隱私權發展,也會越來越符合道德文明的期待、越來越受法律的規範,但同時網路經濟也還在成長當中,所以能夠平衡「隱私 vs. 行銷/廣告」兩端需求的方案,也一定會被持續提出與發展。了解這些方案的原理,以及明辨有所用有所不用的理由,讓開發者可以集中心力在學習與開發具有前景的技術應用,避免時間與資源的浪費。

願大家可以在多變的網路世界,都持續當個事半功倍的贏家。 

參考資料

註1.《FACTS ABOUT W3#History》by W3C: https://www.w3.org/Consortium/facts

註2.《HTTP cookie》by Wikipedia: https://en.wikipedia.org/wiki/HTTP_cookie

註3.《Global market share held by leading internet browsers from January 2012 to January 2023》by Statista: https://www.statista.com/statistics/268254/market-share-of-internet-browsers-worldwide-since-2009/

註4.《Building a more private web: A path towards making third party cookies obsolete》by Chromium Blog: https://blog.chromium.org/2020/01/building-more-private-web-path-towards.html

註5.《Third Party Data Declines As Advertisers Try New Targeting Strategies》by Advertiser Perceptions: https://www.advertiserperceptions.com/cookieless-future-blog/

註6. 《Google, Meta and Amazon are on track to absorb more than 50% of all ad money in 2022》by Ebiquity Marketing: https://www.ebiquity.com/news-insights/press/google-meta-and-amazon-are-on-track-to-absorb-more-than-50-of-all-ad-money-in-2022/

TOP