隐私技术 (Privacy-Enhancing Technologies)¶
一句话概述¶
隐私技术是在保护用户隐私的前提下实现广告精准投放的技术方案,包括联邦学习、差分隐私、隐私沙盒、数据清洁室等,是后 Cookie 时代广告行业的核心技术方向。
隐私技术全景¶
| 数据不出域 | 数据加密计算 | 数据匿名化 | 设备端 |
|---|---|---|---|
| 联邦学习 | 同态加密 | 差分隐私 | 端侧推理 |
| 数据清洁室 | 安全多方计算 | K-匿名 | 隐私沙箱 |
| TEE (可信执行) | 数据脱敏 | On-device |
联邦学习 (Federated Learning)¶
定义¶
多个参与方在不共享原始数据的前提下,协作训练机器学习模型。数据不出域,模型参数/梯度在参与方之间传递。
联邦学习架构¶
flowchart TD
A["参与方 A (广告平台)<br/>本地数据 + 本地训练"]
B["参与方 B (广告主)<br/>本地数据 + 本地训练"]
C["参与方 C (数据方)<br/>本地数据 + 本地训练"]
S[聚合服务器<br/>参数聚合]
A -->|梯度/参数| S
B -->|梯度/参数| S
C -->|梯度/参数| S
S -->|聚合后的模型参数| A
S -->|聚合后的模型参数| B
S -->|聚合后的模型参数| C
联邦学习分类¶
| 类型 | 说明 | 广告应用 |
|---|---|---|
| 横向联邦 | 参与方有相同特征,不同样本 | 多个广告平台联合建模 |
| 纵向联邦 | 参与方有相同样本,不同特征 | 广告平台 + 广告主联合建模 |
| 联邦迁移 | 参与方样本和特征都不同 | 跨域知识迁移 |
广告场景应用¶
场景1: 广告平台 + 广告主联合建模 (纵向联邦)
广告平台: 用户行为数据 (浏览/点击)
广告主: 用户转化数据 (购买/注册)
→ 联合训练 CVR 模型,双方数据不出域
场景2: 多平台联合人群扩展 (横向联邦)
平台A: 用户群体1的行为数据
平台B: 用户群体2的行为数据
→ 联合训练 Lookalike 模型
场景3: 跨设备用户识别
多个 App 的用户数据联合建模
不共享原始设备 ID
差分隐私 (Differential Privacy)¶
定义¶
通过在数据或查询结果中添加随机噪声,保证单个用户的数据不会显著影响输出结果,从而保护个体隐私。
核心概念¶
ε-差分隐私:
对于任意两个相邻数据集 D 和 D' (仅差一条记录):
Pr[M(D) ∈ S] ≤ e^ε × Pr[M(D') ∈ S]
ε (隐私预算):
ε 越小 → 隐私保护越强 → 数据可用性越低
ε 越大 → 隐私保护越弱 → 数据可用性越高
典型值: ε = 1~10
噪声添加方式:
- Laplace 机制: 添加 Laplace 噪声 (数值查询)
- 指数机制: 按概率选择输出 (分类查询)
- 高斯机制: 添加高斯噪声 (松弛差分隐私)
广告场景应用¶
场景1: 聚合报表
广告效果报表中添加噪声
单个用户的行为不会被推断
报表整体趋势仍然准确
场景2: 模型训练 (DP-SGD)
训练过程中对梯度添加噪声
模型不会记忆单个用户的数据
Apple 和 Google 在广告归因中使用
场景3: 频率估计
统计某个兴趣标签的用户数量
添加噪声保护个体
RAPPOR (Google) 使用本地差分隐私
隐私沙盒 (Privacy Sandbox)¶
Google Privacy Sandbox¶
目标: 在淘汰第三方 Cookie 后,提供隐私保护的广告技术替代方案
核心 API:
1. Topics API (兴趣定向替代方案)
- 浏览器根据用户浏览历史推断兴趣主题
- 每周更新 5 个主题
- 广告请求时返回 3 个主题 (每个 epoch 1 个)
- 不暴露具体浏览历史
2. Attribution Reporting API (归因替代方案)
- 事件级报告: 有限的转化数据 + 噪声
- 汇总报告: 聚合数据 + 差分隐私
- 延迟报告 (非实时)
3. Protected Audience API / FLEDGE (重定向替代方案)
- 设备端竞价 (On-device Auction)
- 广告主在用户设备上创建兴趣组
- 竞价在设备端完成,不泄露用户数据
Apple SKAdNetwork (SKAN)¶
iOS 隐私归因方案:
SKAN 流程:
1. 用户点击广告
2. 用户安装并打开 App
3. App 调用 SKAN API 注册转化
4. 设置转化值 (Conversion Value, 0-63)
5. Apple 延迟 24-48 小时后发送归因回传
6. 回传数据经过隐私处理 (聚合 + 噪声)
限制:
- 无设备级别数据 (无 IDFA)
- 转化值只有 6 bit (64 种可能)
- 数据延迟 24-48 小时
- 有一定概率添加噪声
- 无法做实时优化
SKAN 4.0 改进:
- 多次回传 (最多 3 次)
- 粗粒度转化值 (low/medium/high)
- Crowd Anonymity (人群匿名性)
数据清洁室 (Data Clean Room)¶
定义¶
安全的数据协作环境,多方可以在不暴露原始数据的前提下进行联合分析和建模。
架构¶
flowchart LR
A[广告平台<br/>用户行为数据] --> DCR[Data Clean Room<br/>安全匹配 / 联合分析 / 隐私保护]
B[广告主<br/>转化数据 / CRM 数据] --> DCR
DCR --> R[聚合分析结果<br/>不含个人数据]
主要产品¶
| 产品 | 提供方 | 特点 |
|---|---|---|
| Ads Data Hub | Google 广告数据的安全分析 | |
| Advanced Analytics | Meta | Facebook 广告数据分析 |
| AWS Clean Rooms | Amazon | 云上数据清洁室 |
| 巨量云图 | 字节跳动 | 国内广告数据协作 |
| 腾讯数据智库 | 腾讯 | 微信生态数据分析 |
应用场景¶
场景1: 广告效果归因
广告平台提供: 广告曝光/点击数据
广告主提供: 转化/购买数据
→ 在清洁室中匹配,计算转化率
→ 双方都看不到对方的原始数据
场景2: 人群洞察
广告主上传: 高价值客户 ID (加密)
广告平台: 分析这些用户的兴趣/行为特征
→ 输出聚合画像报告 (不含个体数据)
场景3: Lookalike 扩量
广告主提供: 种子用户 (加密 ID)
广告平台: 在清洁室中计算相似用户
→ 输出人群包 (不暴露具体用户)
可信执行环境 (TEE)¶
定义¶
硬件级别的安全计算环境,数据在加密的内存区域中处理,即使操作系统管理员也无法访问。
TEE 方案:
- Intel SGX (Software Guard Extensions)
- ARM TrustZone
- AMD SEV (Secure Encrypted Virtualization)
广告应用:
- 在 TEE 中进行用户匹配和归因
- 数据在加密环境中处理
- 结果输出前经过隐私处理
端侧计算 (On-Device)¶
设备端广告技术¶
趋势: 将部分广告逻辑从云端迁移到用户设备端
设备端能力:
1. 兴趣推断: 在设备端分析用户行为,推断兴趣
(Topics API, Apple 端侧 ML)
2. 设备端竞价: 广告竞价在设备端完成
(Protected Audience API / FLEDGE)
3. 端侧模型: 在设备端运行轻量级推荐/排序模型
(Core ML, TensorFlow Lite)
4. 本地频控: 在设备端实现频次控制
优势:
- 用户数据不离开设备
- 完全保护隐私
- 低延迟
挑战:
- 设备算力有限
- 模型需要足够轻量
- 难以做全局优化
与大数据开发的关联¶
- 联邦学习平台: 联邦学习框架的部署和数据管道
- 差分隐私实现: 在数据管道中集成差分隐私机制
- 数据清洁室: 安全数据匹配和联合分析的技术实现
- 数据脱敏: 个人数据的加密、哈希、脱敏处理
- 隐私合规审计: 数据使用的合规性检测和审计
面试高频问题¶
- 联邦学习的原理是什么?在广告中如何应用?
- 差分隐私是什么?ε 参数的含义?
- Google Privacy Sandbox 的核心 API 有哪些?
- SKAdNetwork 的工作原理和限制?
- 数据清洁室解决了什么问题?
推荐阅读¶
- Google Privacy Sandbox 文档
- Apple SKAdNetwork 文档
- 联邦学习白皮书
- 《联邦学习》— 杨强