隐私技术 (Privacy-Enhancing Technologies)¶

一句话概述¶

隐私技术是在保护用户隐私的前提下实现广告精准投放的技术方案，包括联邦学习、差分隐私、隐私沙盒、数据清洁室等，是后 Cookie 时代广告行业的核心技术方向。

隐私技术全景¶

数据不出域	数据加密计算	数据匿名化	设备端
联邦学习	同态加密	差分隐私	端侧推理
数据清洁室	安全多方计算	K-匿名	隐私沙箱
	TEE (可信执行)	数据脱敏	On-device

联邦学习 (Federated Learning)¶

定义¶

多个参与方在不共享原始数据的前提下，协作训练机器学习模型。数据不出域，模型参数/梯度在参与方之间传递。

联邦学习架构¶

flowchart TD
    A["参与方 A (广告平台)<br/>本地数据 + 本地训练"]
    B["参与方 B (广告主)<br/>本地数据 + 本地训练"]
    C["参与方 C (数据方)<br/>本地数据 + 本地训练"]
    S[聚合服务器<br/>参数聚合]
    A -->|梯度/参数| S
    B -->|梯度/参数| S
    C -->|梯度/参数| S
    S -->|聚合后的模型参数| A
    S -->|聚合后的模型参数| B
    S -->|聚合后的模型参数| C

联邦学习分类¶

类型	说明	广告应用
横向联邦	参与方有相同特征，不同样本	多个广告平台联合建模
纵向联邦	参与方有相同样本，不同特征	广告平台 + 广告主联合建模
联邦迁移	参与方样本和特征都不同	跨域知识迁移

广告场景应用¶

场景1: 广告平台 + 广告主联合建模 (纵向联邦)
  广告平台: 用户行为数据 (浏览/点击)
  广告主: 用户转化数据 (购买/注册)
  → 联合训练 CVR 模型，双方数据不出域

场景2: 多平台联合人群扩展 (横向联邦)
  平台A: 用户群体1的行为数据
  平台B: 用户群体2的行为数据
  → 联合训练 Lookalike 模型

场景3: 跨设备用户识别
  多个 App 的用户数据联合建模
  不共享原始设备 ID

差分隐私 (Differential Privacy)¶

定义¶

通过在数据或查询结果中添加随机噪声，保证单个用户的数据不会显著影响输出结果，从而保护个体隐私。

核心概念¶

ε-差分隐私:
  对于任意两个相邻数据集 D 和 D' (仅差一条记录):
  Pr[M(D) ∈ S] ≤ e^ε × Pr[M(D') ∈ S]

  ε (隐私预算):
    ε 越小 → 隐私保护越强 → 数据可用性越低
    ε 越大 → 隐私保护越弱 → 数据可用性越高

    典型值: ε = 1~10

噪声添加方式:
  - Laplace 机制: 添加 Laplace 噪声 (数值查询)
  - 指数机制: 按概率选择输出 (分类查询)
  - 高斯机制: 添加高斯噪声 (松弛差分隐私)

广告场景应用¶

场景1: 聚合报表
  广告效果报表中添加噪声
  单个用户的行为不会被推断
  报表整体趋势仍然准确

场景2: 模型训练 (DP-SGD)
  训练过程中对梯度添加噪声
  模型不会记忆单个用户的数据
  Apple 和 Google 在广告归因中使用

场景3: 频率估计
  统计某个兴趣标签的用户数量
  添加噪声保护个体
  RAPPOR (Google) 使用本地差分隐私

隐私沙盒 (Privacy Sandbox)¶

Google Privacy Sandbox¶

目标: 在淘汰第三方 Cookie 后，提供隐私保护的广告技术替代方案

核心 API:

1. Topics API (兴趣定向替代方案)
   - 浏览器根据用户浏览历史推断兴趣主题
   - 每周更新 5 个主题
   - 广告请求时返回 3 个主题 (每个 epoch 1 个)
   - 不暴露具体浏览历史

2. Attribution Reporting API (归因替代方案)
   - 事件级报告: 有限的转化数据 + 噪声
   - 汇总报告: 聚合数据 + 差分隐私
   - 延迟报告 (非实时)

3. Protected Audience API / FLEDGE (重定向替代方案)
   - 设备端竞价 (On-device Auction)
   - 广告主在用户设备上创建兴趣组
   - 竞价在设备端完成，不泄露用户数据

Apple SKAdNetwork (SKAN)¶

iOS 隐私归因方案:

SKAN 流程:
  1. 用户点击广告
  2. 用户安装并打开 App
  3. App 调用 SKAN API 注册转化
  4. 设置转化值 (Conversion Value, 0-63)
  5. Apple 延迟 24-48 小时后发送归因回传
  6. 回传数据经过隐私处理 (聚合 + 噪声)

限制:
  - 无设备级别数据 (无 IDFA)
  - 转化值只有 6 bit (64 种可能)
  - 数据延迟 24-48 小时
  - 有一定概率添加噪声
  - 无法做实时优化

SKAN 4.0 改进:
  - 多次回传 (最多 3 次)
  - 粗粒度转化值 (low/medium/high)
  - Crowd Anonymity (人群匿名性)

数据清洁室 (Data Clean Room)¶

定义¶

安全的数据协作环境，多方可以在不暴露原始数据的前提下进行联合分析和建模。

架构¶

flowchart LR
    A[广告平台<br/>用户行为数据] --> DCR[Data Clean Room<br/>安全匹配 / 联合分析 / 隐私保护]
    B[广告主<br/>转化数据 / CRM 数据] --> DCR
    DCR --> R[聚合分析结果<br/>不含个人数据]

主要产品¶

产品	提供方	特点
Ads Data Hub	Google	Google 广告数据的安全分析
Advanced Analytics	Meta	Facebook 广告数据分析
AWS Clean Rooms	Amazon	云上数据清洁室
巨量云图	字节跳动	国内广告数据协作
腾讯数据智库	腾讯	微信生态数据分析

应用场景¶

场景1: 广告效果归因
  广告平台提供: 广告曝光/点击数据
  广告主提供: 转化/购买数据
  → 在清洁室中匹配，计算转化率
  → 双方都看不到对方的原始数据

场景2: 人群洞察
  广告主上传: 高价值客户 ID (加密)
  广告平台: 分析这些用户的兴趣/行为特征
  → 输出聚合画像报告 (不含个体数据)

场景3: Lookalike 扩量
  广告主提供: 种子用户 (加密 ID)
  广告平台: 在清洁室中计算相似用户
  → 输出人群包 (不暴露具体用户)

可信执行环境 (TEE)¶

定义¶

硬件级别的安全计算环境，数据在加密的内存区域中处理，即使操作系统管理员也无法访问。

TEE 方案:
  - Intel SGX (Software Guard Extensions)
  - ARM TrustZone
  - AMD SEV (Secure Encrypted Virtualization)

广告应用:
  - 在 TEE 中进行用户匹配和归因
  - 数据在加密环境中处理
  - 结果输出前经过隐私处理

端侧计算 (On-Device)¶

设备端广告技术¶

趋势: 将部分广告逻辑从云端迁移到用户设备端

设备端能力:
  1. 兴趣推断: 在设备端分析用户行为，推断兴趣
     (Topics API, Apple 端侧 ML)

  2. 设备端竞价: 广告竞价在设备端完成
     (Protected Audience API / FLEDGE)

  3. 端侧模型: 在设备端运行轻量级推荐/排序模型
     (Core ML, TensorFlow Lite)

  4. 本地频控: 在设备端实现频次控制

优势:
  - 用户数据不离开设备
  - 完全保护隐私
  - 低延迟

挑战:
  - 设备算力有限
  - 模型需要足够轻量
  - 难以做全局优化

与大数据开发的关联¶

联邦学习平台: 联邦学习框架的部署和数据管道
差分隐私实现: 在数据管道中集成差分隐私机制
数据清洁室: 安全数据匹配和联合分析的技术实现
数据脱敏: 个人数据的加密、哈希、脱敏处理
隐私合规审计: 数据使用的合规性检测和审计

面试高频问题¶

联邦学习的原理是什么？在广告中如何应用？
差分隐私是什么？ε 参数的含义？
Google Privacy Sandbox 的核心 API 有哪些？
SKAdNetwork 的工作原理和限制？
数据清洁室解决了什么问题？

隐私技术 (Privacy-Enhancing Technologies)¶

一句话概述¶

隐私技术全景¶

联邦学习 (Federated Learning)¶

定义¶

联邦学习架构¶

联邦学习分类¶

广告场景应用¶

差分隐私 (Differential Privacy)¶

定义¶

核心概念¶

广告场景应用¶

隐私沙盒 (Privacy Sandbox)¶

Google Privacy Sandbox¶

Apple SKAdNetwork (SKAN)¶

数据清洁室 (Data Clean Room)¶

定义¶

架构¶

主要产品¶

应用场景¶

可信执行环境 (TEE)¶

定义¶

端侧计算 (On-Device)¶

设备端广告技术¶

与大数据开发的关联¶

面试高频问题¶

推荐阅读¶