京东广告大模型:架构实践揭秘,生成式召回与性能优化之路

AI前言2周前发布 yizz
1,290 0 0
广告也精彩

京东广告大模型应用架构实践:生成式召回体系与性能优化 ,,,#生成式召回

大模型时代广告领域面临哪些机遇与挑战?

机遇:
* 人货匹配效率提升:通过提升点击通过率(CTR)、转化率(CVR)、商品交易总额(GMV)等核心指标,显著提高广告效果。
* 知识理解和融合能力:大模型能够有效容纳场景化知识,提升对电商用户和商品的理解能力。
* 多模态信息接纳:大模型具备处理文字、视频、语音、图片等多种模态信息的能力。
* Scaling Law(扩展定律):基于大语言模型或生成式技术的 Scaling Law(扩展定律)让广告算法系统焕发生机。

挑战:
* 训练成本高昂:大模型的训练需要大量的计算资源和数据,成本较高。
* 推理延迟问题:工业场景对延迟要求极高,需要在保证效果的同时,尽可能降低推理延迟。
* 模型结构改造需求:单纯的生成式模型可能无法很好地解决判别型问题,需要对模型结构进行改造。
* 数据安全与隐私保护:需要确保用户数据的安全,避免隐私泄露。
* 性能优化:需要进行极致的性能优化,才能让模型或算法真正在线应用。

京东广告的生成式算法体系是如何构建的? ,,,#语义ID

京东广告的生成式算法体系主要应用于召回、粗排、精排和信息补足三个阶段:

  1. 召回与粗排阶段:本质上是信息检索问题,目标是从海量信息中找出用户可能感兴趣的内容,形成候选集合。
  2. 精排阶段:通过点击率(CTR)和转化率(CVR)等指标进行信息过滤,筛选出更符合用户需求的内容。
  3. 信息补足阶段:对已排序靠前的商品或信息流广告,引入多模态理解能力,优化创意和排序,进一步提升广告效果。

数据体系构建:

  • 用户行为二次定义:除了传统的人、货、场维度,还包含用户画像等信息。
  • 电商知识融入:充分利用商品、货品等结构化信息,以及用户评论图片等非结构化信息。
  • Semantic ID(语义ID):采用Semantic ID作为更适用的表征解决方案,对商品进行量化表示,并让大模型具备理解和推理能力。

算法建设的关键步骤:

  • 商品内容语义量化:通过 Semantic ID 的方式对商品进行表征。
  • 生成式商品解码召回:利用大模型对表征后的商品信息进行理解和推理,实现高效召回。

京东在生成式算法工程实践中遇到了哪些挑战?如何解决? ,,,#分布式推理

京东在将生成式 AI 或大语言模型应用于推荐系统时,遇到了以下挑战:

  1. 工业场景下的规模问题:模型规模越来越大,推理延迟成为关键问题。
  2. 低延迟和高吞吐的要求:百万 token 的推理成本必须低于 1 元人民币,否则成本不可控。

优化思路:

  1. 单节点优化:实现极致的性能释放。
  2. 分布式高性能推理:实现软硬件协同的分布式高性能推理。
  3. 全链路优化:寻找其他可以优化的资源或耗时空间,例如层次化推理和同层次化算力的优化。

优化手段:

  1. 单节点算力释放
    • 推理优化:采用量化、Tensor 并行和各种 Attention 技术(如 Flash Attention 和 Page Attention)降低单节点推理的无用功计算。
    • 服务层级优化:关注调度层面,如连续批处理(continuous batch)和负载均衡。
    • Dynamic Latency Batching Switch:保证每个推理请求不超过最大延迟的前提下,通过智能调度,将任务分配到更合适的批次中。
  2. 分布式算力释放
    • 软硬件协同:将计算量大的任务分配到计算能力更强的节点上,并根据请求价值进行粗粒度预估,优先处理高价值请求。
    • 生成式推理集群:实现大模型的集群化推理、小批量(small batch)适配能力以及 PD 分离(prefill 和 decode)。
    • KV Cache 池化:避免从零开始推理每条请求,提高效率。
    • 判别式场景的集群化处理:设置单独的集群进行路由化处理。
    • 模型拆图:将模型中的多个 block 根据计算负荷和价值进行拆分,并分别进行服务化部署,优化集群的计算资源利用率。
    • 多级缓存:利用 CPU 管理的 RAM 和 GPU 的 HBM 构建多级缓存,减少多机之间的通信。
    • 全参数 GPU 同步训练:在特定应用场景下能够显著提升训练速度。
  3. 全链路算力释放
    • 端计算与预计算:将部分计算下沉到用户手机端,进行大量预计算工作。
    • 近线计算:对于只需要在一定时间内保证其最新即可的信息,通过近线计算的方式提前算好。
    • 离线计算:对于计算极其复杂且在较长时间内不会变化的任务,采用离线计算的方式。

如何解决算法建模的灵活性问题? ,,,#结构剪枝

在有限的耗时空间和硬件资源下,支撑灵活的算法定制,是一个亟待解决的问题。解决方案:

  • 基于 Python 和 TensorFlow 进行构图:实现生成式模型和判别式模型进行联合训练和推理。
  • 结构剪枝:将生成式和判别式算法链路耦合后的结构剪枝,可以显著提升召回率和准确率。

召回与粗排一体化:

  • 分层思想:通过通信、建模和数据的三层解耦,找到三者之间的有机平衡关系,缓解 HBM 的通信问题。
  • 定制化和优化:在业务层面进行定制化和优化。
  • 多引擎推理:通过 TensorFlow 的 Graph engine 进行触发和驱动,同时驱动 TensorRT engine 推理引擎,实现生成式和判别式模型的有机结合。

京东广告大模型应用架构的未来展望 ,,,#协同设计

  • 全流程覆盖与显著收益:将生成式技术应用于召回、粗排、精排、创意出价以及机制策略重排等环节,实现两位数以上的收益空间。
  • 电商场景下的模型优化:深度改造开源模型,进一步提升其在业务上的表现,实现双位数的性能提升。
  • 算法与工程的协同设计:通过算法和工程的紧密结合,更好地优化模型的性能,使其更适合实际业务需求,从而加速技术的落地和应用。
  • 领域特性数据与基座模型:期待出现更强大的电商领域理解基座模型,以更好地支持生成式技术在电商场景中的应用。
  • 生成式与判别式模型的深度融合:进一步完善生成式与判别式模型的联合建模和推理,使其更加全面和强大,甚至能够实现“all in one”的解决方案。

我认为:
京东广告在大模型应用架构上的探索,展现了技术创新与业务实践的深度融合。在追求极致性能的道路上,他们不仅关注算法的精进,更注重工程的优化和全链路的协同。这种精益求精的精神,正如鲁迅先生所言:“伟大的心胸,应该表现出这样的气概——用笑来迎接悲惨的厄运,用百倍的勇气来应付一切的不幸。” 在AI技术日新月异的时代,唯有不断学习和实践,才能在激烈的竞争中立于不败之地。

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!