打开网易新闻 查看精彩图片

采访嘉宾 | 段绪勇

编辑 | 李忠良

随着数字广告行业数据量和数据类型的持续增长,如何高效整合不同平台的数据、提升广告投放的精准度,成为广告系统的核心挑战。传统广告系统在数据不一致性和用户隐私保护等方面遇到的瓶颈愈加明显。与此同时,云计算和大模型技术的快速发展为广告系统的智能化升级提供了新的可能性。

在即将举行的 QCon 上海站,微博高级技术主管段绪勇将以《微博基于云计算的广告系统架构优化实践》为主题进行分享。在此之前,我们有幸采访了段绪勇,他深入阐述了如何通过云平台增强广告系统的数据处理能力,提升投放精准度。同时,他还分享了广告系统在应对流量波动、保护用户隐私以及实时竞价方面的关键策略。以下是本次采访的对谈内容。

背景与挑战

InfoQ :传统广告系统在整合不同数据源的数据时存在哪些主要挑战?您认为这些挑战如何影响广告投放的整体效果?

段绪勇:在整合不同数据源的数据时,数据不一致性确实是传统广告系统面临的一个重大挑战。

不同的平台属性对用户的关注点是不同的,比如社交媒体和电商平台对用户的关注点可能就不同,导致数据收集的侧重点存在差异。社交媒体侧重于用户生成的内容,通过分析用户发布的文字、图片、视频等内容来推断用户的兴趣爱好、价值观和社交关系等。而电商平台则更关注用户的地理位置和购买历史数据。地理位置信息可以帮助电商平台确定用户所在的地区,以便提供更精准的商品推荐和配送服务。购买历史数据则反映了用户的消费习惯和需求,例如用户经常购买的商品类别、品牌和价格区间等。

因此,这种差异可能导致群体画像出现异常,降低广告投放的精准度。如果广告系统无法准确判断用户的兴趣爱好,就难以将广告推送给真正感兴趣的用户群体,也影响了用户体验。如果用户收到的广告与自己的实际兴趣不符,会感到厌烦和困扰,从而降低对广告的接受度。

长期来看,这可能会导致用户对广告平台产生负面印象,甚至选择屏蔽广告或不再使用该平台。最终对应地减少了广告主的收益。由于广告投放的精准度下降和用户体验变差,广告主的投资回报率也会受到影响。如果广告主无法获得预期的效果,就可能会减少在广告平台上的投入,从而影响平台的收益。

InfoQ :云计算技术如何为解决这些问题提供新的机会?您能分享具体的实例吗?

段绪勇:针对数据质量上的异常,必须借助于云平台强大的资源调度能力,对这些数据进行实时分析和修正,以构建准确的用户画像。例如,当类似的用户群体对科幻电影并给出高赞评后,云计算平台能够执行相对应的算法迅速处理群体数据,核查对应的人群画群,并做到及时修正。

云计算架构与实施

InfoQ :在广告系统中,云计算如何增强数据处理能力?能否具体描述您在实施中的关键技术和流程?

段绪勇:通常的做法是将具体的任务分解成多个计算节点上并行处理,最后将结果汇总从而加快处理时间。如谷歌的 MapReduce 和 Apache Spark 等技术,将独占式的任务并行处理,同时计算用户的兴趣得分、行为模式分析等。这些技术将传统的报表统计时间从多达小时的缩短到几分钟或十几分钟的离线任务。

InfoQ :在高峰流量期间,您是如何确保云计算系统能够弹性扩展以应对流量波动的?有哪些监控和调整机制?

段绪勇:分为主动扩容机制和被动扩容机制。对于能够人工预测的高峰进行提前规划,事先扩容相对应的资源。对于机器预警,需要在前期做好整套的自动扩容机制,可以从网关到 pod 设置相应的监测指标,比如网络带宽利用率、API 处理时间、 CPU 使用率、内存使用率、磁盘 I/O 等指标。最终总结出主动扩容机制和被动扩容机制。

主动扩容机制是结合网关预警,动态调整流量窗口指标。在高峰流量期间,当网关检测到流量有上升趋势时,可以自动提高指标阈值,以便更早地、合理地计算出扩容数量。

被动扩容机制是通过业务线各自通过经验设置 pod 的预警水位,当到达一定水位之后,通过容器编排技术自动跟进,分担微服务的压力。

InfoQ :在云计算环境中,您认为运营成本上升的主要因素是什么?您有哪些具体建议来优化资源管理和控制成本?

段绪勇:第一是资源预估不足:在项目初期,可能未能准确、合理地预估系统所需的资源,导致云资源的浪费;第二是运维手段不足:缺乏合理的监测机制和缩容策略。例如,如果没有对 API、CPU 等资源的使用量进行统计,就难以制定精确的缩容计划;第三是公私有云的混合使用不够:在应对突发情况时,未能有效利用公有云和私有云的组合,导致不必要的硬件资源浪费。

为了优化资源管理和控制成本,可以从以下方面入手:

• 利用云平台的监测工具或自研解决方案,实时跟踪系统的运行指标;

• 提前制定缩容计划,使缩容操作更加智能化和精准化,降低业务成本;

• 加强对公有云和私有云的结合使用,灵活应对业务需求变化,以实现资源的最佳配置。

关键技术与实践

关键算法与广告系统架构

InfoQ :您在广告投放中使用了哪些关键算法?它们在提高精准度和效率方面具体表现如何?

段绪勇:运用在投放领域的关键算法其实蛮多的,每个环节都会应用到不同的算法。比如:在转化率方面 CVR 算法,用于预估投放中的转化指标,创建一个投放计划,大概能覆盖多少人,消耗多少金额等;另外与人群画像相关的的逻辑回归、随机森林、k-means、各类决策树等;对于广告投放来说比较关键的有预估环节和用户召回环节。预估是给广告主消耗的一个范围,而召回者是在投放过程中不断优化、识别更多更好的潜在消费者。

在人群画像中梯度提升决策树是非常高效的,特别是在应对大数据和高维度方面有比较大的优势。但需要大量的计算成本,同时也存在过拟合的风险。

InfoQ:您认为在广告系统中,哪些技术组合最有效?如何确保这些技术能够协同工作?

段绪勇:在广告系统的架构中,常规的技术都会包括大数据分析和机器学习、容器化技术、自然语言处理和实时竞价系统。这些技术各有分工,相互匹配。那如何确保它们能够相互协同工作呢?第一是架构层做好规划,第二是利用好云工具做好管理工作。第三是运维手段要到位,对异常情况做好预警和处理。

InfoQ:在实时数据处理的过程中,您遇到了哪些具体挑战,您是如何优化处理能力以提高决策速度的?

段绪勇:最大的不确定性,都在数据的源头,数据的多样性导致数据质量不一致。最终影响投放效果,达不到客户预期。针对这样的情况,首先是提高数据质量,多维度多方位地对训练数据进行标注,高模型的数据质量。另外是如何降低算法的复杂度或研究更高效的算法,因为算力的原因,模型计算需要大量时间,影响决策速度。

用户隐私保护与个性化推荐的平衡

InfoQ:在个性化广告推荐中,您如何平衡数据使用与用户隐私保护?有没有具体的措施或技术可以分享?

段绪勇:这几年大众对隐私的关注日益增加,这对平台来说已成为至关重要的问题。目前所有的广告平台的首要任务是避免不必要的数据采集,同时也不对具体个人数据进行过度分析。大多数公司已经设立了专门的职位和法务部门,以确保相关法律法规得到严格遵守,保障用户的权益。此外,平台应当提供具体的隐私控制选项,允许用户自主决定是否参与个性化推荐计划。

为了防止个体数据被过度分析,在处理大数据时,平台可以通过对数据加入噪声的方式保护用户隐私,确保分析的结果不会揭示用户的个人特征。

实时竞价、AI 创新与技术限制

InfoQ:在实施实时竞价(RTB)时,您遇到了哪些技术挑战?您是如何解决这些问题的?

段绪勇:在 RTB 中,最关键的部分是竞价环节,也就是如何精准衡量流量的最佳价值。得出这一价值不仅依赖基础的判断,还需要大量复杂算法的参与。我们面临的挑战是如何在极短时间内完成这些运算,确保不影响用户的使用体验。因此,提升系统的响应速度与效率成为重点。我们目前正在积极探索使用边缘计算技术,以期待进一步优化竞价速度和广告投放效果,未来可能会取得显著的进展。

InfoQ:您认为人工智能在广告个性化投放中的最新应用和技术有哪些?它们带来了怎样的效果?在评估人工智能在广告优化中的应用效果时,您使用了哪些具体指标或案例?

段绪勇:大语言模型(LLM)最近给广告行业的带来了新的突破,尤其是在文生图(Text-to-Image)和文生视频(Text-to-Video)等技术的基础上,系统拥有生成动态创意和动态素材的能力。这些技术可以让广告系统根据用户输入的文字或上下文,自动生成匹配的视觉或视频素材,使广告内容更加生动和个性化,不管是广告主还是用户都可以从这些技术上受益。

在评估广告效果的过程中会用到非常多的指标,但最终会回到客户的投资回报率,比如客户要求的每千次曝光、产品售卖、复购率等。

InfoQ:您提到由于国外技术的限制,无法使用性能更优的硬件,如何看待和解决这一问题?

段绪勇:在面对国外技术限制、无法使用性能更优硬件的挑战时,平台除了注重提升业务和研发能力,还应当重点做到下面两点:

第一,理解客户的需求与困境:平台需要深入了解客户所面临的业务挑战和限制,在技术不具备优势的情况下,提供切实可行的解决方案,帮助客户提升广告投放的效果;

第二,精细化运营手段:通过大数据分析和人工智能的应用,提供更具针对性的运营策略。例如,通过用户行为分析、广告效果评估等手段,优化投放策略,帮助客户在有限资源下取得更好的广告效果。

这种方式不仅能够增强平台的竞争力,还能在有限的硬件资源下实现业务创新与客户需求的平衡,形成良好的合作关系。

未来展望与行业趋势

InfoQ:基于云计算广告系统的未来趋势,您认为应该是什么样子的?大模型的出现对这些方向有影响吗?

段绪勇:充分利用云工具以适应不断变化的客户需求,通过微服务架构实现灵活的维护与更新。同时,运用人工智能和机器学习技术,能够全自动地生成广告素材并进行版权管理,从而提高投放效率。此外,在数据隐私备受关注的背景下,未来的广告系统需要在确保用户隐私的前提下,有效利用群体数据进行素材投放。这要求我们采用更先进的数据加密和匿名化技术,以保护用户信息安全。

嘉宾介绍

段绪勇,毕业于上海交通大学。2012 年加入微博任职广告引擎开发工程师,目前就职于微博汽车事业部担任高级技术主管。十余年专注于广告流量变现领域,对广告技术的创新和应用比较敏感。

QCon 上海 2024 汇聚前沿科技与实践经验,面向前后端、算法工程师、技术管理者、创业者和投资人等广泛开发者群体。精彩议程涵盖 AI Agent、AI Infra、RAG 等当下热点,结合架构、稳定性、云原生等经典主题,实操性强、借鉴性高。机会难得,名额有限,立即点击原文了解更多,或联系票务经理 17310043226,抢占最后席位,亲临现场,感受大模型到来之后的技术魅力!