400 128 6709

行业新闻

【论文复现赛】第六期冠军项目-MetaHeac-推荐系统

发布时间:2025-08-01点击次数:
本文复现论文提出的MetaHeac模型,基于PaddlePaddle 2.3.0框架,在腾讯Look-alike数据集上进行,解决look-alike建模挑战,复现AUC达0.7112,还介绍了数据集、环境、步骤、代码结构及复现心得。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

【论文复现赛】第六期冠军项目-metaheac-推荐系统 -

论文复现-MetaHeac

一、简介

在推荐系统和广告平台上,营销人员总是希望通过视频或者社交等媒体渠道向潜在用户推广商品、内容或者广告。扩充候选集技术(Look-alike建模)是一种很有效的解决方案,但look-alike建模通常面临两个挑战:(1)一家公司每天可以开展数百场营销活动,以推广完全不同类别的各种内容。(2)某项活动的种子集只能覆盖有限的用户,因此一个基于有限种子用户的定制化模型往往会产生严重的过拟合。为了解决以上的挑战,论文《Learning to Expand Audience via Meta Hybrid Experts and Critics for Recommendation and Advertising》提出了一种新的两阶段框架Meta Hybrid Experts and Critics (MetaHeac),采用元学习的方法训练一个泛化初始化模型,从而能够快速适应新类别内容推广任务。

MetaHeac训练流程如下: 【论文复现赛】第六期冠军项目-MetaHeac-推荐系统 -        

模型核心结构如下: 【论文复现赛】第六期冠军项目-MetaHeac-推荐系统 -        

为了复现文献中的实验结果,本项目基于paddlepaddle深度学习框架,并在Lookalike数据集上进行训练和测试。

论文 :

  • [1] Yongchun Zhu, Yudan Liu, Ruobing Xie, Fuzhen Zhuang, Xiaobo Hao, Kaikai Ge, Xu Zhang, Leyu Lin, Juan Cao. Learning to Expand Audience via Meta Hybrid Experts and Critics for Recommendation and Advertising

项目参考 : https://github.com/easezyc/MetaHeac

二、复现精度

基于paddlepaddle深度学习框架,对文献MetaHeac进行复现后,测试精度如下表所示。

模型 auc batch_size epoch_num Time of each epoch
MetaHeac 0.7112 1024 1 3个小时左右

超参数配置如下表所示:

超参数名 设置值
batch_size 1024
task_count 5
global_learning_rate 0.001
local_test_learning_rate 0.001
local_lr 0.0002

三、数据集

本项目使用的是Tencent Look-alike Dataset,该数据集包含几百个种子人群、海量候选人群对应的用户特征,以及种子人群对应的广告特征。出于业务数据安全保证的考虑,所有数据均为脱敏处理后的数据。本次复现使用处理过的数据集,直接下载propocessed data。

数据集链接: https://paddlerec.bj.bcebos.com/datasets/lookalike/Lookalike_data.rar

Openflow Openflow

一键极速绘图,赋能行业工作流

Openflow 88 查看详情 Openflow

四、环境依赖

  • 硬件:
    • x86 cpu
    • NVIDIA GPU
  • 框架:
    • PaddlePaddle == 2.3.0

五、快速开始

In [1]
# step1: 确认您当前所在目录为PaddleRec/models/multitask/metaheac %cd PaddleRec/models/multitask/metaheac
       
/home/aistudio/PaddleRec/models/multitask/metaheac
        In [ ]
# step2: 进入paddlerec/datasets/目录下,执行该脚本,会从国内源的服务器上下载我们预处理完成的Lookalike全量数据集,并解压到指定文件夹。%cd ../../../datasets/Lookalike
!sh run.sh
    In [ ]
# step3: train%cd ../../models/multitask/metaheac/ 
!python -u ../../../tools/trainer.py -m config_big.yaml
    In [ ]
# step4: infer 此时test数据集为hot!python -u ./infer_meta.py -m config_big.yaml
    In [ ]
# step5:修改config_big.yaml文件中test_data_dir的路径为cold!python -u ./infer_meta.py -m config_big.yaml
   

config_big.yaml配置文件中参数如下:

参数选项 默认值 说明
--batch_size 1024 训练和测试时,一个batch的任务数
--task_count 5 子任务类别数
--global_learning_rate 0.001 全局更新时学习率
local_test_learning_rate 0.001 测试时学习率
local_lr 0.0002 局部更新时学习率
embed_dim 64 嵌入向量的维度
mlp_dims [64, 64] 全连接层的维度
num_expert 8 专家数量
num_output 5 批评者数量

六、metaheac目录下代码结构与详细说明

├── data #样例数据
    ├── train #训练数据
        ├── train_stage1.pkl
    ├── test #测试数据
        ├── test_stage1.pkl
        ├── test_stage2.pkl
├── net.py # 核心模型组网├── config.yaml # sample数据配置├── config_big.yaml # 全量数据配置├── dygraph_model.py # 构建动态图├── reader_train.py # 训练数据读取程序├── reader_test.py # infer数据读取程序├── readme.md #文档
       

数据集说明

为了测试模型在不同规模的内容定向推广任务上的表现,将数据集根据内容定向推广任务给定的候选集大小进行了划分,分为大于T和小于T两部分。将腾讯广告大赛2018的Look-alike数据集中的T设置为4000,其中hot数据集中候选集大于T,cold数据集中候选集小于T.

infer_meta.py说明

infer_meta.py是用于元学习模型infer的tool,在使用中主要有以下几点需要注意:

  1. 在对模型进行infer时(train时也可使用这样的操作),可以将runner.infer_batch_size注释掉,这样将禁用DataLoader的自动组batch功能,进而可以使用自定义的组batch方式.
  2. 由于元学习在infer时需要先对特定任务的少量数据集进行训练,因此在infer_meta.py的infer_dataloader中每次接收单个子任务的全量infer数据集(包括训练数据和测试数据).
  3. 实际组batch在infer.py中进行,在获取到单个子任务的数据后,获取config中的batch_size参数,对训练数据和测试数据进行组batch,并分别调用dygraph_model.py中的infer_train_forward和infer_forward进行训练和测试.
  4. 和普通infer不同,由于需要对单个子任务进行少量数据的train和test,对于每个子任务来说加载的都是train阶段训练好的泛化模型.
  5. 在对单个子任务infer时,创建了局部的paddle.metric.Auc("ROC"),可以查看每个子任务的AUC指标,在全局metric中维护包含所有子任务的AUC指标.

七、复现心得

7.1 模型组网成功,但是精度相差较大

基于论文开源的代码实现基于Paddle的代码还是比较简单的,但是模型组网成功后,精度与原论文精度相差很大。 很可能是模型在前向传播时就已经出现问题了,建议基于官方提供的reprod_log,与参考代码进行一步步的前向对齐,才能保证模型组网万无一失。

7.2 前向传播基本对齐,但是精度达不到

在本项目复现时,遇到最大的问题是前向对齐时的误差很小,但是无论如何第一轮的loss就是对不齐。找了很久问题,最后直接将参考代码的初始化参数加载到paddle复现的模型上,成功跑出了原论文精度,所以如果前向没大问题,也有可能是模型初始化参数的问题,可以设置下随机种子和加载可复现的初始化参数。

7.3 数据读取

由于元学习训练方式与传统训练方式有所区别,所以要单独写train和infer的数据读取。细节部分在infer_meta.py说明中有提到,主要是关掉dataloader默认的组batch方式,自己写组batch。

八、模型信息

信息 说明
发布者 宁文彬
时间 2025.06
框架版本 Paddle 2.3.0
应用场景 元学习
支持硬件 GPU、CPU

以上就是【论文复现赛】第六期冠军项目-MetaHeac-推荐系统的详细内容,更多请关注其它相关文章!


# 测试数据  # 惠南工业区果蔬网站推广  # 惠州网站建设详细内容  # 诚招网络营销推广员  # 面试SEO提哪些问题  # 耳环耳饰网站推广方案  # 牡丹江网站seo优化  # 龙岩抖音营销推广中心  # seo快照是什么意思  # 网站推广优化工作内容  # 辽宁推荐网站制作推广  # 官网  # 所示  # 在对  # python  # 加载  # 腾讯  # 第六期  # 一言  # 前向  # 中文网  # fig  # looka  # udio  # 区别  # bing  # ai  # git 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 腾讯自主研发机器狗 Max 升级,可“奔跑跳跃”完成避障动作  云深处与昇腾CANN携手合作:开设ROS四足机器狗开发训练营  Meta 发布 Voicebox AI 模型:可生成音频信息,用于 NPC 对话等  中国联通推出“极光一号”5G机载终端,适配大疆等品牌无人机设备  百亿量化私募:量化投资进入“精耕细作”时代 AI带来行业新变革  OpenAI首席执行官表态支持欧盟AI监管  尼康尼克尔 Z 180-600mm f/5.6-6.3 VR 镜头发布,12499 元  全国青少年无人机大赛重庆市选拔赛开赛 1252名中小学生参加  令人惊叹!AI模型能够以iPhone照片为基础创作诗歌  站在社会的高度理解人工智能  利好来了,AI再起一波?  提升工作效率的智能工具:Zapier 让工作变得更简单!  对艺术家拒绝置若罔闻,Stability AI 将推出适应多种画风的开源模型  智能化解决方案:保障数据安全阻击泄露和丢失  史玉柱谈AI:国内最缺是计算数学人才,曾给浙大数学系捐五千万  世界人工智能大会(WAIC 2025)点燃魔都,博尔捷数字科技携前沿技术产品亮相  马斯克称人类是半机器人,记忆外包给了电脑  两型无人机完成交付!国家级机动观测业务正式启动  亚太地区 70% 的企业高管正探索生成式 AI 应用或已经进行投资  时隔 4 年:谷歌更新安卓机器人 LOGO,形象更立体  稿见AI助手:提升写作效率与质量的必备工具  焊接协作机器人或将成为26届埃森展最大看点  ChatGPT大更新!OpenAI奉上程序员大礼包:API新增杀手级能力还降价,新模型、四倍上下文都来了  看似低调,实则稳健:字节在AI路上会遇到什么?  Win11 的画图应用将包含 Windows Copilot 的 AI 工具整合  乐天派AI桌面机器人提供的正能量情绪价值直接拉满,妥妥的治愈系  AYANEO AIR 1S 掌机发布:R7 7840U,预订价 4699 元起  消息称 ChatGPT 未来有望增加更多功能:上传文件分析信息,还能记住用户画像  优化J*a与MySQL合作:分享批处理操作的技巧  谷歌旗下 DeepMind 开发出 RoboCat AI 模型,能控制多种机器人执行一系列任务  深剖Apple Vision Pro中暗藏的“AI”  华为云天筹AI求解器荣获世界人工智能大会最高奖  微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权  应用生成式人工智能技术改善农业产业  国内首款大尺寸仿鸵双足机器人“大圣”亮相,穿戴红色战袍  1000万张照片训练AI模型 科学家找到水下定位新方法  云南首例达芬奇机器人微创心脏手术成功开展  华为余承东表示:鸿蒙可能拥有强大的人工智能大模型能力  谷歌推出 SAIF 框架,倡导安全环境下探索和发展人工智能  如何用户外电源给无人机实现持久续航  OpenAI首席执行官引用《道德经》 呼吁就AI安全问题合作  华为4G5G通信物联网收费标准公布,多年研发成果,十年花费近万亿  真全息产品,亮相深圳文博会——dipal数伴拓展元宇宙非沉浸式体验  先进技术在防止全球数据丢失方面的作用  大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战  Meta发布语音AI模型 Voicebox 助虚拟助手与NPC对话  禁止艺术家使用 AI 创作《龙与地下城》游戏插图的决定已在 D&D Beyond 生效  网友自制 AI 版《流浪地球 3》预告片,登上 CCTV6  苹果推出全新沉浸式 AR 体验应用“Deep Field”  探索人工智能在居家养老方面的应用 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司