发布时间:2025-08-01
点击次数: 本文复现论文提出的MetaHeac模型,基于PaddlePaddle 2.3.0框架,在腾讯Look-alike数据集上进行,解决look-alike建模挑战,复现AUC达0.7112,还介绍了数据集、环境、步骤、代码结构及复现心得。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

在推荐系统和广告平台上,营销人员总是希望通过视频或者社交等媒体渠道向潜在用户推广商品、内容或者广告。扩充候选集技术(Look-alike建模)是一种很有效的解决方案,但look-alike建模通常面临两个挑战:(1)一家公司每天可以开展数百场营销活动,以推广完全不同类别的各种内容。(2)某项活动的种子集只能覆盖有限的用户,因此一个基于有限种子用户的定制化模型往往会产生严重的过拟合。为了解决以上的挑战,论文《Learning to Expand Audience via Meta Hybrid Experts and Critics for Recommendation and Advertising》提出了一种新的两阶段框架Meta Hybrid Experts and Critics (MetaHeac),采用元学习的方法训练一个泛化初始化模型,从而能够快速适应新类别内容推广任务。
MetaHeac训练流程如下:
模型核心结构如下:
为了复现文献中的实验结果,本项目基于paddlepaddle深度学习框架,并在Lookalike数据集上进行训练和测试。
论文 :
项目参考 : https://github.com/easezyc/MetaHeac
基于paddlepaddle深度学习框架,对文献MetaHeac进行复现后,测试精度如下表所示。
| 模型 | auc | batch_size | epoch_num | Time of each epoch |
|---|---|---|---|---|
| MetaHeac | 0.7112 | 1024 | 1 | 3个小时左右 |
超参数配置如下表所示:
| 超参数名 | 设置值 |
|---|---|
| batch_size | 1024 |
| task_count | 5 |
| global_learning_rate | 0.001 |
| local_test_learning_rate | 0.001 |
| local_lr | 0.0002 |
本项目使用的是Tencent Look-alike Dataset,该数据集包含几百个种子人群、海量候选人群对应的用户特征,以及种子人群对应的广告特征。出于业务数据安全保证的考虑,所有数据均为脱敏处理后的数据。本次复现使用处理过的数据集,直接下载propocessed data。
数据集链接: https://paddlerec.bj.bcebos.com/datasets/lookalike/Lookalike_data.rar
Openflow
一键极速绘图,赋能行业工作流
88
查看详情
# step1: 确认您当前所在目录为PaddleRec/models/multitask/metaheac %cd PaddleRec/models/multitask/metaheac
/home/aistudio/PaddleRec/models/multitask/metaheacIn [ ]
# step2: 进入paddlerec/datasets/目录下,执行该脚本,会从国内源的服务器上下载我们预处理完成的Lookalike全量数据集,并解压到指定文件夹。%cd ../../../datasets/Lookalike !sh run.shIn [ ]
# step3: train%cd ../../models/multitask/metaheac/ !python -u ../../../tools/trainer.py -m config_big.yamlIn [ ]
# step4: infer 此时test数据集为hot!python -u ./infer_meta.py -m config_big.yamlIn [ ]
# step5:修改config_big.yaml文件中test_data_dir的路径为cold!python -u ./infer_meta.py -m config_big.yaml
config_big.yaml配置文件中参数如下:
| 参数选项 | 默认值 | 说明 |
|---|---|---|
| --batch_size | 1024 | 训练和测试时,一个batch的任务数 |
| --task_count | 5 | 子任务类别数 |
| --global_learning_rate | 0.001 | 全局更新时学习率 |
| local_test_learning_rate | 0.001 | 测试时学习率 |
| local_lr | 0.0002 | 局部更新时学习率 |
| embed_dim | 64 | 嵌入向量的维度 |
mlp_dim s |
[64, 64] | 全连接层的维度 |
| num_expert | 8 | 专家数量 |
| num_output | 5 | 批评者数量 |
├── data #样例数据
├── train #训练数据
├── train_stage1.pkl
├── test #测试数据
├── test_stage1.pkl
├── test_stage2.pkl
├── net.py # 核心模型组网├── config.yaml # sample数据配置├── config_big.yaml # 全量数据配置├── dygraph_model.py # 构建动态图├── reader_train.py # 训练数据读取程序├── reader_test.py # infer数据读取程序├── readme.md #文档
为了测试模型在不同规模的内容定向推广任务上的表现,将数据集根据内容定向推广任务给定的候选集大小进行了划分,分为大于T和小于T两部分。将腾讯广告大赛2018的Look-alike数据集中的T设置为4000,其中hot数据集中候选集大于T,cold数据集中候选集小于T.
infer_meta.py是用于元学习模型infer的tool,在使用中主要有以下几点需要注意:
基于论文开源的代码实现基于Paddle的代码还是比较简单的,但是模型组网成功后,精度与原论文精度相差很大。 很可能是模型在前向传播时就已经出现问题了,建议基于官方提供的reprod_log,与参考代码进行一步步的前向对齐,才能保证模型组网万无一失。
在本项目复现时,遇到最大的问题是前向对齐时的误差很小,但是无论如何第一轮的loss就是对不齐。找了很久问题,最后直接将参考代码的初始化参数加载到paddle复现的模型上,成功跑出了原论文精度,所以如果前向没大问题,也有可能是模型初始化参数的问题,可以设置下随机种子和加载可复现的初始化参数。
由于元学习训练方式与传统训练方式有所区别,所以要单独写train和infer的数据读取。细节部分在infer_meta.py说明中有提到,主要是关掉dataloader默认的组batch方式,自己写组batch。
| 信息 | 说明 |
|---|---|
| 发布者 | 宁文彬 |
| 时间 | 2025.06 |
| 框架版本 | Paddle 2.3.0 |
| 应用场景 | 元学习 |
| 支持硬件 | GPU、CPU |
以上就是【论文复现赛】第六期冠军项目-MetaHeac-推荐系统的详细内容,更多请关注其它相关文章!
# 测试数据
# 惠南工业区果蔬网站推广
# 惠州网站建设详细内容
# 诚招网络营销推广员
# 面试SEO提哪些问题
# 耳环耳饰网站推广方案
# 牡丹江网站seo优化
# 龙岩抖音营销推广中心
# seo快照是什么意思
# 网站推广优化工作内容
# 辽宁推荐网站制作推广
# 官网
# 所示
# 在对
# python
# 加载
# 腾讯
# 第六期
# 一言
# 前向
# 中文网
# fig
# looka
# udio
# 区别
# bing
# ai
# git
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
腾讯自主研发机器狗 Max 升级,可“奔跑跳跃”完成避障动作
云深处与昇腾CANN携手合作:开设ROS四足机器狗开发训练营
Meta 发布 Voicebox AI 模型:可生成音频信息,用于 NPC 对话等
中国联通推出“极光一号”5G机载终端,适配大疆等品牌无人机设备
百亿量化私募:量化投资进入“精耕细作”时代 AI带来行业新变革
OpenAI首席执行官表态支持欧盟AI监管
尼康尼克尔 Z 180-600mm f/5.6-6.3 VR 镜头发布,12499 元
全国青少年无人机大赛重庆市选拔赛开赛 1252名中小学生参加
令人惊叹!AI模型能够以iPhone照片为基础创作诗歌
站在社会的高度理解人工智能
利好来了,AI再起一波?
提升工作效率的智能工具:Zapier 让工作变得更简单!
对艺术家拒绝置若罔闻,Stability AI 将推出适应多种画风的开源模型
智能化解决方案:保障数据安全阻击泄露和丢失
史玉柱谈AI:国内最缺是计算数学人才,曾给浙大数学系捐五千万
世界人工智能大会(WAIC 2025)点燃魔都,博尔捷数字科技携前沿技术产品亮相
马斯克称人类是半机器人,记忆外包给了电脑
两型无人机完成交付!国家级机动观测业务正式启动
亚太地区 70% 的企业高管正探索生成式 AI 应用或已经进行投资
时隔 4 年:谷歌更新安卓机器人 LOGO,形象更立体
稿见AI助手:提升写作效率与质量的必备工具
焊接协作机器人或将成为26届埃森展最大看点
ChatGPT大更新!OpenAI奉上程序员大礼包:API新增杀手级能力还降价,新模型、四倍上下文都来了
看似低调,实则稳健:字节在AI路上会遇到什么?
Win11 的画图应用将包含 Windows Copilot 的 AI 工具整合
乐天派AI桌面机器人提供的正能量情绪价值直接拉满,妥妥的治愈系
AYANEO AIR 1S 掌机发布:R7 7840U,预订价 4699 元起
消息称 ChatGPT 未来有望增加更多功能:上传文件分析信息,还能记住用户画像
优化J*a与MySQL合作:分享批处理操作的技巧
谷歌旗下 DeepMind 开发出 RoboCat AI 模型,能控制多种机器人执行一系列任务
深剖Apple Vision Pro中暗藏的“AI”
华为云天筹AI求解器荣获世界人工智能大会最高奖
微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权
应用生成式人工智能技术改善农业产业
国内首款大尺寸仿鸵双足机器人“大圣”亮相,穿戴红色战袍
1000万张照片训练AI模型 科学家找到水下定位新方法
云南首例达芬奇机器人微创心脏手术成功开展
华为余承东表示:鸿蒙可能拥有强大的人工智能大模型能力
谷歌推出 SAIF 框架,倡导安全环境下探索和发展人工智能
如何用户外电源给无人机实现持久续航
OpenAI首席执行官引用《道德经》 呼吁就AI安全问题合作
华为4G5G通信物联网收费标准公布,多年研发成果,十年花费近万亿
真全息产品,亮相深圳文博会——dipal数伴拓展元宇宙非沉浸式体验
先进技术在防止全球数据丢失方面的作用
大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战
Meta发布语音AI模型 Voicebox 助虚拟助手与NPC对话
禁止艺术家使用 AI 创作《龙与地下城》游戏插图的决定已在 D&D Beyond 生效
网友自制 AI 版《流浪地球 3》预告片,登上 CCTV6
苹果推出全新沉浸式 AR 体验应用“Deep Field”
探索人工智能在居家养老方面的应用