项目指南:动态影响力最大化(精简版)
本指南汇总项目背景、当前核心框架、主要不足,以及面向动态影响力最大化的可行优化清单与路线图,便于快速理解与实施。
背景与目标
- 目标:在演化网络中选择规模为 (k) 的种子集合,最大化独立级联(IC)等扩散过程的期望覆盖。
- 当前核心:
- 快照:固定大小时间窗口聚合事件形成动态图快照;
- 标签:基于启发式 IFC 分数生成“是否为种子”的二分类标签;
- 模型:GraphSAGE(结构)+ BiLSTM(时间)预测候选种子;
- 选种:使用传统贪心算法完成影响力最大化。
现有框架(概览)
- 数据处理:窗口聚合 → 快照 → IFC 标签;
- 模型与训练:
models/gnn_bilstm_model.py
(GNN+BiLSTM),二分类训练; - 推理与选种:候选打分 → 贪心选取 (k) 个节点;
- 主要脚本:
main.py
(训练/IM)、trainer/model_trainer.py
、data/
(快照与标签)。
主要不足
- 固定窗口易忽略动态节律与突发;
- IFC 启发式标签噪声较大,偏离真实边际增益;
- 仅二分类,未直接优化排序/覆盖;
- 推理端贪心计算成本高,未利用学习信号加速。
可行优化清单
- 时间与快照构建
- 自适应/重叠窗口(按事件密度调整;stride < window);
- 时间衰减边权((w=\exp(-(t_{now}-t)/\tau)))与加权结构特征;
-
时间结构特征:时间模体、活动节律、演化社区特征。
-
标签与监督
- 蒸馏软标签:小规模高质量 MC/IMM 产出边际增益,学生做回归/排序拟合;
- 排序学习:pairwise/listwise 损失,优化 NDCG@k/Recall@k;
-
稀疏正类:Focal Loss/PU 学习;近似 Shapley 构造高置信样本。
-
模型结构
- 时序 GNN:TGN/TGAT/DySAT/EvolveGCN,加入连续时间编码;
- 时空 Transformer:对“节点×时间”自注意,使用相对位置/RoPE;
- 多任务:二分类 + 边际增益回归 + 社区覆盖,动态损失加权;
-
自监督预训练:Node2Vec/GraphSAGE 预训练与时间对比。
-
目标与正则
- 可微扩散代理(NetRate/CTIC 近似)+ REINFORCE/straight-through;
- 多样性正则:社区覆盖、冗余惩罚;
-
置信度校准:温度缩放/深度集成/MC Dropout,并联动仿真触发阈值。
-
影响力最大化算法层
- 贪心加速:CELF/CELF++ 懒惰评估、并行与增量缓存;
- RR 集:TIM+/IMM,并按模型打分做偏置采样;
- 两阶段:模型筛选 top-p% → 在候选上运行贪心/IMM;
-
增量 IM:跨时间窗复用候选与边际增益缓存。
-
在线/自适应
- 经验回放与小步微调,漂移检测触发再训练;
-
Bandit/RL 逐步选种,以近似覆盖为奖励,结合模型打分先验。
-
工程与可扩展性
- 仿真/采样并行与分布式,必要时 C++/CUDA 加速;
- 训练推理优化:邻居采样、AMP/bfloat16、预计算与缓存;
-
统一配置与复现:Hydra/OMEGACONF,固定随机种与完善日志。
-
评估协议
- 滚动评测(rolling-origin,训练区间 [t−W, t) → t 时刻评测);
- 指标:spread@k、NDCG@k、regret@k、运行时、加速比、校准误差。
路线图(里程碑)
- 阶段一(1–2 周)
- 自适应/重叠窗口 + 时间衰减边;
- 排序损失 + CELF++ 贪心;
-
规范评估与日志。
-
阶段二(2–3 周)
- 集成 TGN/TGAT;
- 两阶段选种(筛选 → 贪心/IMM);
-
蒸馏教师软标签(少量高质量仿真)。
-
阶段三(2–3 周)
- RR 集(IMM/TIM+)与偏置采样;
- 多任务(二分类 + 边际增益回归);
-
不确定性驱动主动仿真。
-
阶段四(2 周)
- 在线增量与漂移应对;
- 工程化加速(分布式 RR、AMP、缓存);
- 完成消融与报告。
关键目录(简版)
main.py
:入口(训练/影响力最大化);models/gnn_bilstm_model.py
:GNN+BiLSTM 模型;trainer/model_trainer.py
:训练与评估;data/
:动态图生成、快照与标签;results/
:结果与可视化。