项目指南:动态影响力最大化(精简版)

本指南汇总项目背景、当前核心框架、主要不足,以及面向动态影响力最大化的可行优化清单与路线图,便于快速理解与实施。

背景与目标

  • 目标:在演化网络中选择规模为 (k) 的种子集合,最大化独立级联(IC)等扩散过程的期望覆盖。
  • 当前核心
  • 快照:固定大小时间窗口聚合事件形成动态图快照;
  • 标签:基于启发式 IFC 分数生成“是否为种子”的二分类标签;
  • 模型:GraphSAGE(结构)+ BiLSTM(时间)预测候选种子;
  • 选种:使用传统贪心算法完成影响力最大化。

现有框架(概览)

  • 数据处理:窗口聚合 → 快照 → IFC 标签;
  • 模型与训练:models/gnn_bilstm_model.py(GNN+BiLSTM),二分类训练;
  • 推理与选种:候选打分 → 贪心选取 (k) 个节点;
  • 主要脚本:main.py(训练/IM)、trainer/model_trainer.pydata/(快照与标签)。

主要不足

  • 固定窗口易忽略动态节律与突发;
  • IFC 启发式标签噪声较大,偏离真实边际增益;
  • 仅二分类,未直接优化排序/覆盖;
  • 推理端贪心计算成本高,未利用学习信号加速。

可行优化清单

  • 时间与快照构建
  • 自适应/重叠窗口(按事件密度调整;stride < window);
  • 时间衰减边权((w=\exp(-(t_{now}-t)/\tau)))与加权结构特征;
  • 时间结构特征:时间模体、活动节律、演化社区特征。

  • 标签与监督

  • 蒸馏软标签:小规模高质量 MC/IMM 产出边际增益,学生做回归/排序拟合;
  • 排序学习:pairwise/listwise 损失,优化 NDCG@k/Recall@k;
  • 稀疏正类:Focal Loss/PU 学习;近似 Shapley 构造高置信样本。

  • 模型结构

  • 时序 GNN:TGN/TGAT/DySAT/EvolveGCN,加入连续时间编码;
  • 时空 Transformer:对“节点×时间”自注意,使用相对位置/RoPE;
  • 多任务:二分类 + 边际增益回归 + 社区覆盖,动态损失加权;
  • 自监督预训练:Node2Vec/GraphSAGE 预训练与时间对比。

  • 目标与正则

  • 可微扩散代理(NetRate/CTIC 近似)+ REINFORCE/straight-through;
  • 多样性正则:社区覆盖、冗余惩罚;
  • 置信度校准:温度缩放/深度集成/MC Dropout,并联动仿真触发阈值。

  • 影响力最大化算法层

  • 贪心加速:CELF/CELF++ 懒惰评估、并行与增量缓存;
  • RR 集:TIM+/IMM,并按模型打分做偏置采样;
  • 两阶段:模型筛选 top-p% → 在候选上运行贪心/IMM;
  • 增量 IM:跨时间窗复用候选与边际增益缓存。

  • 在线/自适应

  • 经验回放与小步微调,漂移检测触发再训练;
  • Bandit/RL 逐步选种,以近似覆盖为奖励,结合模型打分先验。

  • 工程与可扩展性

  • 仿真/采样并行与分布式,必要时 C++/CUDA 加速;
  • 训练推理优化:邻居采样、AMP/bfloat16、预计算与缓存;
  • 统一配置与复现:Hydra/OMEGACONF,固定随机种与完善日志。

  • 评估协议

  • 滚动评测(rolling-origin,训练区间 [t−W, t) → t 时刻评测);
  • 指标:spread@k、NDCG@k、regret@k、运行时、加速比、校准误差。

路线图(里程碑)

  • 阶段一(1–2 周)
  • 自适应/重叠窗口 + 时间衰减边;
  • 排序损失 + CELF++ 贪心;
  • 规范评估与日志。

  • 阶段二(2–3 周)

  • 集成 TGN/TGAT;
  • 两阶段选种(筛选 → 贪心/IMM);
  • 蒸馏教师软标签(少量高质量仿真)。

  • 阶段三(2–3 周)

  • RR 集(IMM/TIM+)与偏置采样;
  • 多任务(二分类 + 边际增益回归);
  • 不确定性驱动主动仿真。

  • 阶段四(2 周)

  • 在线增量与漂移应对;
  • 工程化加速(分布式 RR、AMP、缓存);
  • 完成消融与报告。

关键目录(简版)

  • main.py:入口(训练/影响力最大化);
  • models/gnn_bilstm_model.py:GNN+BiLSTM 模型;
  • trainer/model_trainer.py:训练与评估;
  • data/:动态图生成、快照与标签;
  • results/:结果与可视化。