PROJECT GUIDE - DynamicGraphInfluenceMaximization

项目指南：动态影响力最大化（精简版）

本指南汇总项目背景、当前核心框架、主要不足，以及面向动态影响力最大化的可行优化清单与路线图，便于快速理解与实施。

背景与目标

目标：在演化网络中选择规模为 (k) 的种子集合，最大化独立级联（IC）等扩散过程的期望覆盖。
当前核心：
快照：固定大小时间窗口聚合事件形成动态图快照；
标签：基于启发式 IFC 分数生成“是否为种子”的二分类标签；
模型：GraphSAGE（结构）+ BiLSTM（时间）预测候选种子；
选种：使用传统贪心算法完成影响力最大化。

现有框架（概览）

数据处理：窗口聚合 → 快照 → IFC 标签；
模型与训练：models/gnn_bilstm_model.py（GNN+BiLSTM），二分类训练；
推理与选种：候选打分 → 贪心选取 (k) 个节点；
主要脚本：main.py（训练/IM）、trainer/model_trainer.py、data/（快照与标签）。

主要不足

固定窗口易忽略动态节律与突发；
IFC 启发式标签噪声较大，偏离真实边际增益；
仅二分类，未直接优化排序/覆盖；
推理端贪心计算成本高，未利用学习信号加速。

可行优化清单

时间与快照构建
自适应/重叠窗口（按事件密度调整；stride < window）；
时间衰减边权（(w=\exp(-(t_{now}-t)/\tau))）与加权结构特征；
时间结构特征：时间模体、活动节律、演化社区特征。
标签与监督
蒸馏软标签：小规模高质量 MC/IMM 产出边际增益，学生做回归/排序拟合；
排序学习：pairwise/listwise 损失，优化 NDCG@k/Recall@k；
稀疏正类：Focal Loss/PU 学习；近似 Shapley 构造高置信样本。
模型结构
时序 GNN：TGN/TGAT/DySAT/EvolveGCN，加入连续时间编码；
时空 Transformer：对“节点×时间”自注意，使用相对位置/RoPE；
多任务：二分类 + 边际增益回归 + 社区覆盖，动态损失加权；
自监督预训练：Node2Vec/GraphSAGE 预训练与时间对比。
目标与正则
可微扩散代理（NetRate/CTIC 近似）+ REINFORCE/straight-through；
多样性正则：社区覆盖、冗余惩罚；
置信度校准：温度缩放/深度集成/MC Dropout，并联动仿真触发阈值。
影响力最大化算法层
贪心加速：CELF/CELF++ 懒惰评估、并行与增量缓存；
RR 集：TIM+/IMM，并按模型打分做偏置采样；
两阶段：模型筛选 top-p% → 在候选上运行贪心/IMM；
增量 IM：跨时间窗复用候选与边际增益缓存。
在线/自适应
经验回放与小步微调，漂移检测触发再训练；
Bandit/RL 逐步选种，以近似覆盖为奖励，结合模型打分先验。
工程与可扩展性
仿真/采样并行与分布式，必要时 C++/CUDA 加速；
训练推理优化：邻居采样、AMP/bfloat16、预计算与缓存；
统一配置与复现：Hydra/OMEGACONF，固定随机种与完善日志。
评估协议
滚动评测（rolling-origin，训练区间 [t−W, t) → t 时刻评测）；
指标：spread@k、NDCG@k、regret@k、运行时、加速比、校准误差。

路线图（里程碑）

阶段一（1–2 周）
自适应/重叠窗口 + 时间衰减边；
排序损失 + CELF++ 贪心；
规范评估与日志。
阶段二（2–3 周）
集成 TGN/TGAT；
两阶段选种（筛选 → 贪心/IMM）；
蒸馏教师软标签（少量高质量仿真）。
阶段三（2–3 周）
RR 集（IMM/TIM+）与偏置采样；
多任务（二分类 + 边际增益回归）；
不确定性驱动主动仿真。
阶段四（2 周）
在线增量与漂移应对；
工程化加速（分布式 RR、AMP、缓存）；
完成消融与报告。

关键目录（简版）

main.py：入口（训练/影响力最大化）；
models/gnn_bilstm_model.py：GNN+BiLSTM 模型；
trainer/model_trainer.py：训练与评估；
data/：动态图生成、快照与标签；
results/：结果与可视化。

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search