模型的主要特点是在整个过程中特征图(Feature Map)始终保持高分辨率这与之前主流方法思路上有很大的不同。在HRNet之前2D人体姿态估计算法是采用(Hourglass/CPN/Simple Baseline/MSPN等)将高分辨率特征图下采樣至低分辨率,再从低分辨率特征图恢复至高分辨率的思路(单次或重复多次)以此过程实现了多尺度特征提取的一个过程。
HRNet在整个过程中保持特征图的高分辨率但多尺度特征提取是姿态估计模型一定要实现的过程,那么HRNet是如何实现多尺度特征提取的呢模型是通过在高分辨率特征图主网络逐渐并行加入低分辨率特征图子网络,不同网络实现多尺度融合与特征提取实现的
上图为模型结构,横向表示模型深度变化纵向表示特征图尺度变化。第一行为主干网络(特征图为高分辨率)作为第一阶段,并逐渐并行加入分辨率子网络建立更哆的阶段(如上图第二行第三行所示),各并行网络之间相互交换信息实现多尺度融合与特征提取。最终所估计的关键点是在高分辨率主干网络输出
(1)作者提出的方法是并行连接高分辨率与低分辨率网络,而不是像之前方法那样串行连接因此,其方法能够保持高汾辨率而不是通过一个低到高的过程恢复分辨率,因此预测的heatmap可能在空间上更精确
(2)本文提出的模型融合相同深度和相似级别的低汾辨率特征图来提高高分辨率的特征图的表示效果,并进行重复的多尺度融合