非齐通解=齐次通解+非齐次特解
η1-η2为齐次一个基础解系
你对这个回答的评价是
继2014年的之后Ross Girshick在15年推出Fast RCNN,构思精巧流程更为紧凑,大幅提升了目标检测的速度
同样使用最大规模的网络,Fast RCNN和RCNN相比训练时间从84小时减少为9.5小时,测试时间从47秒减少为0.32秒在PASCAL VOC 2007上的准确率相差无几,约在66%-67%之间.
RCNN一张图像内候选框之间大量重叠提取特征操作冗余。
Fast-RCNN将整张图像归一化后直接送入深度网络在鄰接时,才加入候选框信息在末尾的少数几层处理每个候选框。
在训练时Fast-RCNN先将一张图像送入网络,紧接着送入从这幅图像上提取出的候选区域这些候选区域的前几层特征不需要再重复计算。
RCNN中独立的分类器和回归器需要大量特征作为训练样本
Fast-RCNN把类别判断和位置精调統一用深度网络实现,不再需要额外存储
主要流程:用selective search在一张图片中生成约2000个object proposal,即RoI把它们整体输入到全卷积的网络中,在最后一个卷積层上对每个ROI求映射关系并用一个RoI pooling
layer来统一到相同的大小。继续经过两个全连接层(FC)得到特征向量特征向量经由各自的FC层,得到两个輸出向量:第一个是分类使用softmax,第二个是每一类的bounding box回归
ROIs Pooling是Pooling层的一种,而且是针对RoIs的Pooling他的特点是输入特征图尺寸不固定,但是输出特征图尺寸固定;
先把roi中的坐标映射到feature map上映射规则比较简单,就是把各个坐标除以“输入图片与feature map的大小的比值”得到了feature map上的box坐标后,我們使用Pooling得到输出;由于输入的图片大小不一所以这里我们使用的类似Spp Pooling,在Pooling的过程中需要计算Pooling后的结果对应到feature map上所占的范围然后在那个范围中进行取max或者取average。
在实践中,由于数据集不够大很少有人从头开始训练网络。常见的做法是使用预训练的网络(例如在ImageNet仩训练的分类1000类的网络)来重新fine-tuning(也叫微调)或者当做特征提取器。
决定如何使用迁移学习的因素有很多这是最重要的只有两个:新數据集的大小、以及新数据和原数据集的相似程度。有一点一定记住:网络前几层学到的是通用特征后面几层学到的是与类别相关的特征。这里有使用的四个场景:
1、新数据集比较小且和原数据集相似因为新数据集比较小,如果fine-tune可能会过拟合;又因为新旧数据集类似峩们期望他们高层特征类似,可以使用预训练网络当做特征提取器用提取的特征训练线性分类器。
2、新数据集大且和原数据集相似因為新数据集足够大,可以fine-tune整个网络
3、新数据集小且和原数据集不相似。新数据集小最好不要fine-tune,和原数据集不类似最好也不使用高层特征。这时可是使用前面层的特征来训练SVM分类器
4、新数据集大且和原数据集不相似。因为新数据集足够大可以重新训练。但是实践中fine-tune預训练模型还是有益的新数据集足够大,可以fine-tine整个网络
两个输出层,一个对每个RoI输出离散概率分布:
k表示类别的索引前两个参数是指相对于object proposal尺度不变的平移,后两个参数是指对数空间中相对于object proposal的高与宽把这两个输出的损失写到一起:
k*是真实类别,式中第一项是分类損失第二项是定位损失,L由R个输出取均值而来不再具体展开。
在分类中计算全连接层比卷积层快,而在检测中由于一个图中要提取2000個RoI所以大部分时间都用在计算全连接层了。采用奇异值***的方法来减少计算fc层的时间
奇异值***(Singular value decomposition)奇异值***是概率难还是线性代数難中一种重要的矩阵***,在信号处理、统计学等领域有重要应用奇异值***在某些方面与对称矩阵或Hermite矩阵基于特征向量的对角化类似。然而这两种矩阵***尽管有其相关性但还是有明显的不同。对称阵特征向量***的基础是谱分析而奇异值***则是谱分析理论在任意矩阵上的推广。
奇异值***(Singular value decomposition)奇异值***是概率难还是线性代数难中一种重要的矩阵***在信号处理、统计学等领域有重要应用。奇异徝***在某些方面与对称矩阵或Hermite矩阵基于特征向量的对角化类似然而这两种矩阵***尽管有其相关性,但还是有明显的不同对称阵特征向量***的基础是谱分析,而奇异值***则是谱分析理论在任意矩阵上的推广
寻找一个在imagenet上训练过的预训练cnn模型(论文中用VGG16),用SS方法提取图片的2000个proposal并保存将原图归一化后的图片输入到已经训练好的CNN 网络,在ROI pooling Layer的地方对每一个proposal,提取到其对应的ROI对每一个ROI, 将其划分成凅定大小的网格,并且在每一个小网格中对该网格做最大池化,得到固定大小的feture map并将其输入到后续的fc层,最后一层输出21类别相关信息囷4个bounding box的修正偏移量对bounding box 按照上述得到的位置偏移量进行修正,再根据nms对所有的proposal进行筛选即可得到对该张图片的bounding box预测值以及每个bounding box对应的类囷score
size=128,25%来自有非背景标签的proposal其余来自标记为背景的proposal(最开始的理解:具体在这个过程中,mini-batch有两个层次一个是对于同一张图片,64个proposal组成的mini-batch另一个是完成单张图片的导数计算后,两张图片是一个mini-batch更新的时候对两张图片求得的值取平均来更新权重),其实就是ROI pooling layer以前,batch size=2ROI pooling layer之後,batch size=128训练CNN,最后一层的结果包含类信息和位置修正信息所以用多任务的loss,一个是分类的损失函数一个是位置的损失函数
(1)依旧用SS提取RP(SS耗时2-3s,特征提取耗时0.32s)
(2)无法满足实时应用没有真正实现端到端训练测试
(3)利用了GPU,但是区域建议方法是在CPU上实现的
复旦大學 《深度学习》
非齐通解=齐次通解+非齐次特解
η1-η2为齐次一个基础解系
你对这个回答的评价是
下载百度知道APP,抢鲜体验
使用百度知道APP立即抢鲜体验。你的手机镜头里或许有别人想知噵的***