从图像或者视频中紫冬抽取信息
模拟人的视觉行为
机器视觉
分类
定位
检测
场景解析与标记
开源
BSD协议,跨平台
应用:多点触摸、摄像头互动、体感交互、人脸识别
最初由intel开发
分类、定位、检测、分割
精确率 预测为正的样本有多少是真正的正样本
召回率 样本中的正的有多少被预测准确了
准确率 预测对的/总预测
识别准确率的指标之一
最佳工作状态
在精确率和召回率之间取舍
取调和平均数
视觉对象算法检测指标
两个识别框,相交的面积除以相并的面积
定位目标物和图像分割
标注数据比较稀疏时,性能较好
用ImageNet上训练好的模型
用选择性搜索算法 搜索可能的图像区域
用预训练好的向量机
训练时间和空间开销大
测试时间开销大
速度更快,精确度更高
每个网络可以独立或者联合训练
可以简单地看作RPN+fast R-CNN
RPN
fast R-CNN 池化层
将目标检测任务的认识,由分类问题化简为实际问题
先读取图片,分割成若干个网格
预测每个部分的范围
24个卷积层接2个全连接层
准确性、运算速度提升
是当前最佳的试试高精度目标检测算法
基本思想:采取了Anchor机制,来处理不同长宽比例图对象的检测
直接位置检测,优化收敛速度
批量规范化
Anchor机制 即参照机制 ??
多次度预测
基础分类网络和分类器
不使用SoftMax进行分类
加了很多trick
Semantic Segmentation
用时识别和关联
识别部位
确定人
tf.data