一 opencv简介
数字图像的表示
计算机采用0/1编码的系统,数字图像也是利用0/1来记录信息,我们平常接触的图像都是8位数图像,包含0~255灰度,其中0,代表最黑,1,表示最白。
1.1 图像的分类
二值图像:
一幅二值图像的二维矩阵仅由0、1两个值构成,“0”代表黑色,“1”代白色。由于每一像素(矩阵中每一元素)取值仅有0、1两种可能,所以计算机中二值图像的数据类型通常为1个二进制位。二值图像通常用于文字、线条图的扫描识别(OCR)和掩膜图像的存储。
灰度图:
每个像素只有一个采样颜色的图像,这类图像通常显示为从最暗黑色到最亮的白色的灰度,尽管理论上这个采样可以任何颜色的不同深浅,甚至可以是不同亮度上的不同颜色。灰度图像与黑白图像不同,在计算机图像领域中黑白图像只有黑色与白色两种颜色;但是,灰度图像在黑色与白色之间还有许多级的颜色深度。灰度图像经常是在单个电磁波频谱如可见光内测量每个像素的亮度得到的,用于显示的灰度图像通常用每个采样像素8位的非线性尺度来保存,这样可以有256级灰度(如果用16位,则有65536级)。
彩色图:
每个像素通常是由红(R)、绿(G)、蓝(B)三个分量来表示的,分量介于(0,255)。RGB图像与索引图像一样都可以用来表示彩色图像。与索引图像一样,它分别用红(R)、绿(G)、蓝(B)三原色的组合来表示每个像素的颜色。但与索引图像不同的是,RGB图像每一个像素的颜色值(由RGB三原色表示)直接存放在图像矩阵中,由于每一像素的颜色需由R、G、B三个分量来表示,M、N分别表示图像的行列数,三个M x N的二维矩阵分别表示各个像素的R、G、B三个颜色分量。RGB图像的数据类型一般为8位无符号整形,通常用于表示和存放真彩色图像。
1.2 OpenCV-Python
OpenCV-Python是一个Python绑定库,旨在解决计算机视觉问题。
与C / C++等语言相比,Python速度较慢。也就是说,Python可以使用C / C++轻松扩展,这使我们可以在C / C++中编写计算密集型代码,并创建可用作Python模块的Python包装器。这给我们带来了两个好处:首先,代码与原始C / C++代码一样快(因为它是在后台工作的实际C++代码),其次,在Python中编写代码比使用C / C++更容易。OpenCV-Python是原始OpenCV C++实现的Python包装器。
OpenCV-Python使用Numpy,这是一个高度优化的数据库操作库,具有MATLAB风格的语法。所有OpenCV数组结构都转换为Numpy数组。这也使得与使用Numpy的其他库(如SciPy和Matplotlib)集成更容易。
1.3 OpenCV部署方法
安装OpenCV之前需要先安装numpy, matplotlib。
创建Python虚拟环境cv, 在cv中安装即可。
先安装OpenCV-Python, 由于一些经典的算法被申请了版权,新版本有很大的限制,所以选用3.4.3以下的版本
1 | pip install opencv-python==3.4.2.17 |
现在可以测试下是否安装成功,运行以下代码无报错则说明安装成功。
1 | import cv2 |
如果我们要利用SIFT和SURF等进行特征提取时,还需要安装:
1 | pip install opencv-contrib-python==3.4.2.17 |
1.4 OpenCV的模块
其中core、highgui、imgproc是最基础的模块,该课程主要是围绕这几个模块展开的,分别介绍如下:
- core模块实现了最核心的数据结构及其基本运算,如绘图函数、数组操作相关函数等。
- highgui模块实现了视频与图像的读取、显示、存储等接口。
- imgproc模块实现了图像处理的基础方法,包括图像滤波、图像的几何变换、平滑、阈值分割、形态学处理、边缘检测、目标检测、运动分析和对象跟踪等。
对于图像处理其他更高层次的方向及应用,OpenCV也有相关的模块实现
- features2d模块用于提取图像特征以及特征匹配,nonfree模块实现了一些专利算法,如sift特征。
- objdetect模块实现了一些目标检测的功能,经典的基于Haar、LBP特征的人脸检测,基于HOG的行人、汽车等目标检测,分类器使用Cascade Classification(级联分类)和Latent SVM等。
- stitching模块实现了图像拼接功能。
- FLANN模块(Fast Library for Approximate Nearest Neighbors),包含快速近似最近邻搜索FLANN 和聚类Clustering算法。
- ml模块机器学习模块(SVM,决策树,Boosting等等)。
- photo模块包含图像修复和图像去噪两部分。
- video模块针对视频处理,如背景分离,前景检测、对象跟踪等。
- calib3d模块即Calibration(校准)3D,这个模块主要是相机校准和三维重建相关的内容。包含了基本的多视角几何算法,单个立体摄像头标定,物体姿态估计,立体相似性算法,3D信息的重建等等。
- G-API模块包含超高效的图像处理pipeline引擎
二 图像的基础操作
图像IO操作的API:
cv.imread(): 读取图像
cv.imshow():显示图像
cv.imwrite(): 保存图像
在图像上绘制几何图像
cv.line(): 绘制直线
cv.circle(): 绘制圆形
cv.rectangle(): 绘制矩形
cv.putText(): 在图像上添加文字
直接使用行列索引获取图像中的像素并进行修改
图像的属性
拆分通道:cv.split()
通道合并:cv.merge()
色彩空间的改变
cv.cvtColor(input_image,flag)
2.1 图像的IO操作
这里我们会给大家介绍如何读取图像,如何显示图像和如何保存图像。
2.1.1 读取图像
1 | cv.imread() |
参数:
要读取的图像
读取方式的标志
cv.IMREAD*COLOR:以彩色模式加载图像,任何图像的透明度都将被忽略。这是默认参数。
cv.IMREAD*GRAYSCALE:以灰度模式加载图像
cv.IMREAD_UNCHANGED:包括alpha通道的加载图像模式。
可以使用1、0或者-1来替代上面三个标志
参考代码
1
2
3
4import numpy as np
import cv2 as cv
# 以灰度图的形式读取图像
img = cv.imread('messi5.jpg',0)
注意:如果加载的路径有错误,不会报错,会返回一个None值
2.1.2 显示图像
1 | cv.imshow() |
参数:
- 显示图像的窗口名称,以字符串类型表示
- 要加载的图像
注意:在调用显示图像的API后,要调用cv.waitKey()给图像绘制留下时间,否则窗口会出现无响应情况,并且图像无法显示出来。
另外也可使用matplotlib对图像进行展示。
参考代码
1
2
3
4
5# opencv中显示
cv.imshow('image',img)
cv.waitKey(0)
# matplotlib中展示
plt.imshow(img[:,:,::-1])
2.1.3 保存图像
1 | cv.imwrite() |
参数:
- 文件名,要保存在哪里
- 要保存的图像
参考代码
1
cv.imwrite('messigray.png',img)
2.1.4 总结
我们通过加载灰度图像,显示图像,如果按’s’并退出则保存图像,或者按ESC键直接退出而不保存。
1 | import numpy as np |
2.2 绘制几何图形
2.2.1 绘制直线
1 | cv.line(img,start,end,color,thickness) |
参数:
- img:要绘制直线的图像
- Start,end: 直线的起点和终点
- color: 线条的颜色
- Thickness: 线条宽度
2.2.2 绘制圆形
1 | cv.circle(img,centerpoint, r, color, thickness) |
参数:
- img:要绘制圆形的图像
- Centerpoint, r: 圆心和半径
- color: 线条的颜色
- Thickness: 线条宽度,为-1时生成闭合图案并填充颜色
2.2.3 绘制矩形
1 | cv.rectangle(img,leftupper,rightdown,color,thickness) |
参数:
- img:要绘制矩形的图像
- Leftupper, rightdown: 矩形的左上角和右下角坐标
- color: 线条的颜色
- Thickness: 线条宽度
2.2.4 向图像中添加文字
1 | cv.putText(img,text,station, font, fontsize,color,thickness,cv.LINE_AA) |
参数:
- img: 图像
- text:要写入的文本数据
- station:文本的放置位置
- font:字体
- Fontsize :字体大小
2.2.5 效果展示
我们生成一个全黑的图像,然后在里面绘制图像并添加文字
1 | import numpy as np |
2.3 图像操作
2.3.1 获取并修改图像中的像素点
我们可以通过行和列的坐标值获取该像素点的像素值。对于BGR图像,它返回一个蓝,绿,红值的数组。对于灰度图像,仅返回相应的强度值。使用相同的方法对像素值进行修改。
1 | import numpy as np |
2.3.2 获取图像的属性
图像属性包括行数,列数和通道数,图像数据类型,像素数等。
2.3.3 图像通道的拆分与合并
有时需要在B,G,R通道图像上单独工作。在这种情况下,需要将BGR图像分割为单个通道。或者在其他情况下,可能需要将这些单独的通道合并到BGR图像。你可以通过以下方式完成。
1 | # 通道拆分 |
2.3.4 色彩空间的改变
OpenCV中有150多种颜色空间转换方法。最广泛使用的转换方法有两种,BGR↔Gray和BGR↔HSV。
API:
1 | cv.cvtColor(input_image,flag) |
参数:
- input_image: 进行颜色空间转换的图像
- flag: 转换类型
- cv.COLOR_BGR2GRAY : BGR↔Gray
- cv.COLOR_BGR2HSV: BGR→HSV
2.4 图像的算术操作
图像加法:将两幅图像加载一起
cv.add()
图像的混合:将两幅图像按照不同的比例进行混合
cv.addweight()
注意:这里都要求两幅图像是相同大小的。
2.4.1 图像的加法
你可以使用OpenCV的cv.add()函数把两幅图像相加,或者可以简单地通过numpy操作添加两个图像,如res = img1 + img2。两个图像应该具有相同的大小和类型,或者第二个图像可以是标量值。
注意:OpenCV加法和Numpy加法之间存在差异。OpenCV的加法是饱和操作,而Numpy添加是模运算。
参考以下代码:
1 | 250]) x = np.uint8([ |
这种差别在你对两幅图像进行加法时会更加明显。OpenCV 的结果会更好一点。所以我们尽量使用 OpenCV 中的函数。
我们将下面两幅图像:
1 | import numpy as np |
结果如下所示:
2.4.2 图像的混合
这其实也是加法,但是不同的是两幅图像的权重不同,这就会给人一种混合或者透明的感觉。图像混合的计算公式如下:
g(x) = (1−α)f0(x) + αf1(x)
通过修改 α 的值(0 → 1),可以实现非常炫酷的混合。
现在我们把两幅图混合在一起。第一幅图的权重是0.7,第二幅图的权重是0.3。函数cv2.addWeighted()可以按下面的公式对图片进行混合操作。
dst = α⋅img1 + β⋅img2 + γ
这里γ取为零。
参考以下代码:
1 | import numpy as np |
窗口将如下图显示:
三 opencv图像处理
3.1 几何变换
图像缩放:对图像进行放大或缩小
cv.resize()
图像平移:
指定平移矩阵后,调用cv.warpAffine()平移图像
图像旋转:
调用cv.getRotationMatrix2D获取旋转矩阵,然后调用cv.warpAffine()进行旋转
仿射变换:
调用cv.getAffineTransform将创建变换矩阵,最后该矩阵将传递给cv.warpAffine()进行变换
透射变换:
通过函数cv.getPerspectiveTransform()找到变换矩阵,将cv.warpPerspective()进行投射变换
金字塔
图像金字塔是图像多尺度表达的一种,使用的API:
cv.pyrUp(): 向上采样
cv.pyrDown(): 向下采样
3.1.1 图像缩放
缩放是对图像的大小进行调整,即使图像放大或缩小。
1 | cv2.resize(src,dsize,fx=0,fy=0,interpolation=cv2.INTER_LINEAR) |
参数:
- src : 输入图像
- dsize: 绝对尺寸,直接指定调整后图像的大小
- fx,fy: 相对尺寸,将dsize设置为None,然后将fx和fy设置为比例因子即可
- interpolation:插值方法,
示例
1 | import cv2 as cv |
3.1.2 图像平移
图像平移将图像按照指定方向和距离,移动到相应的位置。
1 | cv.warpAffine(img,M,dsize) |
参数:
img: 输入图像
M: 2*∗3移动矩阵
对于(x,y)处的像素点,要把它移动到(x+t_x , y+t_yx+t**x,y+t**y)处时,M矩阵应如下设置:
注意:将MM设置为np.float32类型的Numpy数组。
dsize: 输出图像的大小
注意:输出图像的大小,它应该是(宽度,高度)的形式。请记住,width=列数,height=行数。
示例
需求是将图像的像素点移动(50,100)的距离:
1 | import numpy as np |
3.1.3 图像旋转
图像旋转是指图像按照某个位置转动一定角度的过程,旋转中图像仍保持这原始尺寸。图像旋转后图像的水平对称轴、垂直对称轴及中心坐标原点都可能会发生变换,因此需要对图像旋转中的坐标进行相应转换。
那图像是怎么进行旋转的呢?如下图所示:
同时我们要修正原点的位置,因为原图像中的坐标原点在图像的左上角,经过旋转后图像的大小会有所变化,原点也需要修正。
假设在旋转的时候是以旋转中心为坐标原点的,旋转结束后还需要将坐标原点移到图像左上角,也就是还要进行一次变换。
在OpenCV中图像旋转首先根据旋转角度和旋转中心获取旋转矩阵,然后根据旋转矩阵进行变换,即可实现任意角度和任意中心的旋转效果。
1 | cv2.getRotationMatrix2D(center, angle, scale) |
参数:
- center:旋转中心
- angle:旋转角度
- scale:缩放比例
返回:
M:旋转矩阵
调用cv.warpAffine完成图像的旋转
1 | import numpy as np |
3.1.4 仿射变换
图像的仿射变换涉及到图像的形状位置角度的变化,是深度学习预处理中常到的功能,仿射变换主要是对图像的缩放,旋转,翻转和平移等操作的组合。
那什么是图像的仿射变换,如下图所示,图1中的点1, 2 和 3 与图二中三个点一一映射, 仍然形成三角形, 但形状已经大大改变,通过这样两组三点(感兴趣点)求出仿射变换, 接下来我们就能把仿射变换应用到图像中所有的点中,就完成了图像的仿射变换。
需要注意的是,对于图像而言,宽度方向是x,高度方向是y,坐标的顺序和图像像素对应下标一致。所以原点的位置不是左下角而是右上角,y的方向也不是向上,而是向下。
在仿射变换中,原图中所有的平行线在结果图像中同样平行。为了创建这个矩阵我们需要从原图像中找到三个点以及他们在输出图像中的位置。然后cv2.getAffineTransform 会创建一个 2x3 的矩阵,最后这个矩阵会被传给函数 cv2.warpAffine。
1 | import numpy as np |
3.1.5 透射变换
透射变换是视角变化的结果,是指利用透视中心、像点、目标点三点共线的条件,按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度,破坏原有的投影光线束,仍能保持承影面上投影几何图形不变的变换。
在opencv中,我们要找到四个点,其中任意三个不共线,然后获取变换矩阵T,再进行透射变换。通过函数cv.getPerspectiveTransform找到变换矩阵,将cv.warpPerspective应用于此3x3变换矩阵。
1 | import numpy as np |
3.1.6 图像金字塔
图像金字塔是图像多尺度表达的一种,最主要用于图像的分割,是一种以多分辨率来解释图像的有效但概念简单的结构。
图像金字塔用于机器视觉和图像压缩,一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低,且来源于同一张原始图的图像集合。其通过梯次向下采样获得,直到达到某个终止条件才停止采样。
金字塔的底部是待处理图像的高分辨率表示,而顶部是低分辨率的近似,层级越高,图像越小,分辨率越低。
1 | cv.pyrUp(img) #对图像进行上采样 |
示例
1 | import numpy as np |
3.2 形态学操作
连通性 邻接关系:4邻接,8邻接和D邻接
连通性:4连通,8连通和m连通
形态学操作
腐蚀和膨胀:
腐蚀:求局部最大值
膨胀:求局部最小值
开闭运算:
开:先腐蚀后膨胀
闭:先膨胀后腐蚀
礼帽和黑帽:
礼帽:原图像与开运算之差
黑帽:闭运算与原图像之差
3.2.1 连通性
在图像中,最小的单位是像素,每个像素周围有8个邻接像素,常见的邻接关系有3种:4邻接、8邻接和D邻接。分别如下图所示:
- 4邻接:像素p(x,y)的4邻域是:(x+1,y);(x-1,y);(x,y+1);(x,y-1),用N_4(p)N4(p)表示像素p的4邻接
- D邻接:像素p(x,y)的D邻域是:对角上的点 (x+1,y+1);(x+1,y-1);(x-1,y+1);(x-1,y-1),用N_D(p)N**D(p)表示像素p的D邻域
- 8邻接:像素p(x,y)的8邻域是: 4邻域的点 + D邻域的点,用N_{8}(p)N8(p)表示像素p的8邻域
连通性是描述区域和边界的重要概念,两个像素连通的两个必要条件是:
- 两个像素的位置是否相邻
- 两个像素的灰度值是否满足特定的相 似性准则(或者是否相等
根据连通性的定义,有4联通、8联通和m联通三种。
4联通:对于具有值VV的像素pp和qq,如果qq在集合N_4(p)N4(p)中,则称这两个像素是4连通。
8联通:对于具有值VV的像素pp和qq,如果qq在集 合N_8(p)N8(p)中,则称这两个像素是8连通。
对于具有值VV的像素pp和qq,如果:
- qq在集合N_4(p)N4(p)中,或
- qq在集合N_D(p)N**D(p)中,并且N_4(p)N4(p)与N_4(q)N4(q)的交集为空(没有值VV的像素)
则称这两个像素是mm连通的,即4连通和D连通的混合连通。
3.2.2 形态学操作
形态学转换是基于图像形状的一些简单操作。它通常在二进制图像上执行。腐蚀和膨胀是两个基本的形态学运算符。然后它的变体形式如开运算,闭运算,礼帽黑帽等。
3.2.2.1 腐蚀和膨胀
腐蚀和膨胀是最基本的形态学操作,腐蚀和膨胀都是针对白色部分(高亮部分)而言的。
膨胀就是使图像中高亮部分扩张,效果图拥有比原图更大的高亮区域;腐蚀是原图中的高亮区域被蚕食,效果图拥有比原图更小的高亮区域。膨胀是求局部最大值的操作,腐蚀是求局部最小值的操作。
腐蚀
具体操作是:用一个结构元素扫描图像中的每一个像素,用结构元素中的每一个像素与其覆盖的像素做“与”操作,如果都为1,则该像素为1,否则为0。如下图所示,结构A被结构B腐蚀后:
腐蚀的作用是消除物体边界点,使目标缩小,可以消除小于结构元素的噪声点。
API:
1 | cv.erode(img,kernel,iterations) |
参数:
- img: 要处理的图像
- kernel: 核结构
- iterations: 腐蚀的次数,默认是1
膨胀
具体操作是:用一个结构元素扫描图像中的每一个像素,用结构元素中的每一个像素与其覆盖的像素做“与”操作,如果都为0,则该像素为0,否则为1。如下图所示,结构A被结构B腐蚀后:
用是将与物体接触的所有背景点合并到物体中,使目标增大,可添补目标中的孔洞。
API:
1 | cv.dilate(img,kernel,iterations) |
参数:
- img: 要处理的图像
- kernel: 核结构
- iterations: 腐蚀的次数,默认是1
- 示例
我们使用一个5*5的卷积核实现腐蚀和膨胀的运算:
1 | import numpy as np |
3.2.2.2 开闭运算
开运算和闭运算是将腐蚀和膨胀按照一定的次序进行处理。 但这两者并不是可逆的,即先开后闭并不能得到原来的图像。
开运算
开运算是先腐蚀后膨胀,其作用是:分离物体,消除小区域。特点:消除噪点,去除小的干扰块,而不影响原来的图像。
闭运算
闭运算与开运算相反,是先膨胀后腐蚀,作用是消除/“闭合”物体里面的孔洞,特点:可以填充闭合区域。
- ```python
cv.morphologyEx(img, op, kernel)1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
参数:
- img: 要处理的图像
- op: 处理方式:若进行开运算,则设为cv.MORPH_OPEN,若进行闭运算,则设为cv.MORPH_CLOSE
- Kernel: 核结构
2. **示例**
使用10*10的核结构对卷积进行开闭运算的实现。
```python
import numpy as np
import cv2 as cv
import matplotlib.pyplot as plt
# 1 读取图像
img1 = cv.imread("./image/image5.png")
img2 = cv.imread("./image/image6.png")
# 2 创建核结构
kernel = np.ones((10, 10), np.uint8)
# 3 图像的开闭运算
cvOpen = cv.morphologyEx(img1,cv.MORPH_OPEN,kernel) # 开运算
cvClose = cv.morphologyEx(img2,cv.MORPH_CLOSE,kernel)# 闭运算
# 4 图像展示
fig,axes=plt.subplots(nrows=2,ncols=2,figsize=(10,8))
axes[0,0].imshow(img1)
axes[0,0].set_title("原图")
axes[0,1].imshow(cvOpen)
axes[0,1].set_title("开运算结果")
axes[1,0].imshow(img2)
axes[1,0].set_title("原图")
axes[1,1].imshow(cvClose)
axes[1,1].set_title("闭运算结果")
plt.show()
3.2.2.3 礼帽和黑帽
礼帽运算
原图像与“开运算“的结果图之差,如下式计算:
因为开运算带来的结果是放大了裂缝或者局部低亮度的区域,因此,从原图中减去开运算后的图,得到的效果图突出了比原图轮廓周围的区域更明亮的区域,且这一操作和选择的核的大小相关。
礼帽运算用来分离比邻近点亮一些的斑块。当一幅图像具有大幅的背景的时候,而微小物品比较有规律的情况下,可以使用顶帽运算进行背景提取。
黑帽运算
为”闭运算“的结果图与原图像之差。数学表达式为:
黑帽运算后的效果图突出了比原图轮廓周围的区域更暗的区域,且这一操作和选择的核的大小相关。
黑帽运算用来分离比邻近点暗一些的斑块。
1 | cv.morphologyEx(img, op, kernel) |
参数:
- img: 要处理的图像
- op: 处理方式:
- Kernel: 核结构
- 示例
1 | import numpy as np |
3.3 图像平滑
图像噪声
- 椒盐噪声:图像中随机出现的白点或者黑点
- 高斯噪声:噪声的概率密度分布是正态分布
图像平滑
均值滤波:算法简单,计算速度快,在去噪的同时去除了很多细节部分,将图像变得模糊
cv.blur()
高斯滤波: 去除高斯噪声
cv.GaussianBlur()
中值滤波: 去除椒盐噪声
cv.medianBlur()
3.3.1 图像噪声
由于图像采集、处理、传输等过程不可避免的会受到噪声的污染,妨碍人们对图像理解及分析处理。常见的图像噪声有高斯噪声、椒盐噪声等。
3.3.1.1 椒盐噪声
椒盐噪声也称为脉冲噪声,是图像中经常见到的一种噪声,它是一种随机出现的白点或者黑点,可能是亮的区域有黑色像素或是在暗的区域有白色像素(或是两者皆有)。椒盐噪声的成因可能是影像讯号受到突如其来的强烈干扰而产生、类比数位转换器或位元传输错误等。例如失效的感应器导致像素值为最小值,饱和的感应器导致像素值为最大值。
3.3.1.2 高斯噪声
高斯噪声是指噪声密度函数服从高斯分布的一类噪声。由于高斯噪声在空间和频域中数学上的易处理性,这种噪声(也称为正态噪声)模型经常被用于实践中。高斯随机变量z的概率密度函数由下式给出:
3.3.2 图像平滑简介
图像平滑从信号处理的角度看就是去除其中的高频信息,保留低频信息。因此我们可以对图像实施低通滤波。低通滤波可以去除图像中的噪声,对图像进行平滑。
根据滤波器的不同可分为均值滤波,高斯滤波,中值滤波, 双边滤波。
3.3.2.1 均值滤波
1 | cv.blur(src, ksize, anchor, borderType) |
参数:
- src:输入图像
- ksize:卷积核的大小
- anchor:默认值 (-1,-1) ,表示核中心
- borderType:边界类型
示例:
1 | import cv2 as cv |
3.3.2.2 高斯滤波
二维高斯是构建高斯滤波器的基础,其概率分布函数如下所示:
正态分布是一种钟形曲线,越接近中心,取值越大,越远离中心,取值越小。计算平滑结果时,只需要将”中心点”作为原点,其他点按照其在正态曲线上的位置,分配权重,就可以得到一个加权平均值。
高斯平滑在从图像中去除高斯噪声方面非常有效。
高斯平滑的流程:
- 首先确定权重矩阵
假定中心点的坐标是(0,0),那么距离它最近的8个点的坐标如下:
更远的点以此类推。
为了计算权重矩阵,需要设定σ的值。假定σ=1.5,则模糊半径为1的权重矩阵如下:
这9个点的权重总和等于0.4787147,如果只计算这9个点的加权平均,还必须让它们的权重之和等于1,因此上面9个值还要分别除以0.4787147,得到最终的权重矩阵。
- 计算高斯模糊
有了权重矩阵,就可以计算高斯模糊的值了。
假设现有9个像素点,灰度值(0-255)如下:
每个点乘以对应的权重值:
得到
将这9个值加起来,就是中心点的高斯模糊的值。
对所有点重复这个过程,就得到了高斯模糊后的图像。如果原图是彩色图片,可以对RGB三个通道分别做高斯平滑。
API:
1 | cv2.GaussianBlur(src,ksize,sigmaX,sigmay,borderType) |
参数:
- src: 输入图像
- ksize:高斯卷积核的大小,注意 : 卷积核的宽度和高度都应为奇数,且可以不同
- sigmaX: 水平方向的标准差
- sigmaY: 垂直方向的标准差,默认值为0,表示与sigmaX相同
- borderType:填充边界类型
1 | import cv2 as cv |
3.3.2.3 中值滤波
中值滤波是一种典型的非线性滤波技术,基本思想是用像素点邻域灰度值的中值来代替该像素点的灰度值。
中值滤波对椒盐噪声(salt-and-pepper noise)来说尤其有用,因为它不依赖于邻域内那些与典型值差别很大的值。
API:
1 | cv.medianBlur(src, ksize ) |
参数:
- src:输入图像
- ksize:卷积核的大小
示例:
1 | import cv2 as cv |
3.4 直方图
灰度直方图:
- 直方图是图像中像素强度分布的图形表达方式。
- 它统计了每一个强度值所具有的像素个数。
- 不同的图像的直方图可能是相同的
cv.calcHist(images,channels,mask,histSize,ranges [,hist [,accumulate]])
掩膜
创建蒙版,透过mask进行传递,可获取感兴趣区域的直方图
直方图均衡化:增强图像对比度的一种方法
cv.equalizeHist(): 输入是灰度图像,输出是直方图均衡图像
自适应的直方图均衡
将整幅图像分成很多小块,然后再对每一个小块分别进行直方图均衡化,最后进行拼接
clahe = cv.createCLAHE(clipLimit, tileGridSize)
3.4.1 灰度直方图
3.4.1.1 原理
直方图是对数据进行统计的一种方法,并且将统计值组织到一系列实现定义好的 bin 当中。其中, bin 为直方图中经常用到的一个概念,可以译为 “直条” 或 “组距”,其数值是从数据中计算出的特征统计量,这些数据可以是诸如梯度、方向、色彩或任何其他特征。
图像直方图(Image Histogram)是用以表示数字图像中亮度分布的直方图,标绘了图像中每个亮度值的像素个数。这种直方图中,横坐标的左侧为较暗的区域,而右侧为较亮的区域。因此一张较暗图片的直方图中的数据多集中于左侧和中间部分,而整体明亮、只有少量阴影的图像则相反。
注意:直方图是根据灰度图进行绘制的,而不是彩色图像。
假设有一张图像的信息(灰度值 0 - 255,已知数字的范围包含 256 个值,于是可以按一定规律将这个范围分割成子区域(也就是 bins)。如:
直方图的一些术语和细节:
- dims:需要统计的特征数目。在上例中,dims = 1 ,因为仅仅统计了灰度值。
- bins:每个特征空间子区段的数目,可译为 “直条” 或 “组距”,在上例中, bins = 16。
- range:要统计特征的取值范围。在上例中,range = [0, 255]。
直方图的意义:
- 直方图是图像中像素强度分布的图形表达方式。
- 它统计了每一个强度值所具有的像素个数。
- 不同的图像的直方图可能是相同的
3.4.1.2 直方图的计算和绘制
我们使用OpenCV中的方法统计直方图,并使用matplotlib将其绘制出来。
API:
1 | cv2.calcHist(images,channels,mask,histSize,ranges[,hist[,accumulate]]) |
参数:
- images: 原图像。当传入函数时应该用中括号 [] 括起来,例如:[img]。
- channels: 如果输入图像是灰度图,它的值就是 [0];如果是彩色图像的话,传入的参数可以是 [0],[1],[2] 它们分别对应着通道 B,G,R。
- mask: 掩模图像。要统计整幅图像的直方图就把它设为 None。但是如果你想统计图像某一部分的直方图的话,你就需要制作一个掩模图像,并使用它。(后边有例子)
- histSize:BIN 的数目。也应该用中括号括起来,例如:[256]。
- ranges: 像素值范围,通常为 [0,256]
示例:
如下图,绘制相应的直方图
1 | import numpy as np |
3.4.1.3 掩膜的应用
掩膜是用选定的图像、图形或物体,对要处理的图像进行遮挡,来控制图像 处理的区域。
在数字图像处理中,我们通常使用二维矩阵数组进行掩膜。掩膜是由0和1组成一个二进制图像,利用该掩膜图像要处理的图像进行掩膜,其中1值的区域被处理,0 值区域被屏蔽,不会处理。
掩膜的主要用途是:
- 提取感兴趣区域:用预先制作的感兴趣区掩模与待处理图像进行”与“操作,得到感兴趣区图像,感兴趣区内图像值保持不变,而区外图像值都为0。
- 屏蔽作用:用掩模对图像上某些区域作屏蔽,使其不参加处理或不参加处理参数的计算,或仅对屏蔽区作处理或统计。
- 结构特征提取:用相似性变量或图像匹配方法检测和提取图像中与掩模相似的结构特征。
- 特殊形状图像制作
掩膜在遥感影像处理中使用较多,当提取道路或者河流,或者房屋时,通过一个掩膜矩阵来对图像进行像素过滤,然后将我们需要的地物或者标志突出显示出来。
我们使用cv.calcHist()来查找完整图像的直方图。 如果要查找图像某些区域的直方图,该怎么办? 只需在要查找直方图的区域上创建一个白色的掩膜图像,否则创建黑色, 然后将其作为掩码mask传递即可。
示例:
1 | import numpy as np |
3.4.2 直方图均衡化
3.4.2.1 原理与应用
想象一下,如果一副图像中的大多数像素点的像素值都集中在某一个小的灰度值值范围之内会怎样呢?如果一幅图像整体很亮,那所有的像素值的取值个数应该都会很高。所以应该把它的直方图做一个横向拉伸(如下图),就可以扩大图像像素值的分布范围,提高图像的对比度,这就是直方图均衡化要做的事情。
“直方图均衡化”是把原始图像的灰度直方图从比较集中的某个灰度区间变成在更广泛灰度范围内的分布。直方图均衡化就是对图像进行非线性拉伸,重新分配图像像素值,使一定灰度范围内的像素数量大致相同。
这种方法提高图像整体的对比度,特别是有用数据的像素值分布比较接近时,在X光图像中使用广泛,可以提高骨架结构的显示,另外在曝光过度或不足的图像中可以更好的突出细节。
使用opencv进行直方图统计时,使用的是:
API:
1 | dst = cv.equalizeHist(img) |
参数:
- img: 灰度图像
返回:
- dst : 均衡化后的结果
示例:
1 | import numpy as np |
3.4.2.2 自适应的直方图均衡化
上述的直方图均衡,我们考虑的是图像的全局对比度。 的确在进行完直方图均衡化之后,图片背景的对比度被改变了,在猫腿这里太暗,我们丢失了很多信息,所以在许多情况下,这样做的效果并不好。如下图所示,对比下两幅图像中雕像的画面,由于太亮我们丢失了很多信息。
为了解决这个问题, 需要使用自适应的直方图均衡化。 此时, 整幅图像会被分成很多小块,这些小块被称为“tiles”(在 OpenCV 中 tiles 的 大小默认是 8x8),然后再对每一个小块分别进行直方图均衡化。 所以在每一个的区域中, 直方图会集中在某一个小的区域中)。如果有噪声的话,噪声会被放大。为了避免这种情况的出现要使用对比度限制。对于每个小块来说,如果直方图中的 bin 超过对比度的上限的话,就把 其中的像素点均匀分散到其他 bins 中,然后在进行直方图均衡化。
最后,为了 去除每一个小块之间的边界,再使用双线性差值,对每一小块进行拼接。
API:
1 | cv.createCLAHE(clipLimit, tileGridSize) |
参数:
- clipLimit: 对比度限制,默认是40
- tileGridSize: 分块的大小,默认为8*88∗8
示例:
1 | import numpy as np |
3.5 边缘检测
边缘检测的原理
- 基于搜索:利用一阶导数的最大值获取边界
- 基于零穿越:利用二阶导数为0获取边界
Sobel算子
基于搜索的方法获取边界
cv.sobel()
cv.convertScaleAbs()
cv.addweights()
Laplacian算子
基于零穿越获取边界
cv.Laplacian()
Canny算法
流程:
- 噪声去除:高斯滤波
- 计算图像梯度:sobel算子,计算梯度大小和方向
- 非极大值抑制:利用梯度方向像素来判断当前像素是否为边界点
- 滞后阈值:设置两个阈值,确定最终的边界
5 算子比较
3.5.1 原理
边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。边缘的表现形式如下图所示:
图像边缘检测大幅度地减少了数据量,并且剔除了可以认为不相关的信息,保留了图像重要的结构属性。有许多方法用于边缘检测,它们的绝大部分可以划分为两类:基于搜索和基于零穿越。
- 基于搜索:通过寻找图像一阶导数中的最大值来检测边界,然后利用计算结果估计边缘的局部方向,通常采用梯度的方向,并利用此方向找到局部梯度模的最大值,代表算法是Sobel算子和Scharr算子。
- 基于零穿越:通过寻找图像二阶导数零穿越来寻找边界,代表算法是Laplacian算子。
3.5.2 Sobel检测算子
Sobel边缘检测算法比较简单,实际应用中效率比canny边缘检测效率要高,但是边缘不如Canny检测的准确,但是很多实际应用的场合,sobel边缘却是首选,Sobel算子是高斯平滑与微分操作的结合体,所以其抗噪声能力很强,用途较多。尤其是效率要求较高,而对细纹理不太关心的时候。
3.5.2.1 方法
3.5.2.2 应用
利用OpenCV进行sobel边缘检测的API是:
1 | Sobel_x_or_y = cv2.Sobel(src, ddepth, dx, dy, dst, ksize, scale, delta, borderType) |
参数:
src:传入的图像
ddepth: 图像的深度
dx和dy: 指求导的阶数,0表示这个方向上没有求导,取值为0、1。
ksize: 是Sobel算子的大小,即卷积核的大小,必须为奇数1、3、5、7,默认为3。
注意:如果ksize=-1,就演变成为3x3的Scharr算子。
scale:缩放导数的比例常数,默认情况为没有伸缩系数。
borderType:图像边界的模式,默认值为cv2.BORDER_DEFAULT。
Sobel函数求完导数后会有负值,还有会大于255的值。而原图像是uint8,即8位无符号数,所以Sobel建立的图像位数不够,会有截断。因此要使用16位有符号的数据类型,即cv2.CV_16S。处理完图像后,再使用cv2.convertScaleAbs()函数将其转回原来的uint8格式,否则图像无法显示。
Sobel算子是在两个方向计算的,最后还需要用cv2.addWeighted( )函数将其组合起来
1 | Scale_abs = cv2.convertScaleAbs(x) # 格式转换函数 |
示例:
1 | import cv2 as cv |
将上述代码中计算sobel算子的部分中将ksize设为-1,就是利用Scharr进行边缘检测。
1 | x = cv.Sobel(img, cv.CV_16S, 1, 0, ksize = -1) |
3.5.3 Laplacian算子
1 | laplacian = cv2.Laplacian(src, ddepth[, dst[, ksize[, scale[, delta[, borderType]]]]]) |
参数:
- Src: 需要处理的图像,
- Ddepth: 图像的深度,-1表示采用的是原图像相同的深度,目标图像的深度必须大于等于原图像的深度;
- ksize:算子的大小,即卷积核的大小,必须为1,3,5,7。
示例:
1 | import cv2 as cv |
3.5.4 Canny边缘检测
Canny 边缘检测算法是一种非常流行的边缘检测算法,是 John F. Canny 于 1986年提出的,被认为是最优的边缘检测算法。
3.5.4.1 原理
Canny边缘检测算法是由4步构成,分别介绍如下:
第一步:噪声去除
由于边缘检测很容易受到噪声的影响,所以首先使用$5*5$高斯滤波器去除噪声,在图像平滑那一章节中已经介绍过。
第二步:计算图像梯度
对平滑后的图像使用 Sobel 算子计算水平方向和竖直方向的一阶导数(Gx 和 Gy)。根据得到的这两幅梯度图(Gx 和 Gy)找到边界的梯度和方向,公式如下:
如果某个像素点是边缘,则其梯度方向总是垂直与边缘垂直。梯度方向被归为四类:垂直,水平,和两个对角线方向。
- 第三步:非极大值抑制
在获得梯度的方向和大小之后,对整幅图像进行扫描,去除那些非边界上的点。对每一个像素进行检查,看这个点的梯度是不是周围具有相同梯度方向的点中最大的。如下图所示:
A点位于图像的边缘,在其梯度变化方向,选择像素点B和C,用来检验A点的梯度是否为极大值,若为极大值,则进行保留,否则A点被抑制,最终的结果是具有“细边”的二进制图像。
- 第四步:滞后阈值
现在要确定真正的边界。 我们设置两个阈值: minVal 和 maxVal。 当图像的灰度梯度高于 maxVal 时被认为是真的边界, 低于 minVal 的边界会被抛弃。如果介于两者之间的话,就要看这个点是否与某个被确定为真正的边界点相连,如果是就认为它也是边界点,如果不是就抛弃。如下图:
如上图所示,A 高于阈值 maxVal 所以是真正的边界点,C 虽然低于 maxVal 但高于 minVal 并且与 A 相连,所以也被认为是真正的边界点。而 B 就会被抛弃,因为低于 maxVal 而且不与真正的边界点相连。所以选择合适的 maxVal 和 minVal 对于能否得到好的结果非常重要。
3.5.4.2 应用
在OpenCV中要实现Canny检测使用的API:
1 | canny = cv2.Canny(image, threshold1, threshold2) |
参数:
- image:灰度图,
- threshold1: minval,较小的阈值将间断的边缘连接起来
- threshold2: maxval,较大的阈值检测图像中明显的边缘
示例:
1 | import cv2 as cv |
3.6 模版匹配和霍夫变换
模板匹配
原理:在给定的图片中查找和模板最相似的区域
API:利用cv.matchTemplate()进行模板匹配,然后
使用cv.minMaxLoc()搜索最匹配的位置。
霍夫线检测
原理:将要检测的内容转换到霍夫空间中,利用累加器统计最优解,将检测结果表示处理
API:cv2.HoughLines()
注意:该方法输入是的二值化图像,在进行检测前要将图像进行二值化处理
霍夫圆检测
方法:霍夫梯度法
API:cv.HoughCircles()
3.6.1 模板匹配
3.6.1.1 原理
所谓的模板匹配,就是在给定的图片中查找和模板最相似的区域,该算法的输入包括模板和图片,整个任务的思路就是按照滑窗的思路不断的移动模板图片,计算其与图像中对应区域的匹配度,最终将匹配度最高的区域选择为最终的结果。
实现流程:
准备两幅图像:
1.原图像(I):在这幅图中,找到与模板相匹配的区域
2.模板(T):与原图像进行比对的图像块
滑动模板图像和原图像进行比对:
将模板块每次移动一个像素 (从左往右,从上往下),在每一个位置,都计算与模板图像的相似程度。
- 对于每一个位置将计算的相似结果保存在结果矩阵(R)中。如果输入图像的大小(WxH)且模板图像的大小(wxh),则输出矩阵R的大小为(W-w + 1,H-h + 1)将R显示为图像,如下图所示:
- 获得上述图像后,查找最大值所在的位置,那么该位置对应的区域就被认为是最匹配的。对应的区域就是以该点为顶点,长宽和模板图像一样大小的矩阵。
3.6.1.2 实现
我们使用OpenCV中的方法实现模板匹配。
API:
1 | res = cv.matchTemplate(img,template,method) |
参数:
- img: 要进行模板匹配的图像
- Template :模板
method:实现模板匹配的算法,主要有:
- 平方差匹配(CV_TM_SQDIFF):利用模板与图像之间的平方差进行匹配,最好的匹配是0,匹配越差,匹配的值越大。
- 相关匹配(CV_TM_CCORR):利用模板与图像间的乘法进行匹配,数值越大表示匹配程度较高,越小表示匹配效果差。
- 利用相关系数匹配(CV_TM_CCOEFF):利用模板与图像间的相关系数匹配,1表示完美的匹配,-1表示最差的匹配。
完成匹配后,使用cv.minMaxLoc()方法查找最大值所在的位置即可。如果使用平方差作为比较方法,则最小值位置是最佳匹配位置。
示例:
在该案例中,载入要搜索的图像和模板,图像如下所示:
模板如下所示:
通过matchTemplate实现模板匹配,使用minMaxLoc定位最匹配的区域,并用矩形标注最匹配的区域。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21import cv2 as cv
import numpy as np
from matplotlib import pyplot as plt
# 1 图像和模板读取
img = cv.imread('./image/wulin2.jpeg')
template = cv.imread('./image/wulin.jpeg')
h,w,l = template.shape
# 2 模板匹配
# 2.1 模板匹配
res = cv.matchTemplate(img, template, cv.TM_CCORR)
# 2.2 返回图像中最匹配的位置,确定左上角的坐标,并将匹配位置绘制在图像上
min_val, max_val, min_loc, max_loc = cv.minMaxLoc(res)
# 使用平方差时最小值为最佳匹配位置
# top_left = min_loc
top_left = max_loc
bottom_right = (top_left[0] + w, top_left[1] + h)
cv.rectangle(img, top_left, bottom_right, (0,255,0), 2)
# 3 图像显示
plt.imshow(img[:,:,::-1])
plt.title('匹配结果'), plt.xticks([]), plt.yticks([])
plt.show()
模板匹配不适用于尺度变换,视角变换后的图像,这时我们就要使用关键点匹配算法,比较经典的关键点检测算法包括SIFT和SURF等,主要的思路是首先通过关键点检测算法获取模板和测试图片中的关键点;然后使用关键点匹配算法处理即可,这些关键点可以很好的处理尺度变化、视角变换、旋转变化、光照变化等,具有很好的不变性。
3.6.2 霍夫变换
霍夫变换常用来提取图像中的直线和圆等几何形状,如下图所示:
在OpenCV中做霍夫线检测是使用的API是:
1 | cv.HoughLines(img, rho, theta, threshold) |
参数:
img: 检测的图像,要求是二值化的图像,所以在调用霍夫变换之前首先要进行二值化,或者进行Canny边缘检测
rho、theta: \rhoρ 和\thetaθ的精确度
threshold: 阈值,只有累加器中的值高于该阈值时才被认为是直线。
霍夫线检测的整个流程如下图所示,这是在stackflow上一个关于霍夫线变换的解释:
示例:
检测下述图像中的直线:
1 | import numpy as np |
3.6.3 霍夫圆检测
在OpenCV中检测图像中的圆环使用的是API是:
1 | circles = cv.HoughCircles(image, method, dp, minDist, param1=100, param2=100, minRadius=0,maxRadius=0 ) |
参数:
- image:输入图像,应输入灰度图像
- method:使用霍夫变换圆检测的算法,它的参数是CV_HOUGH_GRADIENT
- dp:霍夫空间的分辨率,dp=1时表示霍夫空间与输入图像空间的大小一致,dp=2时霍夫空间是输入图像空间的一半,以此类推
- minDist为圆心之间的最小距离,如果检测到的两个圆心之间距离小于该值,则认为它们是同一个圆心
- param1:边缘检测时使用Canny算子的高阈值,低阈值是高阈值的一半。
- param2:检测圆心和确定半径时所共有的阈值
- minRadius和maxRadius为所检测到的圆半径的最小值和最大值
返回:
- circles:输出圆向量,包括三个浮点型的元素——圆心横坐标,圆心纵坐标和圆半径
实现
由于霍夫圆检测对噪声比较敏感,所以首先对图像进行中值滤波。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21import cv2 as cv
import numpy as np
import matplotlib.pyplot as plt
# 1 读取图像,并转换为灰度图
planets = cv.imread("./image/star.jpeg")
gay_img = cv.cvtColor(planets, cv.COLOR_BGRA2GRAY)
# 2 进行中值模糊,去噪点
img = cv.medianBlur(gay_img, 7)
# 3 霍夫圆检测
circles = cv.HoughCircles(img, cv.HOUGH_GRADIENT, 1, 200, param1=100, param2=30, minRadius=0, maxRadius=100)
# 4 将检测结果绘制在图像上
for i in circles[0, :]: # 遍历矩阵每一行的数据
# 绘制圆形
cv.circle(planets, (i[0], i[1]), i[2], (0, 255, 0), 2)
# 绘制圆心
cv.circle(planets, (i[0], i[1]), 2, (0, 0, 255), 3)
# 5 图像显示
plt.figure(figsize=(10,8),dpi=100)
plt.imshow(planets[:,:,::-1]),plt.title('霍夫变换圆检测')
plt.xticks([]), plt.yticks([])
plt.show()
3.7 傅里叶变换
傅里叶变换的理解
任何连续周期的信号都可以由一组适当的正弦曲线组合而成
相关概念:
时域:以时间作为参照来分析动态世界的方法
频域:频域它不是真实的,而是一个数学构造
幅度谱:将信号分解为若干不同频率的正弦波,那么每一个正弦波的幅度,就叫做频谱,也叫做幅度谱
相位谱:每一个正弦波的相位,就叫做相位谱
傅里叶变换分类
傅里叶级数:任意的周期连续信号的傅里叶变换
傅里叶变换:非周期连续信号
离散傅里叶变换:非周期离散信号
图像中的应用
二维傅里叶变换
意义:将图像的灰度分布函数变换为图像的频率分布函数。
API:
cv.dft()
cv.idft()
滤波:高通,低通,带通,带阻
在OPenCV中实现图像的傅里叶变换,使用的是:
正变换:
1 | dft = cv2.dft(src, dst=None) |
参数:
- src: 输入图像,要转换成np.float32格式
- dst:参数是可选的, 决定输出数组的大小。默认输出数组的大小和输入图像大小一样。如果输出结果比输入图像大,输入图像就需要在进行变换前补 0。如果输出结果比输入图像小的话,输入图像就会被切割。
返回:
- dft: 傅里叶变换后的结果,有两个通道,第一个通道是结果的实数部分,第二个通道是结果的虚数部分。我们需要在此基础上计算傅里叶变换的频谱和相位。
逆变换:
1 | img = cv.idft(dft) |
参数:
- dft: 图像的频域表示
返回:
- img: 图像的空域表示
实现:
1 | import numpy as np |
结果展示:
四 图像特征提取与描述
4.1 Harris角点检测
4.1.1 原理
Harris角点检测的思想是通过图像的局部的小窗口观察图像,角点的特征是窗口沿任意方向移动都会导致图像灰度的明显变化,如下图所示:
推导如下
共可分为三种情况:
- 图像中的直线。一个特征值大,另一个特征值小,λ1>>λ2或 λ2>>λ1。椭圆函数值在某一方向上大,在其他方向上小。
- 图像中的平面。两个特征值都小,且近似相等;椭圆函数数值在各个方向上都小。
- 图像中的角点。两个特征值都大,且近似相等,椭圆函数在所有方向都增大
Harris给出的角点计算方法并不需要计算具体的特征值,而是计算一个角点响应值R*R*来判断角点。RR的计算公式为:
那我们怎么判断角点呢?如下图所示:
- 当R为大数值的正数时是角点
- 当R为大数值的负数时是边界
- 当R为小数是认为是平坦区域
4.1.2 实现
在OpenCV中实现Hariis检测使用的API是:
1 | dst=cv.cornerHarris(src, blockSize, ksize, k) |
参数:
- img:数据类型为 float32 的输入图像。
- blockSize:角点检测中要考虑的邻域大小。
- ksize:sobel求导使用的核大小
- k :角点检测方程中的自由参数,取值参数为 [0.04,0.06].
示例:
1 | import cv2 as cv |
结果如下:
Harris角点检测的优缺点:
优点:
- 旋转不变性,椭圆转过一定角度但是其形状保持不变(特征值保持不变)
- 对于图像灰度的仿射变化具有部分的不变性,由于仅仅使用了图像的一介导数,对于图像灰度平移变化不变;对于图像灰度尺度变化不变
缺点:
- 对尺度很敏感,不具备几何尺度不变性。
- 提取的角点是像素级的
4.2 Shi-Tomasi角点检测
4.2.1 原理
Shi-Tomasi算法是对Harris角点检测算法的改进,一般会比Harris算法得到更好的角点。Harris 算法的角点响应函数是将矩阵 M 的行列式值与 M 的迹相减,利用差值判断是否为角点。后来Shi 和Tomasi 提出改进的方法是,若矩阵M的两个特征值中较小的一个大于阈值,则认为他是角点,即:
如下图所示:
从这幅图中,可以看出来只有当 λ1 和 λ 2 都大于最小值时,才被认为是角点
4.2.2 实现
在OpenCV中实现Shi-Tomasi角点检测使用API:
1 | corners = cv2.goodFeaturesToTrack ( image, maxcorners, qualityLevel, minDistance ) |
参数:
- Image: 输入灰度图像
- maxCorners : 获取角点数的数目。
- qualityLevel:该参数指出最低可接受的角点质量水平,在0-1之间。
- minDistance:角点之间最小的欧式距离,避免得到相邻特征点。
返回:
- Corners: 搜索到的角点,在这里所有低于质量水平的角点被排除掉,然后把合格的角点按质量排序,然后将质量较好的角点附近(小于最小欧式距离)的角点删掉,最后找到maxCorners个角点返回。
示例:
1 | import numpy as np |
4.3 SIFT/SURF算法
在OpenCV中利用SIFT检测关键点的流程如下所示:
1.实例化sift
1 | sift = cv.xfeatures2d.SIFT_create() |
2.利用sift.detectAndCompute()检测关键点并计算
1 | kp,des = sift.detectAndCompute(gray,None) |
参数:
- gray: 进行关键点检测的图像,注意是灰度图像
返回:
- kp: 关键点信息,包括位置,尺度,方向信息
- des: 关键点描述符,每个关键点对应128个梯度信息的特征向量
3.将关键点检测结果绘制在图像上
1 | cv.drawKeypoints(image, keypoints, outputimage, color, flags) |
参数:
- image: 原始图像
- keypoints:关键点信息,将其绘制在图像上
- outputimage:输出图片,可以是原始图像
- color:颜色设置,通过修改(b,g,r)的值,更改画笔的颜色,b=蓝色,g=绿色,r=红色。
- flags:绘图功能的标识设置
- cv2.DRAW_MATCHES_FLAGS_DEFAULT:创建输出图像矩阵,使用现存的输出图像绘制匹配对和特征点,对每一个关键点只绘制中间点
- cv2.DRAW_MATCHES_FLAGS_DRAW_OVER_OUTIMG:不创建输出图像矩阵,而是在输出图像上绘制匹配对
- cv2.DRAW_MATCHES_FLAGS_DRAW_RICH_KEYPOINTS:对每一个特征点绘制带大小和方向的关键点图形
- cv2.DRAW_MATCHES_FLAGS_NOT_DRAW_SINGLE_POINTS:单点的特征点不被绘制
SURF算法的应用与上述流程是一致,这里就不在赘述。
示例:
利用SIFT算法在中央电视台的图片上检测关键点,并将其绘制出来:
1 | import cv2 as cv |
4.4 Fast算法
OpenCV中的FAST检测算法是用传统方法实现的,
1.实例化fast
1 | fast = =cv.FastFeatureDetector_create( threshold, nonmaxSuppression) |
参数:
- threshold:阈值t,有默认值10
- nonmaxSuppression:是否进行非极大值抑制,默认值True
返回:
- Fast:创建的FastFeatureDetector对象
2.利用fast.detect检测关键点,没有对应的关键点描述
1 | kp = fast.detect(grayImg, None) |
参数:
- gray: 进行关键点检测的图像,注意是灰度图像
返回:
- kp: 关键点信息,包括位置,尺度,方向信息
3.将关键点检测结果绘制在图像上,与在sift中是一样的
1 | cv.drawKeypoints(image, keypoints, outputimage, color, flags) |
示例:
1 | import numpy as np |
结果:
4.5 ORB 算法
在OPenCV中实现ORB算法,使用的是:
1.实例化ORB
1 | orb = cv.xfeatures2d.orb_create(nfeatures) |
参数:
- nfeatures: 特征点的最大数量
2.利用orb.detectAndCompute()检测关键点并计算
1 | kp,des = orb.detectAndCompute(gray,None) |
参数:
- gray: 进行关键点检测的图像,注意是灰度图像
返回:
- kp: 关键点信息,包括位置,尺度,方向信息
- des: 关键点描述符,每个关键点BRIEF特征向量,二进制字符串,
3.将关键点检测结果绘制在图像上
1 | cv.drawKeypoints(image, keypoints, outputimage, color, flags) |
示例:
1 | import numpy as np |
五 视频操作
5.1 视频读取
从文件中读取视频并播放
- 读取视频:cap = cv.VideoCapture()
- 判断读取成功:cap.isOpened()
- 读取每一帧图像:ret,frame = cap.read()
- 获取属性:cap.get(proid)
- 设置属性:cap.set(proid,value)
- 资源释放:cap.release()
在OpenCV中我们要获取一个视频,需要创建一个VideoCapture对象,指定你要读取的视频文件:
创建读取视频的对象
1
cap = cv.VideoCapture(filepath)
参数:
- filepath: 视频文件路径
视频的属性信息
2.1. 获取视频的某些属性,
1
retval = cap.get(propId)
参数:
propId: 从0到18的数字,每个数字表示视频的属性
常用属性有:
2.2 修改视频的属性信息
1
cap.set(propId,value)
参数:
- proid: 属性的索引,与上面的表格相对应
- value: 修改后的属性值
判断图像是否读取成功
1
isornot = cap.isOpened()
- 若读取成功则返回true,否则返回False
获取视频的一帧图像
1
ret, frame = cap.read()
参数:
- ret: 若获取成功返回True,获取失败,返回False
- Frame: 获取到的某一帧的图像
调用cv.imshow()显示图像,在显示图像时使用cv.waitkey()设置适当的持续时间,如果太低视频会播放的非常快,如果太高就会播放的非常慢,通常情况下我们设置25ms就可以了。
最后,调用cap.realease()将视频释放掉
示例:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17import numpy as np
import cv2 as cv
# 1.获取视频对象
cap = cv.VideoCapture('DOG.wmv')
# 2.判断是否读取成功
while(cap.isOpened()):
# 3.获取每一帧图像
ret, frame = cap.read()
# 4. 获取成功显示图像
if ret == True:
cv.imshow('frame',frame)
# 5.每一帧间隔为25ms
if cv.waitKey(25) & 0xFF == ord('q'):
break
# 6.释放视频对象
cap.release()
cv.destoryAllwindows()
5.2 保存视频
- 保存视频: out = cv.VideoWrite()
- 视频写入:out.write()
- 资源释放:out.release()
在OpenCV中我们保存视频使用的是VedioWriter对象,在其中指定输出文件的名称,如下所示:
- 创建视频写入的对象
1 | out = cv2.VideoWriter(filename,fourcc, fps, frameSize) |
参数:
filename:视频保存的位置
fourcc:指定视频编解码器的4字节代码
fps:帧率
frameSize:帧大小
设置视频的编解码器,如下所示,
1
retval = cv2.VideoWriter_fourcc( c1, c2, c3, c4 )
参数:
c1,c2,c3,c4: 是视频编解码器的4字节代码,在fourcc.org中找到可用代码列表,与平台紧密相关,常用的有:
在Windows中:DIVX(.avi)
在OS中:MJPG(.mp4),DIVX(.avi),X264(.mkv)。
利用cap.read()获取视频中的每一帧图像,并使用out.write()将某一帧图像写入视频中。
使用cap.release()和out.release()释放资源。
示例:
1 | import cv2 as cv |
5.3 视频追踪
meanshift
原理:一个迭代的步骤,即先算出当前点的偏移均值,移动该点到其偏移均值,然后以此为新的起始点,继续移动,直到满足一定的条件结束。
API:cv.meanshift()
优缺点:简单,迭代次数少,但无法解决目标的遮挡问题并且不能适应运动目标的的形状和大小变化
camshift
原理:对meanshift算法的改进,首先应用meanshift,一旦meanshift收敛,它就会更新窗口的大小,还计算最佳拟合椭圆的方向,从而根据目标的位置和大小更新搜索窗口。
API:cv.camshift()
优缺点:可适应运动目标的大小形状的改变,具有较好的跟踪效果,但当背景色和目标颜色接近时,容易使目标的区域变大,最终有可能导致目标跟踪丢失
在OpenCV中实现Meanshift的API是:
1
cv.meanShift(probImage, window, criteria)
参数:
- probImage: ROI区域,即目标的直方图的反向投影
- window: 初始搜索窗口,就是定义ROI的rect
- criteria: 确定窗口搜索停止的准则,主要有迭代次数达到设置的最大值,窗口中心的漂移值大于某个设定的限值等。
实现Meanshift的主要流程是:
- 读取视频文件:cv.videoCapture()
- 感兴趣区域设置:获取第一帧图像,并设置目标区域,即感兴趣区域
- 计算直方图:计算感兴趣区域的HSV直方图,并进行归一化
- 目标追踪:设置窗口搜索停止条件,直方图反向投影,进行目标追踪,并在目标位置绘制矩形框。
示例:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50import numpy as np
import cv2 as cv
# 1.获取图像
cap = cv.VideoCapture('DOG.wmv')
# 2.获取第一帧图像,并指定目标位置
ret,frame = cap.read()
# 2.1 目标位置(行,高,列,宽)
r,h,c,w = 197,141,0,208
track_window = (c,r,w,h)
# 2.2 指定目标的感兴趣区域
roi = frame[r:r+h, c:c+w]
# 3. 计算直方图
# 3.1 转换色彩空间(HSV)
hsv_roi = cv.cvtColor(roi, cv.COLOR_BGR2HSV)
# 3.2 去除低亮度的值
# mask = cv.inRange(hsv_roi, np.array((0., 60.,32.)), np.array((180.,255.,255.)))
# 3.3 计算直方图
roi_hist = cv.calcHist([hsv_roi],[0],None,[180],[0,180])
# 3.4 归一化
cv.normalize(roi_hist,roi_hist,0,255,cv.NORM_MINMAX)
# 4. 目标追踪
# 4.1 设置窗口搜索终止条件:最大迭代次数,窗口中心漂移最小值
term_crit = ( cv.TERM_CRITERIA_EPS | cv.TERM_CRITERIA_COUNT, 10, 1 )
while(True):
# 4.2 获取每一帧图像
ret ,frame = cap.read()
if ret == True:
# 4.3 计算直方图的反向投影
hsv = cv.cvtColor(frame, cv.COLOR_BGR2HSV)
dst = cv.calcBackProject([hsv],[0],roi_hist,[0,180],1)
# 4.4 进行meanshift追踪
ret, track_window = cv.meanShift(dst, track_window, term_crit)
# 4.5 将追踪的位置绘制在视频上,并进行显示
x,y,w,h = track_window
img2 = cv.rectangle(frame, (x,y), (x+w,y+h), 255,2)
cv.imshow('frame',img2)
if cv.waitKey(60) & 0xFF == ord('q'):
break
else:
break
# 5. 资源释放
cap.release()
cv.destroyAllWindows()
下面是三帧图像的跟踪结果:
大家认真看下上面的结果,有一个问题,就是检测的窗口的大小是固定的,而狗狗由近及远是一个逐渐变小的过程,固定的窗口是不合适的。所以我们需要根据目标的大小和角度来对窗口的大小和角度进行修正。CamShift可以帮我们解决这个问题。
CamShift算法全称是“Continuously Adaptive Mean-Shift”(连续自适应MeanShift算法),是对MeanShift算法的改进算法,可随着跟踪目标的大小变化实时调整搜索窗口的大小,具有较好的跟踪效果。
Camshift算法首先应用meanshift,一旦meanshift收敛,它就会更新窗口的大小,还计算最佳拟合椭圆的方向,从而根据目标的位置和大小更新搜索窗口。
Camshift在OpenCV中实现时,只需将上述的meanshift函数改为Camshift函数即可:
将Camshift中的:
1 | # 4.4 进行meanshift追踪 |
改为:
1 | #进行camshift追踪 |
六 opencv人脸检测
opencv中人脸识别的流程是:
- 读取图片,并转换成灰度图
- 实例化人脸和眼睛检测的分类器对象
1 | # 实例化级联分类器 |
- 进行人脸和眼睛的检测
1 | rect = classifier.detectMultiScale(gray, scaleFactor, minNeighbors, minSize,maxsize) |
- 将检测结果绘制出来就可以了。
也可以在视频中进行人脸识别
OpenCV中自带已训练好的检测器,包括面部,眼睛,猫脸等,都保存在XML文件中,我们可以通过以下程序找到他们:
1 | import cv2 as cv |
找到的文件如下所示:
那我们就利用这些文件来识别人脸,眼睛等。检测流程如下:
读取图片,并转换成灰度图
实例化人脸和眼睛检测的分类器对象
1
2
3
4# 实例化级联分类器
classifier =cv.CascadeClassifier( "haarcascade_frontalface_default.xml" )
# 加载分类器
classifier.load('haarcascade_frontalface_default.xml')进行人脸和眼睛的检测
1
rect = classifier.detectMultiScale(gray, scaleFactor, minNeighbors, minSize,maxsize)
参数:
- Gray: 要进行检测的人脸图像
- scaleFactor: 前后两次扫描中,搜索窗口的比例系数
- minneighbors:目标至少被检测到minNeighbors次才会被认为是目标
- minsize和maxsize: 目标的最小尺寸和最大尺寸
将检测结果绘制出来就可以了。
主程序如下所示:
1 | import cv2 as cv |
我们也可在视频中对人脸进行检测:
1 | import cv2 as cv |