Recognition of Acetes chinensis fishing vessel based on 3-2D integration model behavior
-
摘要: 针对中国毛虾 (Acetes chinensis) 产量逐年锐减问题,中国开始对近海海域实施毛虾限额捕捞措施,采用视频监控技术辅助捕捞管理。提出一种基于3-2D融和模型的毛虾捕捞渔船行为识别方法,为限额捕捞管理提供新的解决方案。通过在毛虾渔船上4个固定位置安装高清摄像设备,并记录捕捞作业全过程,共获取600余个视频监控数据作为初始数据;从初始数据中筛选有效的视频数据,同时对视频数据进行5种行为的划分和标记。为了提高网络训练的效率,对视频数据进行压缩和帧数分割等预处理;最后,通过搭建3-2D融合的卷积神经网络来训练模型,实现渔船行为特征的提取和分类。结果表明,捕捞渔船行为识别方法的分类精度为95.35%,召回率为94.50%,平均精确度为96.60%,模型整体得分达93.32%,平均检测时间为35.46 ms·帧−1,可用于毛虾渔船捕捞视频的实时分析。Abstract: Since the yield of Acetes chinensis has decreased sharply year by year, China has begun to implement quota fishing measures for A. chinensis in offshore waters by using video surveillance technology to assist the fishing management. This paper proposes a method for identifying the behavior of A. chinensis fishing vessels based on the 3-2D fusion model, so as to provide a new solution for quota fishing management. By installing high-definition camera equipment at four fixed positions on the A. chinensis fishing vessel and recording the entire process of fishing operations, we had obtained more than 600 video surveillance data had been as initial data. Secondly, we filtered effective video data from the initial data, and divided and labeled them with five behaviors. In order to improve the efficiency of network training, we preprocessed the video data such as compression and frame number segmentation. Finally, the model was trained by building a 3-2D fusion convolutional neural network to realize the extraction and classification of fishing vessel behavior characteristics. The results show that the classification accuracy of the fishing vessel behavior recognition method was 95.35%; the recall rate was 94.50%; the average accuracy was 96.60%; the overall score of the model could reach 93.32%; and the average detection time was 35.46 ms·frame−1. The method can be used for real-time analysis of the fishing video of A. chinensis fishing boats.
-
Keywords:
- Acetes chinensis /
- Quota fishing /
- Deep learning /
- Convolutional neural network
-
中国毛虾 (Acetes chinensis) 又称虾皮,隶属于樱虾科、毛虾属,为浮游性小型虾类,分布于我国渤海、黄海、东海沿岸及南海北部沿岸,是我国重要的海洋经济渔业资源[1]。我国毛虾捕捞始于20世纪50年代,随着沿海经济的开放,捕捞量持续上升,从1958年起(1.25×106 t)持续平稳上涨,1964年骤降至6.54×105 t,之后连续20年缓慢增长至1985年的2.09×105 t;而后开始迅速增长,至2016年达到7.2×105 t,此后捕捞量骤降,2018年降至4.25×105 t[2]。2020年起,为了保护毛虾资源、实现生态循环可持续发展的战略目的,我国开始实行毛虾限额捕捞[3-4]。
深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能,目前应用最广的是卷积神经网络系统 (Convolutional neural networks, CNN),其在文字、语音、图片和视频等领域应用广泛,取得了很大的进步,正逐渐深入到海洋等研究领域中[5]。近年来,卷积神经网络在特征学习方面应用众多,各种预训练卷积网络 (ConvNets) 模型被用于提取图像特征。这些图像特征产生于网络最后几个全连接层的激活值,在迁移学习任务中表现良好。但由于缺少运动建模,基于图像的深度特征并不能直接适用于视频[6-7]。基于深度学习的行为识别技术中最重要的就是行为识别网络,行为识别网络通常以视频流为数据源,综合考察一个时间序列上的图像信息,继而实现一个完整的行为识别[8]。在深度学习应用于该领域前,耿家利[9]使用渔船监控系统 (Vessel Monitoring System, VMS) 存储的轨迹数据,利用Fisher判别模型对渔船各种行为对应的轨迹模式进行特征提取,并建立判别模型,依据渔船当前的轨迹数据自动判断渔船的作业行为。Zhang等[10]主要依靠船速、航行时间及渔船轨迹和捕捞努力量等,对捕捞渔船行为进行了识别和分析,并对捕捞产量及资源空间分布进行了统计。
基于深度学习的行为识别方法中,宁耀[11]首次提出了基于卷积长短期记忆神经网络 (Convolutional LSTM Network, ConvLSTM) 的渔船行为识别方法,该方法通过CNN搭建了4次卷积操作和1次池化操作并对LSTM层进行特征时间相关性学习,最终经过2次全连接层和Softmax层得到渔船行为的分类结果。Tran等[12]认为2D卷积神经网络不能很好捕获时序信息,因此,提出了C3D (Convolutional 3D) 卷积神经网络,采用了小卷积核进行特征提取,并得到比2D更好的分类结果。Carreira[13]基于Inception-V1模型,将2D卷积扩展到3D卷积,提出了I3D模型,但该模型参数量巨大,对硬件要求较高。
传统的捕捞渔船行为识别方法主要依靠船速、航行时间和轨迹进行判断,具有一定的局限性,而深度学习在目标检测和识别领域有较为突出的表现及应用前景[14-19]。本文搭建了一种3-2D融合的卷积神经网络模型,利用采集到的捕捞渔船视频数据,经过筛选、标记及压缩、分割等预处理后,通过训练模型实现捕捞渔船视频数据行为特征的提取和分类。
1. 材料与方法
1.1 毛虾限额捕捞张网作业
根据《2021年伏休期间特殊经济品种专项捕捞许可和捕捞辅助船配套服务安排的公示》,毛虾限额捕捞点为辽宁、山东、江苏三地海域[20]。限额捕捞时间为2021年6月15日—7月15日,本文毛虾捕捞渔船长36.9 m、吨位160 t、主机功率220 kW,网具为张网 (一口网的囊袋是3~5个) (图1)。
1.2 捕捞渔船拍摄数据
本研究利用型号为DS-2CD7A47EWD-XZS (D)的海康威视高清摄像头进行4个方向的拍摄,4个摄像头的分辨均为2560×1440 (图2);其中,在前甲板驾驶舱上方安装2个摄像头分别为Camera 01和Camera 03,后甲板安装Camera 02,前甲板旗杆上安装Camera 04,Camera 01和Camera 03分别从左、右2个角度拍摄了作业人员的后方、收放网以及铁锚的状态,Camera 04主要拍摄人员正方向、铁锚、绞机及收放网状态的操作,这3个摄像头从不同角度记录了捕捞作业方式的全过程,而Camera 02作为辅助,主要拍摄后甲板其他船只的停靠和行驶,作为捕捞渔船停靠和行驶的判断依据之一,拍摄时段为6月17日—7月7日。
1.3 捕捞渔船行为划分
捕捞渔船一般在白天作业,有时等待收网时间较长,偶尔也在晚上作业。为了保证数据的有效性,剔除晚上无作业或晚上停船等行为的视频,本文将毛虾捕捞渔船划分为5种行为 (图3):Behavior 1代表停靠码头,渔船旁有明显的码头和人员,周边有同样靠岸的渔船;Behavior 2代表渔船航行,左右两侧浪花明显,且尚未下张网;Behavior 3代表下网,捕捞渔船左侧有明显浪花说明船在航行,同时前甲板上人员开始下网;Behavior 4代表收网,捕捞渔船停在海中,且前甲板船员开始用绞机和人工进行收网;Behavior 5代表等待,捕捞渔船停在海中静止,且前甲板上没有张网,船员也陆续离开前甲板。其中,下网约30 min,收网约2 h,每天下网3~4次,出海作业共计20 d。
1.4 数据处理
对摄像头下载的数据进行分割、裁剪处理,按捕捞渔船行为划分为时间长短不一的视频数据,作为训练、验证、测试模型的数据集。渔船的5种行为对应4个摄像头视频数量如图4,其中Camera 02位于后甲板,因此摄像头不能拍摄下网和收网的全过程。
针对数据不均匀且渔船为了节约用电经常关停摄像头等问题,需要对数据进行人工筛选,剔除模糊不清和断帧的数据,将4个摄像头数据整合进行重新统计。如表1所示,共使用视频数据集:停靠90个、航行110个、下网110个、收网110个、等待80个;样本数据集相对均匀。使用PotPlayer软件进行帧数读取和txt文本对数据进行记录。分别记录视频路径、帧数和捕捞渔船标签并标记出每个数字对应的行为状态 (表2,仅列出部分数据供参考了解标签格式)。由于1个视频中会出现多个状态,因此视频帧数需要衔接,如表2中第2和第3行表示对同1个视频进行行为划分,其中0~11 940帧代表航行状态,11 940~50 093帧表示下网状态,分别在文本中记录这两条数据。视频数据标记完成后,将其分割成每100帧为一个批次,并在txt文本中记录该信息,因此可统计到5种行为视频数据的批次图 (图5)。
表 1 选用视频数据Table 1. Selection of video data渔船标签
Fishing vessel label渔船行为
Fishing vessel behavior渔船视频数量
Number of fishing vessel videos/个0 停靠 Dock 90 1 航行 Sail 110 2 下网 Cast net 110 3 收网 Put away net 110 4 等待 Wait 80 表 2 制作数据标签Table 2. Production of data labels视频路径
Video path视频帧数
Video frames捕捞渔船标签
Fishing vessel label行为状态
Behavioral statesyy/d01/D01_20210617171455.mp4 0~13 230 0 停靠 Dock syy/d01/D01_20210620043651.mp4 0~11 940 1 航行 Sail syy/d01/D01_20210620043651.mp4 11 940~50 093 2 下网 Cast net syy/d01/D01_20210630181131.mp4 0~69 301 3 收网 Put away net syy/d01/D01_20210620061938.mp4 0~4 330 4 等待 Wait 由于摄像头拍摄的是1 080 p的高清视频数据,会使得需要的网络结构更复杂,还会出现训练时间过长及超参数等问题。因此将视频数据进行二次处理,压缩成大小为256
$ \times $ 256像素,在减小网络训练压力的同时提升训练速度。1.5 基于3-2D融合模型的行为提取
本文使用3-2D融和模型来学习时空特征,如图6所示为搭建的网络结构图,模型包含1个3D卷积层、6个2D卷积层、1个1D卷积层以及2个全连接层和分类层 (Softmax)。
在第1卷积层,首先进行3D网络卷积,网络输入为2
$ \times $ 100$ \times $ 256$ \times $ 256$ \times $ 3的结构,即每批大小 (batch_size) 为2,也就是每次输入2个视频,每次处理100帧数据,每帧输入图像大小为256$ \times $ 256,其中图像为RGB 3种颜色的彩色图像故为3通道输入,进一步采用3$ \times $ 3$ \times $ 3的卷积核进行卷积初始输入通道为100输出200,步长为 (1,2,2) 使其降至二维处理,且经过批量归一化 (Batch normalization, BN)[21]处理以及带参数的线性修正单元 (Parametric rectified linear unit, PRelu)[22]作为激活函数。在第2—第7层,依次进行6次2D卷积使用3
$ \times $ 3卷积核、步长为 (2,2),进一步提取到特征,输出2$ \times $ 1 000$ \times $ 2$ \times $ 2,使得图像尺寸降至2$ \times $ 2,之后进行BN层和PRelu激活。在第8层,经过1次全连接和BN以及PRelu使得尺寸降低至1
$ \times $ 1,最后经过1次全连接层和分类层输出各个视频所属的行为状态。其中分类层采用了Softmax函数计算捕捞行为的概率值,其表达式为[23]:$$ \begin{split} {S}_{i}=\dfrac{{{\rm{e}}}^{{v}_{i}}}{{\sum }_{j=1}^{c}{{\rm{e}}}^{{v}_{j}}} \end{split}$$ (1) 式中:
$ {v}_{i} $ 为第i个节点的输出值;$ {v}_{j} $ 为第j个节点的输出值;c为总的类别个数;假设当前索引为i,则$ {S}_{i} $ 为当前类别节点输出指数与所有类别节点输出指数和的比值,即当前捕捞渔船行为的判断概率值。BN通过将每一层网络的输入进行归一化操作,保证输入分布的均值与方差固定在一定范围内,减少了网络中的内部协变量偏移问题,并在一定程度上缓解了梯度消失,加速了模型收敛。由于BN在总体样本中引入了随机噪声,这不仅使得模型具有正则化效果,也使得网络的参数和激活函数等更具鲁棒性。其主要核心思想表达式为[24]:
$$ {\widehat{x}}_{i}=\dfrac{{x}_{i}-\mu }{\sqrt{{\textit{σ} }^{2}+\varepsilon }}$$ (2) 式中:
$ {x}_{i} $ 为原始输入数据;$ \mu $ 为均值;${\textit{σ}}^{2}$ 为方差;$ \varepsilon $ 为标准差;$ {\widehat{x}}_{i} $ 为经过标准化后的数据。在过去的几年,线性修正单元 (Rectified Linear Unit, ReLU) 常在卷积神经网络中当作激活函数使用,其表达式为:
$$ \begin{array}{c}f\left(x\right)=\left\{\begin{array}{c}\begin{array}{cc} x& x > 0\end{array}\\ \begin{array}{cc} 0& x \leqslant 0\end{array}\end{array}\right.\end{array} $$ (3) ReLU函数将所有的数据变换为不小于0的数,这样使得计算更加方便,并且由于其计算复杂度低且没有指数等运算的优点,要比其他激活函数计算速度快。但是由于ReLU在x<0时梯度为0,这样就导致负的梯度在经过ReLU函数时被设为0,而且该神经元可能不再会被任何数据激活。如果发生该情况,那么该神经元之后的梯度将永远为0,也就是ReLU神经元已坏死,不再对任何数据有所响应,被称之为“硬饱和问题”,因此针对这种情况,PRelu函数做了很好地优化,其公式表达式为[25]:
$$ \begin{array}{c}f\left({y}_{i}\right)=\left\{\begin{array}{c}\begin{array}{cc} {y}_{i}& {y}_{i} > 0\end{array}\\ \begin{array}{cc} {a}_{i}{y}_{i}& {y}_{i}\leqslant 0\end{array}\end{array}\right.\end{array} $$ (4) 式中:
$ {a}_{i} $ 是一个初始参数,且在给定范围内随机抽取的值,在训练的短时间内即可稳定下来。该函数成功解决了负数问题,使得负梯度被很好地应用于模型训练,解决了梯度的“硬饱和问题”,因此本文选择PRelu作为激活函数。将渔船采集好的视频数据,输入到已搭建的3-2D融合模型,经过240 h可以得到模型结果。
2. 结果
本文在ubuntu系统20.04版本的远程服务器上运行,环境为Python 3.6、CUDA 10.1,以及pytroch 1.4.0深度学习平台。其硬件配置为NVIDIA Tesla V100S-PCIE,运行内存为32 GB。输入视频数据像素大小为256
$ \times $ 256,初始学习率设置为0.001,分为5类,使用5个进程同时运行,批处理 (batch) 设置为8,每经过105次迭代将学习率降低0.01%,数据使用8∶2随机选取进行训练和测试,经过1.1×106次迭代得到最终渔船行为模型。2.1 评价指标
在深度学习模型中,本文主要采用召回率 (Prec)、精确率 (Ppre)、损失率 (Ploss)[26]、平衡F分数 (PF1)、查准率和查全率 (P-R) 曲线[27]及平均精确度 (PAP) 等指标对模型进行评价。
以下各个指标计算公式主要用到4个数据:NTP、NFP、NTN和NFN。NTP即True Positive,指将正样本正确预测出来的数量;NFP即False Positive,指将负样本错误预测为正样本的数量;NTN即True Negative,指将负样本正确预测出来的数量;NFN 即False Negative,指将正样本预测为负样本的数量[28-31]。
Prec是正确预测出来的正样本数量和所有的正样本数量的比率,其表达式为:
$$ \begin{array}{c}{P}_{\rm{r}\rm{e}\rm{c}}=\dfrac{{N}_{\rm{T}\rm{P}}}{{N}_{\rm{T}\rm{P}}+{N}_{\rm{F}\rm{N}}}\end{array} $$ (5) Ppre指正确预测出来的正样本数量占所有预测出来的正样本数量的比率,其表达式为:
$$ \begin{array}{c}{P}_{\rm{p}\rm{r}\rm{e}}=\dfrac{{N}_{\rm{T}\rm{P}}}{{N}_{\rm{T}\rm{P}}+{N}_{\rm{F}\rm{P}}}\end{array} $$ (6) Ploss指真实值与预测值之间的差,损失值越小表示结果距离真实值越近,本文主要使用了交叉熵损失函数,其表达式为:
$$ \begin{array}{c}{P}_{\rm{l}\rm{o}\rm{s}\rm{s}}=-\sum _{x}\left(p\left(x\right)\rm{log}q\left(x\right)\right)\end{array} $$ (7) 式中:
$ q\left(x\right) $ 为取值;$ p\left(x\right) $ 为对应概率值。F1-score是Prec和Ppre的调和值,综合考虑了召回率和精确率对实验数据的影响,防止某一指标主导实验结果,其表达式为:
$$ \begin{array}{c}{P}_{\rm{F}1}=\dfrac{2{N}_{\rm{T}\rm{P}}}{2{N}_{\rm{T}\rm{P}}+{N}_{\rm{F}\rm{P}}+{N}_{\rm{F}\rm{N}}}\end{array} $$ (8) P-R曲线可以直观地显示出样本的精确率和查全率在总体数据上的关系。
AP是类别的精度的平均值,是模型评价的重要指标之一,其中AP主要是P-R曲线与坐标轴围成面积之和,其表达式如下:
$$ \begin{array}{c}{P}_{\rm{A}\rm{P}}={\int }_{0}^{1}p\left(r\right)dr \end{array} $$ (9) 式中:p(r)为函数P-R曲线函数。
2.2 实验结果
模型经过1.1×106次训练的结果如图7-a所示,该图显示了精度与迭代次数的关系,随着迭代次数增加到105次,模型识别视频数据行为类别的精度逐渐稳定在0.99以上;同理,图7-b显示了召回率和迭代次数的关系,同样在约105次时,模型的召回率即识别分类当中正确分类的已经稳定在0.98以上;图7-c显示了损失率与迭代次数的关系,随着迭代次数的增加,模型的损失率也逐渐降低,最终稳定在0.02以下。
图8显示了精度与召回率的关系,随着召回率的增加,精度逐渐下降,所以需要找到精度和召回率的一个平衡点,且曲线与坐标轴面积之和等于AP。因此,分别列出了几个主要指标对应训练和测试的结果,测试时间为35.46 ms·帧−1(表 3)。各个指标结果均表明该模型具有很好的泛化能力。
表 3 模型评价主要指标及结果Table 3. Main indicators and results of model evaluation指标
Index训练结果
Training result测试结果
Test result精度 Precision/% 99.60 95.35 召回率 Recall rate/% 99.63 94.50 平衡F分数 F1-Score/% 99.06 93.32 平均精确度 AP/% 98.70 96.60 时间 t/(ms·帧−1) — 35.46 为了验证实验结果的有效性,选取一段视频通过预处理进行测试分析,毛虾限额捕捞渔船的5种作业类别和对应判别的类别概率值见图9。
3. 讨论
捕捞渔船的行为划分对于限额捕捞研究具有重要意义。本文对2D和3D模型进行研究[32],分析总结出2D卷积神经网络在空间上并不能很好捕获时序信息,在时序较强的数据方面会丢失部分信息,造成模型的精度不高;而3D卷积神经网络分别在空间和时间上进行卷积,可以更好地保留数据的时空特征[33],因此精度够高,但由于参数量过大,使得训练速度较慢,尤其是在摄像头等限定模型大小的设备中,不易被广泛应用。因此本研究设计出两者结合的方式,既可保留数据的有效时序信息,又可加快训练速度,实现精度高和速度快的双重目标。
捕捞渔船行为识别既是水产学研究中的主要课题之一,又是限额捕捞的主要研究方向。传统的捕捞渔船研究方法是指基于船舶自动识别系统 (Automatic Identification System, AIS) 和VMS数据对捕捞渔船类别和行为进行识别,AIS和VMS主要记录了渔船的位置、航速、航向以及时间信息且连续自主的发送渔船信息,通过卫星中转获得渔船的实时信息,及时了解渔船的动态信息[34]。国外学者Kroodsma等[35]利用获取的AIS数据经过CNN 算法识别了包括拖网渔船、刺网渔船、延绳钓渔船等6种类型渔船,识别率最高可达95%。由于CNN算法自身的局限性容易引起过拟合现象,故卷积受到了网络限制,本实验与其相比精度提高了0.35%,且节约了大量的数据处理时间。Guan等[36]对南海北部基于AIS数据进行前期的数据处理和贝叶斯优化算法,选择出贡献率较大的多个特征,经过LightGBM模型训练得到最优的分类模型,但是由于模型自身缺陷对噪声点比较敏感或产生较深的决策树,因此易产生过拟合现象。裴凯洋等[37]依据捕捞渔船的作业原理和状态类别进行划分,利用BP神经网络将速度、角度和距离作为输入,输出渔船的行为类别;与之相比本研究采用了更深层次的网络且加入BN等层,大幅提升了网络训练速度且防止了过拟合现象的发生,整体精度提升了5.35%;相较于单独使用BP神经网络,精度提升明显。相比于传统的研究方法,本研究将更直观的视频方式输入到网络中,保留了数据的时序信息,使得捕捞渔船划分多个行为的信息和时间直接关联,并且在数据预处理过程中,可以剔除其他因素影响,如补给造成的停航问题等。但本研究仍存在一些不足,主要体现在研究的深度和广度方面,今后可基于AIS和VMS数据对资源分布、捕捞渔船作业方式、渔场预测、捕捞努力量和捕捞时长计算及其规律作进一步研究[38-40]。本研究更适用于快速确定捕捞渔船的行为类别,提高作业行为划分的准确度和效率。为了评估所提供方法的分类性能,本文研究了国内外不同学者的评估方法,从召回率、精确率、损失率、平衡F分数、查准率、查全率和平均精确度等多个方面进行了测试,所用模型对比已有模型在行为划分识别方面有较好的实验结果,在时空特征表示方面具有可行性和有效性。
捕捞渔船的行为划分,有助于精细化捕捞管理,捕捞行为可辅助管理控制分析。捕捞行为的精确划分,对捕捞管理有一定的促进作用,通过捕捞行为分析,可统计出下网、收网、中间等待等时间,提取渔船的捕捞网次,计算出出航一次的捕捞努力量。从管理层面出发,可根据捕捞渔船的行为规定出海捕鱼的时间、次数以及每次捕捞的时长,对限额捕捞可起到精准化控制的作用。此外,根据捕捞渔船行为划分,可以建立有效的渔业资源监测与评估体系。据此加强船员在捕捞方式和捕捞时长上的培训,并制定相关制度,加强对船员的管理。
本研究在实验推进中仍存在一些问题:1) 实验中一些复杂情况未及时划分,且标签受人为因素影响,不同人划分的行为存在一定差异,因此结果易受主观因素影响。2) 船上不可控因素较多,如船员的行为不受控制和夜间作业灯光等问题。傍晚,船员有时会出现在前甲板上运转机器且在微弱的灯光下作业,虽然持续时间短,但是这些因素易影响分类的准确性,从而影响实验结果。3) 前甲板上Camera 01和Camera 03安装的角度偏高,有时不能准确拍摄到下网的结束时间,因此给人工标记带来了一定困难,使实验结果存在一定误差。4) 限额捕捞同时受到了时空因素的影响,如拍摄数据中包含夜间作业,夜间的视频数据质量较差,对实验结果产生一定影响,同时受到渔获物容器位置的影响,多次从视频中看到渔获物较少甚至看不到渔获物,给渔获物的统计带来一定困难。5) 该模型虽然训练精度较高,也缩短了训练时间,但是由于服务器I/O读写效率低,使得实际训练时间较长,理论上训练时间可以缩短1/4。本研究依据部分船员的捕捞经验,将捕捞渔船的行为划分为5种,但是由于出海情况复杂多变,且没有更加完整健全的分类研究过程,因此分类还不够完善。现阶段仍主要依据船员的捕捞经验和筛选来划分渔船行为,使得模型经过训练获得相对准确的结果。
4. 结论
本文以捕捞渔船行为检测为出发点,采用4个摄像头拍摄渔船视频数据,结合2D和3D模型各自的优缺点,构建了3-2D融合的检测模型,提取了视频数据特征进行训练检测,解决了渔船行为分析的问题。通过验证,该模型有较好的实验结果,对我国渔业监控以及毛虾渔船的行为分析有重要意义和关键作用。
在研究过程中发现,设计思路时未考虑到铁锚的数量,因此该部分没有独自进行标签,在未来可以考虑统计铁锚的数量和张网在海里的作业时间等。其次,由于网络参数仍较多及网络训练次数过多的问题使得模型较大,无法业务化应用,未来实际应用时可以考虑更换较小的网络模型进行训练,同时添加多层网络,防止过拟合现象的发生。下一步工作中,将调整摄像头角度、重新安装摄像头,针对收集渔获进行定点拍摄,增加一个Behavior 6,作为渔船处理渔获物的行为,通过近似计算估计渔获物产量,为限额捕捞提供更丰富的数据参考。最后,网络可以通过引入增强模块 (Context enhancement module, CEM) 和空间注意力模块 (Spatial Attention Module, SAM) 使多尺度特征更加聚集,特征区分性也更加明显,从而使得模型更加完善。
-
表 1 选用视频数据
Table 1 Selection of video data
渔船标签
Fishing vessel label渔船行为
Fishing vessel behavior渔船视频数量
Number of fishing vessel videos/个0 停靠 Dock 90 1 航行 Sail 110 2 下网 Cast net 110 3 收网 Put away net 110 4 等待 Wait 80 表 2 制作数据标签
Table 2 Production of data labels
视频路径
Video path视频帧数
Video frames捕捞渔船标签
Fishing vessel label行为状态
Behavioral statesyy/d01/D01_20210617171455.mp4 0~13 230 0 停靠 Dock syy/d01/D01_20210620043651.mp4 0~11 940 1 航行 Sail syy/d01/D01_20210620043651.mp4 11 940~50 093 2 下网 Cast net syy/d01/D01_20210630181131.mp4 0~69 301 3 收网 Put away net syy/d01/D01_20210620061938.mp4 0~4 330 4 等待 Wait 表 3 模型评价主要指标及结果
Table 3 Main indicators and results of model evaluation
指标
Index训练结果
Training result测试结果
Test result精度 Precision/% 99.60 95.35 召回率 Recall rate/% 99.63 94.50 平衡F分数 F1-Score/% 99.06 93.32 平均精确度 AP/% 98.70 96.60 时间 t/(ms·帧−1) — 35.46 -
[1] 李国东, 仲霞铭, 熊瑛, 等. 基于北斗船位数据的渔业信息解译与应用研究——以中国毛虾限额捕捞管理为例[J]. 海洋与湖沼, 2021, 52(3): 746-753. doi: 10.11693/hyhz20201000288 [2] 农业农村部渔业渔政管理局, 全国水产技术推广总站, 中国水产学会. 2019年中国渔业统计年鉴[J]. 北京: 中国农业出版社, 2020: 2. [3] MULYANI S, VESTIYATI P M, ALAMSYAH H K, et al. Effect of differences in salt concentration on the quality of rebon shrimp paste (Acetes sp.) in Tegal district[J]. IOP Conf Ser:Earth Environ Sci, 2021, 755(1): 012051. doi: 10.1088/1755-1315/755/1/012051
[4] UNG T D, TRAN T Y N, NGUYEN N L, et al. Biochemical characteristics of small shrimp (Acetes japonicus) of varied sizes collected in Ben Tre Province, Vietnam[J]. IOP Conf Ser: Mater Sci Eng, 2021, 1092(1): 012080. doi: 10.1088/1757-899X/1092/1/012080
[5] 刘洋, 张胜茂, 王斐, 等. 海洋捕捞鱼类BigH神经网络分类模型设计与实现[J]. 工业控制计算机, 2021, 34(6): 18-20. doi: 10.3969/j.issn.1001-182X.2021.06.007 [6] 梁建胜, 温贺平. 基于深度学习的视频关键帧提取与视频检索[J]. 控制工程, 2019, 26(5): 965-970. [7] 蒋梦迪, 程江华, 陈明辉, 等. 视频和图像文本提取方法综述[J]. 计算机科学, 2017, 44(S2): 8-18. [8] 李秀智, 张冉, 贾松敏. 面向助老行为识别的三维卷积神经网络设计[J]. 北京工业大学学报, 2021, 47(6): 589-597. [9] 耿家利. 渔船轨迹大数据存储优化与行为识别技术研究[D]. 杭州: 杭州电子科技大学, 2018: 5-8 [10] ZHANG H, YANG S L, FAN W, et al. Spatial analysis of the fishing behaviour of tuna purse seiners in the western and central Pacific based on vessel trajectory date[J]. J Mar Sci Eng, 2021, 9(3): 322. doi: 10.3390/jmse9030322
[11] 宁耀. 基于深度学习的渔船行为识别方法研究[D]. 兰州: 兰州大学, 2020: 42-53. [12] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]. 2015 Proceedings of the IEEE International Conference on Computer Vision (ICCV), Santiago, Chile. New York: IEEE, 2015: 4489-4497.
[13] CARREIRA J, ZISSERMAN A. Quo vadis, action recognition? A new model and the kinetics dataset[C]. 2017 Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu HI, USA. New York: IEEE, 2017: 6299-6308.
[14] 王书献, 张胜茂, 朱文斌, 等. 基于深度学习YOLOV5网络模型的金枪鱼延绳钓电子监控系统目标检测应用[J]. 大连海洋大学学报, 2021, 36(5): 1-17. [15] 王书献, 孙永文, 张胜茂, 等. 基于卫星AIS远洋船位的热力图自动制图[J]. 渔业信息与战略, 2021, 36(1): 45-53. [16] 裴凯洋, 张胜茂, 樊伟, 等. 浙江省帆张网捕捞强度分布的提取方法[J]. 水产学报, 2020, 44(11): 1913-1925. [17] 张胜茂, 樊伟, 张衡, 等. 远洋捕捞渔船电子监控视频文字信息提取[J]. 渔业信息与战略, 2020, 35(2): 141-146. [18] 汤先峰, 张胜茂, 樊伟, 等. 基于深度学习的刺网与拖网作业类型识别研究[J]. 海洋渔业, 2020, 42(2): 233-244. doi: 10.3969/j.issn.1004-2490.2020.02.011 [19] 王书献, 张胜茂, 戴阳, 等. 利用声呐数据提取磷虾捕捞深度方法研究[J]. 南方水产科学, 2021, 17(4): 91-97. doi: 10.12131/20210020 [20] 农业农村部印发《通告》规定2021年伏休期间特殊经济品种专项捕捞许可[J]. 中国水产, 2021(6): 6-8. [21] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]. 2015 International conference on machine learning (ICML), Lille, France. San Diego, CA: JMLR-Journal Machine Learning Research, 2015: 448-456.
[22] HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing human-level performance on imagenet classification[C]. 2015 Proceedings of the IEEE International Conference on Computer Vision (ICCV), Santiago, Chile. New York: IEEE, 2015: 1026-1034.
[23] 崔雪森, 田晓清, 康伟, 等. 基于卷积神经网络的微藻种类识别[J]. 上海海洋大学学报, 2021, 30(4): 710-717. [24] 罗晨辉, 孙洪飞. 改进型的batch normalization: BNalpha[J]. 计算机应用研究, 2021, 38(6): 1870-1873. [25] WEI Q J, WANG W B. Research on image retrieval using deep convolutional neural network combining L1 regularization and PRelu activation function[J]. IOP Conf Ser: Earth Environ Sci, 2017, 69(1): 012156.
[26] 张胜茂, 刘洋, 樊伟, 等. 基于TensorFlow的水族馆鱼类目标检测APP开发[J]. 渔业现代化, 2020, 47(2): 60-67. doi: 10.3969/j.issn.1007-9580.2020.02.008 [27] 张超. P−R曲线与模型评估问题研究[J]. 现代信息科技, 2020, 4(4): 23-24. doi: 10.3969/j.issn.2096-4706.2020.04.007 [28] 陈冠宇. 基于深度学习的小目标检测方法研究[D]. 武汉: 中国地质大学, 2020: 27-29. [29] 马金涛. 基于深度学习的复杂环境目标检测方法研究[D]. 哈尔滨: 哈尔滨理工大学, 2021: 27-28. [30] 李琪. 基于深度学习的小目标检测方法研究[D]. 成都: 中国科学院大学 (中国科学院光电技术研究所), 2021: 13-14. [31] 赵亮, 胡杰, 刘汉, 等. 基于语义分割的深度学习激光点云3D目标检测算法[J]. 中国激光: 2021, 48(17): 171-183. [32] 李新德, 刘苗苗, 徐叶帆, 等. 一种基于2D和3D SIFT特征级融合的一般物体识别算法[J]. 电子学报, 2015, 43(11): 2277-2283. doi: 10.3969/j.issn.0372-2112.2015.11.021 [33] 卢元兵, 李华朋, 张树清. 基于混合3D-2D CNN的多时相遥感农作物分类[J]. 农业工程学报, 2021, 37(13): 142-151. doi: 10.11975/j.issn.1002-6819.2021.13.017 [34] 黄海广, 胡乃军, 仇志金, 等. 基于多源定位数据的实时船舶监控系统设计[J]. 中国海洋大学学报(自然科学版), 2015, 45(9): 122-129. [35] KROODSMA D A, MAYORGA J, HOCHBERG T, et al. Tracking the global footprint of fisheries[J]. Science, 2018, 359(6378): 904. doi: 10.1126/science.aao5646
[36] GUAN Y N, ZHANG J, ZHANG X, et al. Identification of fishing vessel types and analysis of seasonal activities in the northern South China Sea based on AIS Data: a case study of 2018[J]. Remote Sens, 2021, 13(10): 1952. doi: 10.3390/rs13101952
[37] 裴凯洋, 张胜茂, 樊伟, 等. 基于VMS的张网渔船捕捞努力量与网位坐标提取方法[J]. 上海海洋大学学报, 2021, 30(1): 179-188. [38] 朱浩朋, 伍玉梅, 唐峰华, 等. 采用卷积神经网络构建西北太平洋柔鱼渔场预报模型[J]. 农业工程学报, 2020, 36(24): 153-160,57. doi: 10.11975/j.issn.1002-6819.2020.24.018 [39] 范秀梅, 杨胜龙, 张胜茂, 等. 基于栖息地指数的阿拉伯海鲐鱼渔情预报模型构建[J]. 南方水产科学, 2020, 16(4): 8-17. doi: 10.12131/20190255 [40] 郑巧玲, 樊伟, 张胜茂, 等. 基于神经网络和VMS的渔船捕捞类型辨别[J]. 南方水产科学, 2016, 12(2): 81-87. doi: 10.3969/j.issn.2095-0780.2016.02.012 -
期刊类型引用(6)
1. 蔡润基,彭小红,叶双福,张天晨,高月芳,吕俊霖. 基于前后端生成概率密度图模型的虾苗自动计数. 南方水产科学. 2025(01): 173-184 . 本站查看
2. 宋一帆,张胜茂,张衡,唐峰华,张寒野,石永闯,崔雪森. X-ray在鱼体组织及微量元素检测中的应用. 应用光学. 2024(01): 166-176 . 百度学术
3. 李佳康,张胜茂,吴祖立,石永闯,唐峰华. 养殖水体中校色卡识别与色彩变化分析. 渔业信息与战略. 2024(01): 49-60 . 百度学术
4. 李鹏龙,张胜茂,沈烈,樊伟,顾家辉,邹国华. 具有双层路由注意力机制的YOLOv8血鹦鹉目标检测与追踪方法. 大连海洋大学学报. 2024(02): 318-326 . 百度学术
5. 赵斌,李成林. 水产业采捕装备发展现状与提升对策. 中国海洋经济. 2024(02): 143-156+221-222 . 百度学术
6. 孙月莹,陈俊霖,张胜茂,王书献,熊瑛,樊伟. 基于改进YOLOv7的毛虾捕捞渔船作业目标检测与计数方法. 农业工程学报. 2023(10): 151-162 . 百度学术
其他类型引用(2)