基于集成学习的南太平洋长鳍金枪鱼渔场预报模型研究

侯娟, 周为峰, 樊伟, 张衡

侯娟, 周为峰, 樊伟, 张衡. 基于集成学习的南太平洋长鳍金枪鱼渔场预报模型研究[J]. 南方水产科学, 2020, 16(5): 42-50. DOI: 10.12131/20200022
引用本文: 侯娟, 周为峰, 樊伟, 张衡. 基于集成学习的南太平洋长鳍金枪鱼渔场预报模型研究[J]. 南方水产科学, 2020, 16(5): 42-50. DOI: 10.12131/20200022
HOU Juan, ZHOU Weifeng, FAN Wei, ZHANG Heng. Research on fishing grounds forecasting models of albacore tuna based on ensemble learning in South Pacific[J]. South China Fisheries Science, 2020, 16(5): 42-50. DOI: 10.12131/20200022
Citation: HOU Juan, ZHOU Weifeng, FAN Wei, ZHANG Heng. Research on fishing grounds forecasting models of albacore tuna based on ensemble learning in South Pacific[J]. South China Fisheries Science, 2020, 16(5): 42-50. DOI: 10.12131/20200022

基于集成学习的南太平洋长鳍金枪鱼渔场预报模型研究

基金项目: 国家重点研发计划项目 (2019YFD0901405);国家自然科学基金项目 (31602206);上海市自然科学基金项目 (16ZR1444700)
详细信息
    作者简介:

    侯 娟 (1994—),女,硕士研究生,研究方向为渔场预报和海洋渔业地理信息系统。E-mail: houjj333@163.com

    通讯作者:

    周为峰 (1978—),女,博士,副研究员,从事渔场海洋学研究。E-mail: zhwfzhwf@163.com

  • 中图分类号: S 931.3

Research on fishing grounds forecasting models of albacore tuna based on ensemble learning in South Pacific

  • 摘要:

    文章利用2008—2015年南太平洋长鳍金枪鱼 (Thunnus alalunga) 延绳钓渔业数据,结合11个环境指标 (海表温度、叶绿素a (Chl-a)浓度、海表温度距平、叶绿素距平、海表温度梯度、叶绿素梯度、海平面异常以及渔区格网对应的前后各1个月海表温度和叶绿素值) 和3个时空指标 (月、经度和纬度),并基于6种集成学习模型,以月为时间分辨率、0.5°×0.5°为空间分辨率,开展了南太平洋长鳍金枪鱼渔场模型构建和预报研究。模型通过10折交叉验证和网格搜索思想确定最佳参数,采用的随机森林、Bagging决策树、C5.0决策树、梯度提升决策树、AdaBoost、Stacking集成模型分别取得了75.52%、73.87%、72.99%、71.14%、71.33%、75.84%的分类准确率。经对比,Stacking集成模型准确率最高。利用2015年环境数据进行预报精度检验,预报总体准确率为63.86%~82.14%,平均70.99%;高单位捕捞努力量渔获量 (Catch per unit effort, CPUE) 渔区预报准确率为62.71%~97.85%,平均78.76%。结果表明Stacking集成模型对南太平洋长鳍金枪鱼渔场的预报具有较好的效果及可行性。

    Abstract:

    According to the data of longline fishing of Thunnus alalunga in the South Pacific Ocean from 2008 to 2015, we investigated  11 environmental indicators (sea surface temperature, chlorophyll a concentration, sea surface temperature anomaly, chlorophyll anomaly, sea surface temperature gradient, chlorophyll gradient, sea level anomaly, and sea surface temperature and chlorophyll values one month before and after the corresponding fishing area grid) and three spatio-temporal indicators (month, longitude and latitude).  Besides, based on six integrated learning models, taking month as time resolution and 0.5°×0.5° as space resolution, we carried out the model construction and prediction of T. alalunga fishery in the South Pacific. The optimal parameters of the model are determined by 10 fold cross validation and grid search. The accurary rates of RF (Random forest), Treebag, C5.0 decision tree, GBDT (Gradient boosting decision tree), AdaBoost (Adaptive boosting) and Stacking integration model were 75.52%, 73.87%, 72.99%, 71.14%, 71.33% and 75.84 %, respectively. The Stacking integration model had the highest accuracy. We used 2015 environmental data to test the forecast accuracy, and find that the overall forecast accuracy was 63.86%−82.14%, with an average of 70.99%; the forecast accuracy of catch per unit effort (CPUE) fishing area was 62.71%−97.85%, with an average of 78.76%. The results show that the Stacking integration model has a good effect and feasibility on the prediction of T. alalunga fishery in the South Pacific.

  • 长鳍金枪鱼 (Thunnus alalunga) 是一种大洋性高度洄游鱼类,其营养价值和经济价值高,资源丰富[1-2],广泛分布于全球温带及热带海域,其中南太平洋是中国进行长鳍金枪鱼捕捞生产的重要海域之一[3],准确预报其中心渔场可有效提高中国金枪鱼渔业生产水平。目前,国内外学者在南太平洋长鳍金枪鱼渔场环境方面的研究主要集中在渔场与海水温度、叶绿素a (Chl-a) 浓度和海面高度关系等[4-11]。樊伟等[2]研究了南太平洋延绳钓长鳍金枪鱼渔获量分布与海表温度 (Sea surface temperature, SST) 的关系,指出多数渔区平均SST为22~29 ℃;闫敏等[10]对南太平洋渔场附近Chl-a浓度进行了分析,结果显示最适Chl-a质量浓度介于0.02~0.08 mg·m−3;范江涛[12]报道了渔场单位捕捞努力量渔获量 (Catch per unit effort, CPUE) 与海面高度的关系。然而,用于渔场预报的模型和方法较少,主要有人工神经网络模型 (Artificial neural network, ANN)[13]、栖息地适应性指数 (Habitat suitability index, HSI) 模型[1, 14-15]的应用。其他海域渔场预报有贝叶斯概率 (Bayesian analysis, BA) 模型[16-17]、广义加性模型 (Generalized additive model, GAM)[18-19]、支持向量机 (Support vector machine, SVM)[20]、范例推理 (Case-based reasoning, CBR)[18, 21]等。可见,现有预报大多是利用单一模型结合环境和渔业数据进行,很容易陷入过拟合而降低模型的泛化能力[22-23]。此外,环境因素虽然可以作为建立预报模型的重要指标,但由于海洋渔业信息本身的模糊性、复杂性和不精确性,变量之间的关系有时不是一个函数或者几个变量就可以描述,在实际模型构建中,确定的单一数学模型具有一定的局限性[24]

    集成学习 (Ensemble learning) [25]是机器学习中一种构建分类和回归预测模型的策略,按照一定的规则将多个学习器进行组合,得到一个稳定且性能表现优于单一学习器的模型。通过多个学习器间的差异来提高泛化性能和预测精度,每个弱学习器的单一偏好不会处于主导地位,降低了过拟合风险。目前已有学者将随机森林 (Random forest, RF)[26]和梯度提升树 (Gradient boosting decision tree, GBDT)[27]应用于印度洋长鳍金枪鱼和东、黄海鲐鱼 (Scomber japonicus) 的渔场预报研究。考虑到渔场数据获取和渔场环境间时空非线性关系,本文根据2008—2015年南太平洋长鳍金枪鱼渔业数据,选取与渔场相关的11个环境指标 [SST、Chl-a浓度、海表温度距平 (ΔSST)、叶绿素距平 (ΔChla)、海表温度梯度 (SSTG)、叶绿素梯度 (ChlaG)、海平面异常数据 (Sea level anomal, SLA) 及渔区格网对应的前后各1个月海表温度和叶绿素值] 和3个时空指标 (月、经度和纬度),综合利用集成学习算法中的RF、Bagging决策树 (Treebag)、C5.0决策树、GBDT、AdaBoost (Adaptive boosting)、Stacking集成模型共6种模型开展了南太平洋长鳍金枪鱼渔场预报,并对比选出准确率最高的模型,可为南太平洋长鳍金枪鱼渔场预报提供理论支撑,也可为其他鱼类资源渔场的预报提供参考。

    所用数据主要有渔业生产和海洋环境数据。渔业生产数据来自中水集团43艘远洋延绳钓渔船渔捞日志,包括船名、作业日期 (年/月/日)、作业位置 (经度、纬度)、渔获信息 (鱼种、产量、尾数和下钩数等),作业范围为150°E—160°W、0°—30°S (图1)。考虑到数据质量、模型构建及精度检验的需要,本文选取了2008—2015年的数据。

    图  1  南太平洋长鳍金枪鱼渔场范围示意图
    Figure  1.  Map of fishing grounds of T. alalunga in South Pacific

    海洋环境数据选用SST、Chl-a浓度和SLA。SST和Chl-a浓度来源于美国国家海洋和大气局 (National Oceanic and Atmospheric Administration, NOAA) 下属的Ocean Watch网站 (https://oceanwatch.pifsc.noaa.gov),SLA来源于AVISO网站 (https://www.aviso.oceanobs.com),时间分辨率均为月,为2008—2015年共8年,其中SST空间分辨率为1/24°×1/24° (约4 km),Chl-a空间分辨率为0.05°×0.05°,SLA空间分辨率为0.25°×0.25°。为了与渔获数据进行匹配,将环境数据分辨率统一为0.5°×0.5°的空间格网。

    所有数据分为两部分,2008—2014年数据作为模型构建数据,2015年数据作为模型预报精度检验数据。

    1) CPUE计算。本文以经纬度0.5°×0.5°进行渔区划分,按月对其作业位置、尾数和放钩数进行统计,计算各渔区内CPUE[28],公式为:

    $$ {{\rm{CPUE}}}_{\left(i,j\right)}=\frac{{N}_{fish\left(i,j\right)}\times 1\;000}{{N}_{hook\left(i,j\right)}} $$ (1)

    其中$ {{\rm{CPUE}}}_{(i,j)} $$ {N}_{fish\left(i,j\right)} $$ {N}_{hook\left(i,j\right)} $表示第i个经度、第j个纬度所处渔区格网的月平均CPUE (尾·千钩−1)、月渔获总尾数、月总投钩数。为了适应模型的需要、实现渔业生产最大化,计算了各月各渔区格网内所有CPUE值的三分位数,将渔区划分为两类,将大于第一三分位数Q1 (33.67%) 的CPUE称为高值CPUE,其所在渔区定义为南太平洋长鳍金枪鱼中心渔场。2008—2014年生产数据按0.5°×0.5°划分渔区格网,CPUE样本总数为10 301个,三分位数划分为Q1=8.77尾·千钩−1,Q2=15.85尾·千钩−1

    2) 样本组成。考虑到环境对鱼类生长影响的滞后性[29],在匹配渔获数据所在格网当前月份对应的海表温度和叶绿素值的同时,提取了前后各一个月对应的海表温度 (SST_bf、SST_af) 和叶绿素值 (Chla_bf、Chla_af) 作为预测变量来增大样本间差异。并计算了SST和Chl-a衍生变量 (ΔSST[26]、SSTG[14, 20, 30]、ΔChla[26]和ChlaG[20])。因此,样本数据集输入变量包括月份 (m)、经/纬度 (Lon/Lat)、SST、Chla、SST_bf、SST_af、ΔSST、SSTG、Chla_bf、Chla_af、ΔChla、ChlaG和SLA共14种输入变量,输出变量为CPUE所属类别:YES (高CPUE渔区) 或NO (低CPUE渔区)。

    $ {\Delta {\rm{SST}}}_{i,j} $$\Delta {\rm{Chla}}{_{ij}}$${\rm{SST}}{{\rm{G}}_{ij}}$${\rm{Chl}}{\rm{a}}{{\rm{G}}_{ij}}$计算公式为:

    $$\Delta {\rm{SS}}{{\rm{T}}_{i,j}} = {\rm{SS}}{{\rm{T}}_{i,j}} - {\overline {{\rm{SST}}} _{i,j}}$$ (2)
    $$\Delta {\rm{Chl}}{{\rm{a}}_{i,j}} = {\rm{Chl}}{{\rm{a}}_{i,j}} - {\overline {{\rm{Chl}}{\rm{a}}} _{i,j}}$$ (3)
    $$ \begin{array}{c} {\rm{SSTG}}_{{i,j}}{=}\\\sqrt{{\left[\left({{{\rm{SST}}}}_{{i+1,j}}-{}{{{\rm{SST}}}}_{{i-1,j}}\right){/}{\varDelta y}\right]}^{{2}}{+}{\left[\left({{{\rm{SST}}}}_{{i,j+1}}-{{{\rm{SST}}}}_{{i,j-1}}\right){/}{\varDelta x}\right]}^{{2}}} \end{array}$$ (4)
    $$ \begin{array}{c} {{\rm Chl}{\rm aG}}_{{i,j}}{=}\\\sqrt{{\left[\left({{{\rm{Chl}}}{}{{\rm{a}}}}_{{i+1,j}}{-}{{{\rm{Chl}}}{}{{\rm{a}}}}_{{i-1,j}}\right){/}{\varDelta y}\right]}^{{2}}{+}{\left[\left({{{\rm{Chl}}}{}{{\rm{a}}}}_{{i,j+1}}{-}{{{\rm{Chl}}}{}{{\rm{a}}}}_{{i,j-1}}\right){/}{\varDelta x}\right]}^{{2}}} \end{array}$$ (5)

    式 (2)、(3) 中,ij为渔区所在的行、列号,$ {{{\rm{SST}}}}_{{{\rm{i}},j}} $${{{\rm{Chl}}}{{\rm{a}}}}_{{i,j-1}}$为该渔区对应的SST和叶绿素值,${\overline {{\rm{SST}}} _{i,j}}$${\overline {{\rm{Chl}}{\rm{a}}} _{i,j}}$分别为该渔区在2008—2014年的月平均SST和叶绿素值;式 (4)、(5) 中,$ {{{\rm{SST}}}}_{{i \pm 1,j}} $$ {{{\rm{SST}}}}_{{i,j \pm 1}} $为该渔区上、下、左、右4个格网对应SST,${{{\rm{Chl}}}{{\rm{a}}}}_{{i \pm 1,j}}$${{{\rm{Chl}}}{{\rm{a}}}}_{{i,j \pm 1}}$为该渔区上、下、左、右4个格网对应叶绿素值,$ \Delta x $为在经度方向的分辨率,$ \Delta y $为在纬度方向的分辨率(°)。数据预处理用Python语言实现。

    与传统的单一学习器不同,集成学习模型是利用一定方式更改初始训练样本的分布,构建不同的基学习器,并通过一定策略组合得到一个更强的学习器,提升了学习器的性能。最经典的算法为Bagging (Boostrap aggregating)、Boosting、Stacking3种[25],目前已被广泛应用于各个领域。

    Bagging算法通过Bootstrap自助采样的方式,抽取不同的训练子集,再分别用不同的训练子集建立个体学习器,最后将其组合为整体。代表算法是RF,其是在Bagging基础上,以决策树为基学习器,进一步在训练过程中引入了随机特征的选择,即在每个节点分裂过程中的特征随机选择,泛化能力强且实现简单[26]。而Treebag算法进行n次Bootstrap采样得到n个训练子集,使用相同的算法建立决策树,与RF的区别在于没有进行特征选择。

    Boosting算法通过分布迭代的方式构建模型,每个模型学习并修正上一个模型错判的样本。代表算法有AdaBoost和GBDT。AdaBoost[31]首先为每个样本赋予相同的权重,训练得到初始分类器,分错的样本被赋予更高的权重继续下一轮训练,n次迭代后得到n个基分类器,将其组合得到最终分类器。GBDT[32]是在每一轮迭代中,计算当前模型损失函数的负梯度方向,再乘以一定的步长 (即学习速率),加到当前模型中形成此轮迭代新模型,相比上轮模型,均可使损失函数更小。AdaBoost是直接通过提升错分数据点的权重来弥补模型的不足,而GBDT通过算梯度来弥补,每一步的残差计算实际上也是变相地增大被分错样本的权重[32]。C5.0算法[33]采用Boosting方式提高模型准确率,又称为BoostingTrees[27]

    Stacking算法是指训练一个用于组合多个个体学习器的模型,学习如何把各个模型组合达到最优性能。本文采用GLM线性模型对上述RF、Treebag、AdaBoost、C5.0模型和K最近邻 (K-nearest neighbor, KNN) 模型进行了组合。利用R语言caret包进行建模。

    在进行建模时需要对模型参数进行优化。在caret包中主要函数命令为train,本文method选择repeatedcv重抽样方法,number选择10,repeats选择3,即为重复3次10折交叉验证。其中10折为将所有数据集分为10份,使用90%的数据作为训练集,确定一个参数组,经学习后得到一个分类模型,而将剩下的10%这一折数据用来评估,将其带入上述模型,计算模型准确率,重复10×3次后,最终输出所有折的平均性能指标。该函数内置网格搜索 (Grid-search) 思想,实现了模型的参数组合设置,不断改变参数的值,以训练得到新的模型,并再次检验预报精度,最终比较得出使模型精度达到最高的参数组合。

    本文利用2008年1月—2014年12月的数据进行预报模型的建立,利用2015年的数据对预报模型进行精度检验。实验中使用总体准确率和高CPUE渔区预报准确率作为检验标准,来表示预报模型得到的渔场和实际渔场的符合程度,计算公式为:

    $$ p=\frac{{C}_{0}\cap {C}_{0}'+{{C}_{1}\cap C}_{1}'}{{C}_{0}+{C}_{1}}\times 100 {\text{%}} $$ (6)
    $$ {p}_{0}=\frac{{C}_{0}\cap {C}_{0}'}{{C}_{0}}\times 100 {\text{%}} $$ (7)

    式中$ p $为预报总体精度,$ {p}_{0} $为高CPUE渔区中预报正确的概率,$ {C}_{0}' $为预报正确的高CPUE渔区集合,$ {C}_{1}' $为预报正确的低CPUE渔区集合;$ {C}_{0} $为实际渔区中高CPUE渔区集合,$ {C}_{1} $为实际渔区中低CPUE渔区集合。

    长鳍金枪鱼月平均CPUE均大于12尾·千钩−1,1—4月CPUE变化很小 (12~13尾·千钩−1),9—12月约15尾·千钩−1,而5—8月CPUE较高。其中7月CPUE最高,达20.88尾·千钩−1,3月最低,为12.38尾·千钩−1 (图2)。因此,5—8月为南太平洋长鳍金枪鱼的盛产期,其余月份相对为淡季。

    图  2  2008—2014年南太平洋长鳍金枪鱼月平均单位捕捞努力量渔获量分布
    Figure  2.  Monthly average CPUE distribution of T. alalunga in South Pacific from 2008 to 2014

    从渔区分类角度统计分析了2008—2014年长鳍金枪鱼高、低CPUE渔区数据与不同SST、Chl-a、SLA区间的关系。以第一三分位数为标准划分的高CPUE渔区与低CPUE渔区同时存在,仅在频数占比上存在差别 (图3-a),因此,当输入全新待分类数据集时,学习器必会偏向频数占比较大的类别进而影响分类的正确性,可见SST属性难以区分高CPUE渔区与低CPUE渔区,需结合其他条件进行渔区分类。渔区仅在频次占比上存在细微差别 (图3-b),以Chl-a属性区分渔区相比以SST区分其难度更大。SLA在−0.09~0.15 m区间上频次占比上下波动 (图3-c),以SLA属性仍无法区分高、低CPUE渔区。可见,由单一属性难以判别高、低渔区,应结合多个指标变量来增大高、低CPUE渔区样本集之间的差异。

    图  3  2008—2014年南太平洋长鳍金枪鱼高、低单位捕捞努力量渔获量渔区与海表温度、叶绿素a、海平面异常数据的关系
    Figure  3.  Relationship between high and low CPUE fishing areas and SST, Chl-a and SLA intervals for T. alalunga in South Pacific from 2008 to 2014

    采用R语言psych包计算Pearson相关系数并进行显著性检验,假设显著性水平为0.05。P均小于0.05 (表1),CPUE与各指标均呈显著相关关系。同时,通过对比相关系数的绝对值大小,可得出影响渔场分布的环境指标相对重要性排序为SST>Chl-a>SLA,时空指标相对重要性排序为Lat>Lon>m。

    表  1  单位捕捞努力量渔获量与各环境及时空指标的相关分析
    Table  1.  Correlation analysis of CPUE with environmental and spatio-temporal index
    变量
    Variable
    P
    相关系数R
    Correlation coefficient R
    月份 m 0.00 0.10
    经度 Lon 0.00 −0.14
    纬度 Lat 0.00 −0.30
    海表温度 SST 0.00 −0.32
    叶绿素a浓度 Chl- a 0.00 0.14
    前一个月海表温度 SST_bf 0.00 −0.33
    后一个月海表温度 SST_af 0.00 −0.35
    海表温度距平 ΔSST 0.00 −0.23
    海表温度梯度 SSTG 0.00 0.10
    前一个月叶绿素a浓度 Chla_bf 0.00 0.16
    后一个月叶绿素a浓度 Chla_af 0.00 0.14
    叶绿素a浓度距平 ΔChla 0.00 0.14
    叶绿素a浓度梯度 ChlaG 0.04 0.01
    海平面异常数据 SLA 0.02 −0.01
    下载: 导出CSV 
    | 显示表格

    通过10折交叉验证及train函数内置的网格搜索算法,模型最终可调节参数设置为:RF特征数mtry=4;AdaBoost基分类器个数mfinal=150,树最大深度maxdepth=3,权重更新方式coeflearn=Freund;GBDT迭代次数n.trees=150,树的深度interaction.depth=3,学习率shrinkge=0.1;C5.0迭代次数trials=10,模型类型model=tree,特征选择winnow=FLASE。

    6个集成模型准确率均达70%,且Stacking集成模型最高 (75.84%,表2)。对于本文南太平洋长鳍金枪鱼的训练集数据,Bagging模型要优于Boosting模型,相比而言RF模型较高,而增加了KNN的Stacking集成模型准确率又略高于RF。因此,本文使用Stacking集成模型进行预报。

    表  2  各个模型训练结果对比
    Table  2.  Comparison of training results of various models
    模型
    Model
    TreebagRFC5.0GBDTAdaBoostStacking
    准确率
    Accuracy/%
    73.8775.5272.9971.1471.3375.84
    下载: 导出CSV 
    | 显示表格

    利用GLM模型对各弱学习器进行组合,借助summary函数得到GLM模型自变量显著性检验结果 (表3)。根据P值,可得出截距、RF、C5.0和KNN均为显著性变量,对分类结果的影响非常显著 (P<0.001)。

    表  3  GLM模型自变量显著性检验
    Table  3.  Significance test of variables in Generalized linear model
    偏差来源
    Source of deviation
    回归系数估计
    Estimated regression coefficient
    标准误差
    Standard difference
    z
    Pr (>|z|)
    截距 Intercept 2.647 49 0.105 46 25.103 <2×10−16 P<0.001
    随机数森林 RF −4.074 13 0.155 10 −26.268 <2×10−16 P<0.001
    Bagging决策树 Treebag 0.091 37 0.108 10 0.845 0.398
    C5.0决策树 C5.0 −0.544 04 0.105 74 −5.145 2.67×10−7 P<0.001
    K最近邻 KNN −0.622 02 0.084 46 −7.365 1.77×10−13 P<0.001
    AdaBoost −0.248 96 0.298 41 −0.834 0.404
    下载: 导出CSV 
    | 显示表格

    将2015年1—12月的时空各环境数据进行规范化及匹配处理后,代入上述Stacking集成模型得到各个月份的预报结果。由于渔场预报较关注高CPUE渔区位置,因此将2015年各月的高CPUE渔区预报图与同期实际生产的高CPUE渔区相叠加进行分析 (图4)。其中2015年1—6月高CPUE渔区主要分布在10°S—20°S,7—8月向南扩至27°S,9—11月又向北扩至约2°S,12月又集中分布在10°S—20°S。从渔场整体分布看,5—6月、10—11月呈聚集分布,而其他月份较离散。

    图  4  2015年1—12月实际高单位捕捞努力量渔获量渔区与预报高单位捕捞努力量渔获量渔区对比图
    Figure  4.  Comparison of practical high CPUE fishing grounds and forecasted high CPUE fishing grounds from January to December in 2015

    2015年各月的渔场预报总体准确率见图5。其中预报准确率最高为11月 (82.14%),最低为1月 (63.86%),平均70.99%。

    图  5  2015年1—12月渔场预报综合准确率
    Figure  5.  Comprehensive accuracy of fishing grounds forecasted from January to December in 2015

    2015年各月的高CPUE渔区预报准确率见表4。其中11月准确率最高 (90.63%),1月最低 (62.71%),平均78.76%。

    表  4  2015年1—12月高单位捕捞努力量渔获量渔区预报准确率
    Table  4.  Forecast accuracy of high CPUE fishing grounds from January to December in 2015 %
    月份 Month123456789101112
    准确率 Accuracy62.7163.1666.6765.7197.8594.3870.4580.5668.7590.6395.8388.46
    下载: 导出CSV 
    | 显示表格

    本文探讨了机器学习的集成学习建模策略中的6种模型 (RF、Treebag、C5.0、GBDT、AdaBoost和Stacking集成模型) 对渔场预报模型精度提高的可能性,结果表明所构建的集成学习模型的精度有所提高。经对比,选出准确率最高的Stacking集成模型对2015年的南太平洋长鳍金枪鱼渔场进行分月预测,并将高CPUE预报渔区与实际渔区进行了对比检验。研究显示,Stacking集成模型全年总体平均准确率为70.99%,高CPUE渔区预报的平均准确率为78.76%,为渔场预报模型的选择提供了一种新思路。

    2015年渔获生产情况与往年相比,每月产量均明显偏低,尤其是3—4月、7—9月高CPUE渔区呈点状分布,为预报增加了难度,导致预报精度相对较低。但从整体来看,Stacking集成模型预报的高CPUE渔区结果在空间分布上与实际渔区较好吻合。而关于实际高CPUE渔区分布,江承旭[34]对斐济专属经济区2013—2015年长鳍金枪鱼的渔场分析指出,1—3月、10—12月中心渔场位于16°S—19°S海域,第二季度开始向两边分散,与本文结果基本一致;而第三季度在南北分别有一个高CPUE海域,分别介于13°S—16°S和19°S—25°S,各占总体的28.82%和65.73%,其余区域占比较少。这与2015年渔场分布有所不同,本研究发现2015年北部的高CPUE渔区多于南部,原因可能是南太平洋长鳍金枪鱼高温区域叉长大于低温区域叉长[35],出于利益考虑,渔船偏向于在低纬作业;而且25°S以南也存在高CPUE渔区的分布,可能是因为2015年第三季度金枪鱼资源量不能满足商业渔船进而南移作业。

    与大多数渔场一样,长鳍金枪鱼渔场极易受外界环境的影响[2, 14, 26]。其中SST对长鳍金枪鱼渔场的分布极为重要。Zainuddin等[36]研究认为长鳍金枪鱼渔场除了与SST有关外,与海面高度、叶绿素也有一定关系。Chl-a的渔场分析应用主要是基于海洋食物链原理[37];海面高度反映包括海水流速、流向、冷暖水团在内的海洋动力环境参数,而SLA反映与平均海平面的差值[38],常被应用于渔场分析。本研究发现单一属性难以判别高、低渔区 (图3),因此在上述属性基础上,还增加了SST、叶绿素的衍生变量,包括ΔSST和SSTG、ΔChla和ChlaG以及前后各一个月的SST和叶绿素值,以提高集成模型对高CPUE渔区的预报能力。此外,CPUE与各环境指标均呈显著相关关系。综上,本文选取的环境指标作为渔场预报模型的预测变量具有合理性。

    1) 与其他模型的对比。国内外关于长鳍金枪鱼渔场预报的探索已有较多研究,但针对南太平洋海域目前最普遍使用的是HSI模型。如范永超等[1]、范江涛等[14]、马孟磊等[15]基于HSI模型,结合次表层水温等环境因子按季度 (或月份) 建立了基于各环境因子的长鳍金枪鱼HSI,并选择不同的方法计算多因子综合指数。HSI模型的结果是针对某一特定生物生境适宜度的表达,对渔业专家知识依赖度较高。在模型精度表示方面,其主要是统计大于0.6的渔区占比,这与实际渔场并无直接严格的相关性[39]。在相当多的情况下HSI大于0.6的海域可能占多数,一旦改变中心渔场的划定范围,其统计精度必会发生很大变化。而本文的模型精度计算原理是表征预报渔区与实际渔区的一致程度,且最终采用的Stacking集成模型综合了RF、Treebag、AdaBoost、GBDT及KNN的预测结果,预报准确率方面相比单一HSI较为可靠。

    2) 模型间的对比。模型训练结果表明,Bagging算法平均准确率为74.7%,Boosting为71.8%,Bagging优于Boosting。Bagging作为一种并行式集成算法,对大样本训练速度有优势,并且由于采用了随机采样,其训练的模型方差小且泛化能力强。相较于Treebag,在划分节点时随机特征选择的优势下,RF的每棵树均能充分生长[26, 40],使本研究14种样本特征的渔业数据表现较好。Boosting针对错判的样本进行学习,该方法能够显著提高学习效果,但其缺点是容易受噪声影响[25]且基学习器只能顺序生成,因此,渔业数据本身的不完整和不确定性导致了模型相对较低的精度。基于GLM模型的Stacking渔场预报模型能够全面组合各层学习器的优势。本文维度m为5,5种基分类器分别结合10折交叉验证方式输出预测结果,并与真实值组合作为训练数据进行次级学习,建立了5组预测值与真实值更为准确的映射关系,准确率达75.84%,Stacking集成模型在南太平洋长鳍金枪鱼渔业数据上表现出众。

    根据GLM模型自变量显著性结果,截距、RF、C5.0和KNN均为显著性变量,Stacking综合多个学习器的分类结果,学习器单一偏好不会处于主导地位,同时次级学习器选择简单模型进一步降低了过拟合风险。且模型对于基础学习器的类型选择没有限制,对诸多成熟的学习框架均具有良好适用性。尽管RF与Stacking在本文数据的精度上仅相差0.3,但这与渔业数据质量密切相关,对于复杂多样的海洋渔业数据而言,应充分利用Stacking的组合思想优势为其服务,可为之后的模型选择作参考。

    本文试验性地将集成学习思想应用在南太平洋长鳍金枪鱼渔场预报研究中,各学习器在利用函数内置的优化参数算法的情况下,Stacking集成模型取得了较高准确率,在后续工作中需要加以完善和调整参数优化的方式,以进一步提高模型性能。同时,由于渔业生产数据本身的特殊性,导致数据在时效性上存在不足,今后应加强渔业数据收集和整理工作以及渔场对应环境属性值计算的相关研究,使其更准确地反映海洋环境,为渔场预报模型提供更可靠、实时的原始渔业和环境信息,从而更精确地预报及指导渔业生产。

  • 图  1   南太平洋长鳍金枪鱼渔场范围示意图

    Figure  1.   Map of fishing grounds of T. alalunga in South Pacific

    图  2   2008—2014年南太平洋长鳍金枪鱼月平均单位捕捞努力量渔获量分布

    Figure  2.   Monthly average CPUE distribution of T. alalunga in South Pacific from 2008 to 2014

    图  3   2008—2014年南太平洋长鳍金枪鱼高、低单位捕捞努力量渔获量渔区与海表温度、叶绿素a、海平面异常数据的关系

    Figure  3.   Relationship between high and low CPUE fishing areas and SST, Chl-a and SLA intervals for T. alalunga in South Pacific from 2008 to 2014

    图  4   2015年1—12月实际高单位捕捞努力量渔获量渔区与预报高单位捕捞努力量渔获量渔区对比图

    Figure  4.   Comparison of practical high CPUE fishing grounds and forecasted high CPUE fishing grounds from January to December in 2015

    图  5   2015年1—12月渔场预报综合准确率

    Figure  5.   Comprehensive accuracy of fishing grounds forecasted from January to December in 2015

    表  1   单位捕捞努力量渔获量与各环境及时空指标的相关分析

    Table  1   Correlation analysis of CPUE with environmental and spatio-temporal index

    变量
    Variable
    P
    相关系数R
    Correlation coefficient R
    月份 m 0.00 0.10
    经度 Lon 0.00 −0.14
    纬度 Lat 0.00 −0.30
    海表温度 SST 0.00 −0.32
    叶绿素a浓度 Chl- a 0.00 0.14
    前一个月海表温度 SST_bf 0.00 −0.33
    后一个月海表温度 SST_af 0.00 −0.35
    海表温度距平 ΔSST 0.00 −0.23
    海表温度梯度 SSTG 0.00 0.10
    前一个月叶绿素a浓度 Chla_bf 0.00 0.16
    后一个月叶绿素a浓度 Chla_af 0.00 0.14
    叶绿素a浓度距平 ΔChla 0.00 0.14
    叶绿素a浓度梯度 ChlaG 0.04 0.01
    海平面异常数据 SLA 0.02 −0.01
    下载: 导出CSV

    表  2   各个模型训练结果对比

    Table  2   Comparison of training results of various models

    模型
    Model
    TreebagRFC5.0GBDTAdaBoostStacking
    准确率
    Accuracy/%
    73.8775.5272.9971.1471.3375.84
    下载: 导出CSV

    表  3   GLM模型自变量显著性检验

    Table  3   Significance test of variables in Generalized linear model

    偏差来源
    Source of deviation
    回归系数估计
    Estimated regression coefficient
    标准误差
    Standard difference
    z
    Pr (>|z|)
    截距 Intercept 2.647 49 0.105 46 25.103 <2×10−16 P<0.001
    随机数森林 RF −4.074 13 0.155 10 −26.268 <2×10−16 P<0.001
    Bagging决策树 Treebag 0.091 37 0.108 10 0.845 0.398
    C5.0决策树 C5.0 −0.544 04 0.105 74 −5.145 2.67×10−7 P<0.001
    K最近邻 KNN −0.622 02 0.084 46 −7.365 1.77×10−13 P<0.001
    AdaBoost −0.248 96 0.298 41 −0.834 0.404
    下载: 导出CSV

    表  4   2015年1—12月高单位捕捞努力量渔获量渔区预报准确率

    Table  4   Forecast accuracy of high CPUE fishing grounds from January to December in 2015 %

    月份 Month123456789101112
    准确率 Accuracy62.7163.1666.6765.7197.8594.3870.4580.5668.7590.6395.8388.46
    下载: 导出CSV
  • [1] 范永超, 陈新军, 汪金涛. 基于多因子栖息地指数模型的南太平洋长鳍金枪鱼渔场预报[J]. 海洋湖沼通报, 2015(2): 36-44.
    [2] 樊伟, 张晶, 周为峰. 南太平洋长鳍金枪鱼延绳钓渔场与海水表层温度的关系分析[J]. 大连水产学院学报, 2007(5): 366-371.
    [3] 郭刚刚, 张胜茂, 樊伟, 等. 基于表层及温跃层环境变量的南太平洋长鳍金枪鱼栖息地适应性指数模型比较[J]. 海洋学报, 2016, 38(10): 44-51.
    [4] 杨嘉樑, 黄洪亮, 宋利明, 等. 基于分位数回归的库克群岛海域长鳍金枪鱼栖息环境综合指数[J]. 中国水产科学, 2014, 21(4): 832-851.
    [5] 林显鹏, 郭爱, 张洪亮, 等. 所罗门群岛海域长鳍金枪鱼的垂直分布与环境因子的关系[J]. 浙江海洋学院学报(自然科学版), 2011, 30(4): 303-306.
    [6]

    BRIAND K, MOLONY B, LEHODEY P. A study on the variability of albacore (Thunnus alalunga) longline catch rates in the southwest Pacific Ocean[J]. Fish Oceanogr, 2011, 20(6): 517-529. doi: 10.1111/j.1365-2419.2011.00599.x

    [7]

    DOMOKOS R K, SEKI M P, POLOVINA J J, et al. Oceanographic investigation of the American Samoa albacore (Thunnus alalunga) habitat and longline fishing grounds[J]. Fish Oceanogr, 2007, 16(6): 555-572. doi: 10.1111/j.1365-2419.2007.00451.x

    [8]

    LEHODEY P, SENINA I, NICOL S, et al. Modelling the impact of climate change on South Pacific albacore tuna[J]. Deep Sea Res II, 2015, 113: 246-259. doi: 10.1016/j.dsr2.2014.10.028

    [9] 郭刚刚, 张胜茂, 樊伟, 等. 南太平洋长鳍金枪鱼垂直活动水层空间分析[J]. 南方水产科学, 2016, 12(5): 123-130. doi: 10.3969/j.issn.2095-0780.2016.05.016
    [10] 闫敏, 张衡, 樊伟, 等. 南太平洋长鳍金枪鱼渔场CPUE时空分布及其与关键海洋环境因子的关系[J]. 生态学杂志, 2015(11): 3191-3197.
    [11] 储宇航, 戴小杰, 田思泉, 等. 南太平洋延绳钓长鳍金枪鱼生物学组成及其与栖息环境关系[J]. 海洋渔业, 2016, 38(2): 130-139. doi: 10.3969/j.issn.1004-2490.2016.02.003
    [12] 范江涛. 南太平洋长鳍金枪鱼延绳钓渔业渔情预报研究[D]. 上海: 上海海洋大学, 2011: 21-22.
    [13] 毛江美, 陈新军, 余景. 基于神经网络的南太平洋长鳍金枪鱼渔场预报[J]. 海洋学报, 2016, 38(10): 34-43.
    [14] 范江涛, 陈新军, 钱卫国, 等. 南太平洋长鳍金枪鱼渔场预报模型研究[J]. 广东海洋大学学报, 2011, 31(6): 61-67. doi: 10.3969/j.issn.1673-9159.2011.06.010
    [15] 马孟磊, 陈新军, 陈作志, 等. 南太平洋长鳍金枪鱼栖息地指数模型的比较研究[J]. 广东海洋大学学报, 2017, 37(3): 59-66. doi: 10.3969/j.issn.1673-9159.2017.03.009
    [16] 崔雪森, 唐峰华, 张衡, 等. 基于朴素贝叶斯的西北太平洋柔鱼渔场预报模型的建立[J]. 中国海洋大学学报(自然科学版), 2015, 45(2): 37-43.
    [17] 周为峰, 黎安舟, 纪世建, 等. 基于贝叶斯分类器的南海黄鳍金枪鱼渔场预报模型[J]. 海洋湖沼通报, 2018(1): 116-122.
    [18] 牛明香, 李显森, 徐玉成. 基于广义可加模型和案例推理的东南太平洋智利竹筴鱼中心渔场预报[J]. 海洋环境科学, 2012, 31(1): 30-33. doi: 10.3969/j.issn.1007-6336.2012.01.007
    [19] 闫敏, 张衡, 伍玉梅, 等. 基于GAM模型研究时空及环境因子对南太平洋长鳍金枪鱼渔场的影响[J]. 大连海洋大学学报, 2015, 30(6): 681-685.
    [20] 崔雪森, 唐峰华, 周为峰, 等. 基于支持向量机的西北太平洋柔鱼渔场预报模型构建[J]. 南方水产科学, 2016, 12(5): 1-7. doi: 10.3969/j.issn.2095-0780.2016.05.001
    [21] 张月霞, 丘仲锋, 伍玉梅, 等. 基于案例推理的东海区鲐鱼中心渔场预报[J]. 海洋科学, 2009, 33(6): 8-11.
    [22]

    LUCAS P. Bayesian analysis, pattern analysis, and data mining in health care[J]. Curr Opin Crit Care, 2004, 10(5): 399-403. doi: 10.1097/01.ccx.0000141546.74590.d6

    [23]

    RONG P, YANG Q, PAN S J. Mining competent case bases for case-based reasoning[J]. Artif Intell, 2007, 171(16/17): 1039-1068. doi: 10.1016/j.artint.2007.04.018

    [24] 苏奋振, 周成虎, 杜云艳, 等. 海洋渔业资源地理信息系统应用的时空问题[J]. 应用生态学报, 2003(9): 1569-1572. doi: 10.3321/j.issn:1001-9332.2003.09.036
    [25] 徐继伟, 杨云. 集成学习方法: 研究综述[J]. 云南大学学报(自然科学版), 2018, 40(6): 1082-1092. doi: 10.7540/j.ynu.20180455
    [26] 陈雪忠, 樊伟, 崔雪森, 等. 基于随机森林的印度洋长鳍金枪鱼渔场预报[J]. 海洋学报(中文版), 2013, 35(1): 158-164.
    [27] 高峰. 基于提升回归树的东、黄海鲐鱼渔场预报模型研究[D]. 上海: 上海海洋大学, 2016: 80-91.
    [28]

    FENG Y, CHEN X, GAO F, et al. Impacts of changing scale on Getis-Ord Gi hotspots of CPUE: a case study of the neon flying squid (Ommastrephes bartramii) in the northwest Pacific Ocean[J]. Acta Oceanol Sin, 2018, 37(5): 67-76. doi: 10.1007/s13131-018-1212-6

    [29] 胡启伟. 西沙—中沙海域鸢乌贼资源时空分布环境效应遥感研究[D]. 上海: 上海海洋大学, 2018: 31.
    [30]

    PI Q L, HU J. Analysis of sea surface temperature fronts in the Taiwan Strait and its adjacent area using an advanced edge detection method[J]. Sci China Earth Sci, 2010, 53(7): 1008-1016. doi: 10.1007/s11430-010-3060-x

    [31] 袁浩杰. Adaboost算法的并行化及其在目标分类中的应用[D]. 广州: 华南理工大学, 2015: 8.
    [32]

    FRIEDMAN J H. Stochastic gradient boosting[J]. Compt Stat Data An, 2003, 38(4): 367-378.

    [33] 李强. 创建决策树算法的比较研究——ID3, C4.5, C5.0算法的比较[J]. 甘肃科学学报, 2006(4): 88-91. doi: 10.3969/j.issn.1004-0366.2006.04.026
    [34] 江承旭. 斐济专属经济区长鳍金枪鱼渔场分析[D]. 上海: 上海海洋大学, 2017: 12-13.
    [35] 刘洪生, 蒋汉凌, 戴小杰. 中西太平洋长鳍金枪鱼渔场与海温的关系[J]. 上海海洋大学学报, 2014, 23(4): 602-607.
    [36]

    ZAINUDDIN M, SAITOH K, SAITOH S I. Albacore (Thunnus alalunga) fishing ground in relation to oceanographic conditions in the western North Pacific Ocean using remotely sensed satellite data[J]. Fish Oceanogr, 2010, 17(2): 61-73.

    [37] 朱国平, 李凤莹, 陈锦淘, 等. 印度洋中南部长鳍金枪鱼繁殖栖息的适应性[J]. 海洋环境科学, 2012, 31(5): 697-700.
    [38] 宋婷婷, 樊伟, 伍玉梅. 卫星遥感海面高度数据在渔场分析中的应用综述[J]. 海洋通报, 2013, 32(4): 474-480. doi: 10.11840/j.issn.1001-6392.2013.04.017
    [39] 陈新军, 高峰, 官文江, 等. 渔情预报技术及模型研究进展[J]. 水产学报, 2013, 37(8): 1270-1280.
    [40]

    CUTLER D R, EDWARDS Jr T C, BEARD K H, et al. Random forests for classification in ecology[J]. Ecology, 2007, 88(11): 2783-2792. doi: 10.1890/07-0539.1

  • 期刊类型引用(8)

    1. 赵诣,袁红春. 基于多通道单回归的太平洋长鳍金枪鱼渔场预测模型与可解释性研究. 水生生物学报. 2025(03): 15-27 . 百度学术
    2. 宋利明,任士雨,张敏,隋恒寿. 基于集成学习的大西洋热带水域大眼金枪鱼渔情预报. 水产学报. 2023(04): 64-76 . 百度学术
    3. 张聪,周为峰,樊伟. 基于ADASYN和Stacking集成的南太平洋黄鳍金枪鱼渔场预报模型研究. 海洋渔业. 2023(05): 544-558 . 百度学术
    4. 宋利明,任士雨,洪依然,张天蛟,隋恒寿,李彬,张敏. 大西洋热带海域长鳍金枪鱼渔场预报模型的比较. 海洋与湖沼. 2022(02): 496-504 . 百度学术
    5. 曾硕星,袁红春. 基于极限学习机的南太平洋长鳍金枪鱼渔场预测. 渔业现代化. 2022(03): 99-106 . 百度学术
    6. 张聪,周为峰,唐峰华,石永闯,樊伟. 基于机器学习的中西太平洋黄鳍金枪鱼渔场预报模型. 农业工程学报. 2022(15): 330-338 . 百度学术
    7. 周胜杰,杨蕊,于刚,马振华,孟祥君. 美济礁附近海域3种金枪鱼肌肉成分检测与营养评价. 南方水产科学. 2021(02): 51-59 . 本站查看
    8. 宋利明,任士雨,张敏,隋恒寿. 基于集成学习的大西洋热带海域黄鳍金枪鱼渔情预报. 中国水产科学. 2021(08): 1069-1078 . 百度学术

    其他类型引用(7)

图(5)  /  表(4)
计量
  • 文章访问数:  3123
  • HTML全文浏览量:  1228
  • PDF下载量:  68
  • 被引次数: 15
出版历程
  • 收稿日期:  2020-02-12
  • 修回日期:  2020-05-20
  • 录用日期:  2020-06-10
  • 网络出版日期:  2020-09-27
  • 刊出日期:  2020-10-08

目录

/

返回文章
返回