基于Sentinel-1和Sentinel-2数据的石河子市棉花种植信息提取
任江龙 李昺星
(中水北方勘测设计研究有限责任公司,天津 300222)
0 引言棉花是一种重要的经济作物,提供了世界上约79%的天然纤维,其种植面积及产量影响人类日常生产生活。及时准确地获取棉花空间分布信息,为棉花产量估算、农业生产管理和决策提供依据。自landsat 发射以来,中高等空间分辨率图像已被广泛用于作物监测,但仍不能满足精细化农业信息提取的需求。随着sentinel 系列卫星的成功发射,其高空间和时间分辨率的优势在作物监测中得到广泛应用。合成孔径雷达(sar)不受云层和太阳光照的影响,避免了光学遥感的限制,适用于大尺度高分辨率农作物专题信息提取。不同的光学和sar 数据特征意味着提供的表面信息是不同的。光学数据提供了研究区地物的光谱特征,而sar 数据提供了有关植被地表结构和土壤的信息。因此,结合光学和sar 数据可以更准确、更有效地提取作物。
基于光学和sar 数据提取棉花种植信息的研究相对较少,现有的分类方法中多采用多分类,未能实现单一作物分类提取。因此该文基于google earth engine(gee)云平台,利用sentinel-1 和sentinel-2 数据探究单一分类支持向量机在棉花种植信息的适用性,为棉花提取提供新的方法思路。
1 研究区概况石河子市位于中国新疆北部,地理位置范围为北纬44°24′23″~44°41′12″,东经85°44′19″~86°20′19″e,面积约1500 km(如图1 所示)。该地区属典型的温带大陆性干旱气候,夏热冬冷,昼夜温差大。该地区主要农作物有棉花、小麦和玉米,其中棉花种植面积占比最大,种植时间为4 月中旬至10 月中旬。
图1 研究区位置
2 数据获取及预处理2.1 遥感数据该文主要采用2020 年sentinel-1(s1)和sentinel-2(s2)数据,2 种数据集均由gee 平台加载获得,为了分析最合适的棉花提取时间影像,选择5 月~9 月影像进行处理,遥感数据基本信息及所需影像数量见表1。s1 数据集由sentinel-1a 和sentinel-1b 这2 颗c 波段sar 卫星组成,其空间分辨率为10 m,单颗卫星重访周期为12 天。由于2020 年石河子市sentinel-1b 数据缺失较多,因此该文主要采用干涉宽幅(iw)模式sentinel-1a grd 产品数据。gee 平台中s1 数据均已经过sentinel-1 工具箱(s1tbx)预处理,预处理过程主要包括轨道校正、热噪声去除、地形校正和辐射校正。为了减少sentinel-1 数据噪声对分类结果的影响,采用窗口大小为7×7 的refined lee 滤波对s1时序数据进行散斑滤波处理。
表1 sentinel-1 和sentinel-2 数据
sentinel-2a 和sentinel-2b 卫星由欧洲航天局(esa)发射,其影像空间分辨率为10 m~60 m,双星重返周期为5天,共拥有13 个光谱波段。该文中s2 数据主要采用level-2a 地表反射率(sr)产品数据,该数据集均经过地形校正、辐射校正和大气校正等预处理。gee 云平台中sentinel-2包括云量覆盖信息,因此为了减少云及云阴影对棉花提取结果的影响,该文采用filter data 函数筛选出云量小于20%的影像,并利用位与运算bitwiseand 函数判断影像中云像素,进而进行掩膜处理,生成无云影像数据集。为了分析最佳棉花提取影像时间,分别对s1 和s2 数据集以月为单位进行中值合成,同时将s2 所有波段重采样为10 m分辨率。由于部分地区受天气影响,无法获得s2 无云影像,因此采用线性插值方法对空缺s2 影像数据进行填补。
2.2 野外考察数据研究区棉花生长共4 个阶段,分别是苗期(5 月初~6月下旬)、萌芽期(6 月下旬~7 月中旬)、开花结铃期(7月中旬~8 月中旬)和吐絮期(8 月中旬~10 月初)。为了进一步了解棉花生长特征,笔者于2020 年8 月前往研究区进行野外考察,共获得棉花样本213 个,非棉花样本147个,将野外考察所获得的样本导入gee 平台中,其中70%作物训练样本,30%作物验证样本。
3 研究方法3.1 特征提取及特征优选特征提取是棉花提取中最重要的一步,为了提高棉花与其他农作物的区分度,该文基于s1 和s2 数据集共构建22 个特征数据集。其中基于s1 数据构建了vv 极化、vh极化和归一化差极化指数(ndpi)特征,基于s2 数据构建了10 个s2 光谱波段特征和9 个植被指数特征,其中植被指数特征分别为归一化植被指数(ndvi)、增强植被指数(evi)、修正型归一化植被指数(mndvi)、地表水指数(lswi)、归一化水体指数(ndwi)、红边位置指数(rep)、裸土指数(bsi)、绿色叶绿素植被指数(gcvi)和植被衰老反射指数(psri)。
各特征间存在一定相似性,因此存在一定冗余信息,易导致降低分类精度,选择合适的特征组合对分类结果至关重要。该文利用递归特征消除算法(rfe)对特征数据集进行特征优选计算,其主要原理是利用全部特征进行初始特征计算,利用分类器计算出不同特征的权重大小,并按照不同特征权重结果进行排序,依次剔除特征权重最小的特征,并计算剔除后的总体精度,以此类推直到总体精度达到最高,即可获得最佳特征组合。具体过程如下:首先,基于gee 平台以石河子地区8 月影像为例分别计算各特征数据,构建特征数据集;其次,利用训练样本点提取各特征指标值;最后,将各点提取的值生成excel 文件,利用python 实现递归特征消除计算。
3.2 单类支持向量机(ocsvm)分类器的选择是影响棉花提取的另一个重要因素,该文采用ocsvm 代替传统的多类分类方法,其基本原理就是根据目标样本在特征集中具有较好的相似性。作为支持向量机(svm)的一个分支,ocsvm的基本原理是在特征空间中构造一个最优超平面,以最大化目标类与其他类之间的边距。与传统的多类分类器不同,ocsvm 可以减少资源需求,因为只需要目标类的训练数据。此外,先前的研究表明,ocsvm在农作物种植信息提取中获得了较高的分类精度。
要使用ocsvm 分类器,需要选择内核类型和相应的参数。关于核类型,该文选择径向基函数(rbf)。以rbf作为内核类型,需要设置2 个参数“gamma”和“nu”。基于前人研究成果选择最佳的“gamma”和“nu”,分别为0.1 和0.1。
为了验证棉花提取结果,该文利用棉花和非棉花样本构建验证样本,基于验证样本对提取结果进行精度评价。采用混淆矩阵方法,分别计算生产者精度(pa)、用户者精度(ua)、总体精度(oa)和kappa 系数。
4 结果与分析4.1 特征优选为了获得最佳特征组合以提高棉花提取精度及效率,该文共选择22 个特征变量进行递归特征消除方法计算,结果如图2 所示。从图中可以看出,当特征变量为1 时,总体分类精度仅为63.21%。而特征数量从1 到2 时,其分类精度上升速率最大。特征数量大于2 后,其分类精度提升明显放缓,当特征数量达到5 时,总体精度增速进一步放缓。而后分类精度缓慢增大,直到特征数量达到15 个时,分类精度达到最大(总体精度为92.3%)。而当特征数量大于15 个后,其分类精度呈现缓慢下降趋势,说明当特征数量大于15 后其特征冗余信息对分类结果产生负面的影响。因此,该文选择排名前15 个特征构建特征组合进行棉花提取,分别为band6、ndvi、evi、band5、band2、band3、band7、band4、band8、mndvi、vv、band12、vh、rep、band11。
图2 特征递归消除结果
从特征优选的结果可以看出,光学波段特征占最优特征组合总数的60%,说明光学光谱波段特征对棉花提取至关重要,其中band6 对棉花提取的贡献率最大,说明band6 对棉花提取的识别效果较好。植被指数特征中ndvi和evi 对棉花提取的贡献率较高,与现有的研究结果较为一致,其中mndvi 和rep 两种指数也有一定的贡献率。sentinel-1 极化数据及衍生极化指数对棉花提取也存在一定的贡献,主要表现为vv 和vh 共2 种极化信息,而极化衍生产品则贡献率较低。其中微波信号能够识别棉花信息,主要是因为棉花生长周期中,在萌芽期和结铃期,棉花叶片密度不断增大,微波信号逐渐无法穿透植被冠层,此时为表散射或体散射。而到开铃期后,棉花植株叶片不断掉落腐烂,此时微波信号可以穿透植被冠层,发生回波散射。
4.2 棉花识别最佳时间选择在作物生长季节的关键时期,由于经常受到云量的影响,遥感数据难以获取,因此该文通过对不同月份影像进行合成,探究棉花提取最佳月份,进而实现棉花高精度提取,减少棉花物候特征分析过程。利用gee 平台分别对5 月~9 月进行月度影像的中值合成,采用4.1 节中递归特征消除方法得到最优特征组合,分别构建了5 月~9 月逐月影像特征组合,并利用ocsvm 进行棉花种植信息提取,对不同月份提取精度进行精度评价,精度结果见表2。从表2 中可以看出,8 月份合成影像棉花提取精度最高,总体精度和kappa 系数最高,分别为91.69%和0.83。这主要是因为8 月中下旬棉花由于处于吐铃期,棉花光谱特征发生较大的变化,与其他作物有较大差异,能较好地与其他作物进行区分。因此,该时期棉花提取精度中生产者精度和用户精度均达到最大,说明误分和漏分情况较少。其中5 月份棉花提取精度最低,总体精度和kappa 系数分别为82.23%和0.67,与8 月提取结果相差较大。这主要是因为该时期棉花正处于苗期,与玉米等同一生长期的其他作物的光谱特性相似,因此难以通过光谱信息与其他作物进行区分。6 月合成影像和7 月合成影像棉花提取结果具有较大的相似性,其棉花提取总体精度仅相差0.15%,总体精度均大于90%,说明6 月和7 月对棉花提取也有较大的优势,在棉花吐絮前均能获得较好的棉花提取精度。9 月份棉花进入成熟阶段,其他农作物也逐渐成熟,该阶段植被光学特征较为相似,但是sentinel-1 的2 种极化信号能很好地捕捉到棉花信息,因此9 月份棉花提取精度依旧大于89%。整体来看,在今后的棉花提取中,应重点考虑8 月份影像,其次可以考虑6 月或7 月影像,最后考虑9 月份影像。该文基于特征优选后的特征组合,采用ocsvm 分类器实现了2020 年石河子市棉花种植信息提取。棉花提取结果如图3 所示,从图3 可以看出,石河子市棉花主要集中分布在西部地区,其空间分布较为聚集。经过统计计算得出2020 年石河子市棉花种植面积为194.85 km,占研究区总面积的42.35%。
表2 不同时期影像棉花提取精度
图3 棉花提取结果
5 结论该文基于gee 云平台中sentinel-1 和sentinel-2 数据,采用ocsvm 分类器实现2020 年石河子市棉花提取。结果表明,sentinel-2 光谱特征对棉花提取结果贡献率最大,sentinel-1 的2 种极化特征对棉花提取也存在较大的贡献率。棉花最佳识别月份为8 月份,其总体精度达到91.67%,kappa 系数为0.83。整体来说ocsvm 在棉花提取的适用性较好,能有效实现单一作物分类。
虽然该文基于gee 平台在棉花提取中实现了光学和雷达数据的有效结合,但仍存在一定的局限性,未利用多源遥感时序数据进一步挖掘棉花物候特征。同时该文在精度评价中仅采用野外考察数据进行精度验证,并未考虑其他分类器在棉花提取中的适用性。因此,在今后的研究中还将深入挖掘棉花物候信息,并探究不同分类器下棉花提取结果的差异性。
基于Sentinel-1和Sentinel-2数据的石河子市棉花种植信息提取
本文2022-11-11 20:16:20发表“城建环卫”栏目。
本文链接:https://www.wenmi123.com/article/430539.html
- 2025 年《建设工程项目管理》模考卷一.pdf
- 座谈会发言:体系抓好思政课教育做好贯彻落实下篇文章(02-19).docx
- 组织部机关支部书记2024年度抓基层党建工作述职报告(02-19).docx
- 在县委理论中心组暨2024年度民主生活会学习研讨会上的发言(02-19).docx
- 在2025年市人代会分组讨论会上的发言(02-19).docx
- 医院党委选人用人工作自查报告(02-19).docx
- 宣传部2024年民主生活会个人对照检查发言(02-19).docx
- 行政服务中心民族团结进步创建工作经验材料(02-19).docx
- 校长在中学2025春季开学典礼上的讲话:撷一抹祈望春风掬一程锦绣花开(02-19).docx
- 乡镇领导班子2024年民主生活会对照检查发言材料(五个带头+典型案例)(02-19).docx