—— 摘要 ——
研究人員對檢測馬鈴薯晚疫?。?em style="margin: 0px; padding: 0px;">Phytophthora infestans)的高光譜成像越來越感興趣。由于在野外條件下,尤其是在疾病早期,很難獲得疾病發(fā)展的準確光譜特征,以前的工作主要集中在受控條件下的實驗室測量。然而,試驗結果從實驗室外推到田間環(huán)境被證明是困難的。本試驗評估了實驗室高光譜數據在馬鈴薯晚疫病田間檢測模型中的應用。試驗是從六個分離的葉盤構建了一個高光譜訓練庫,其中包含8585個光譜,標記為健康類別和疾病發(fā)展的五個進展階段。經過平滑和歸一化處理后,70.0%的數據接受了邏輯回歸模型的訓練,30.0%的數據留作驗證。然后,在高和低染病壓力下,對田間條件下兩個馬鈴薯品種(對晚疫病敏感和抗性)拍攝的12幅高光譜圖像進行分類。實驗室數據的分類準確率為94.1%,這不足以使用實驗室收集的數據集檢測田間癥狀。當通過包含一階導數和采用新的歸一化策略改變光譜預處理時,新模型導致80.8%的較低分類準確率,在標記的實驗室光譜上得到驗證,但能夠在田間條件下檢測癥狀。視覺疾病評分與田間疾病模型分類結果之間的相關性得出R2值為0.985??梢缘贸龅慕Y論是,訓練一個實驗室數據模型用于田間疾病檢測是可行的。
—— 引言 ——
作物病害仍然是馬鈴薯生產中的主要產量限制因素。致病疫霉菌(Phytophthora infestans (Mont.) de Bary)引起馬鈴薯晚疫病,是最臭名昭著的病原體之一。為了減少與該疾病相關的巨大社會經濟消耗和環(huán)境成本,科學家們正在尋求精確施用農藥,這需要關于整個田間作物病害狀況的高質量、高分辨率數據支撐。
本研究的目的是評估基于實驗室數據訓練的機器學習模型在田間疾病檢測中的適用性。實現這一目的的目標是:(a)基于實驗室測量構建標記的高光譜訓練庫,(b)基于該數據集訓練機器學習疾病檢測模型;(c)在野外條件下拍攝的全新、未標記的高光譜圖像上驗證該模型;(d)實施替代特征選擇和預處理,以提高模型在野外疾病檢測中的性能。
—— 材料和方法 ——
實驗室測量
圖1顯示了實驗室條件下高光譜測量的實驗裝置。一臺推掃式高光譜相機,能夠在400-1000 nm光譜范圍內測量224個波段的反射率(FX10e相機,芬蘭,奧盧),相機放置在一個帶有透明蓋子的保護性塑料盒內。傳感器的位置應與移動方向垂直,從天頂的角度直接向下測量。傳感器盒兩側安裝了兩個500 W鹵鎢燈,為高光譜相機提供額外照明。
從Bintje品種的不同馬鈴薯植株上收獲六片分離的葉片,使用釘書釘(不刺穿植物組織)將其連接到泡沫塑料托盤上。其中三片葉子接種了一種致病疫霉菌孢子溶液(isolate EU36),另外三片作為對照。這些托盤在100.0%濕度和19°C溫度下培養(yǎng)3天,然后將每個托盤放在傳送帶上對葉片進行高光譜掃描。
病原體在3天后達到活體營養(yǎng)階段,可見病變剛剛開始形成,但沒有壞死營養(yǎng)或孢子形成。在理想條件下,這個階段距離新孢子形成大概有1-4天。此時,葉片相對較大面積沒有受到影響。在每次測量之前,獲取白色參考掃描(100.0%反射率瓷磚)和暗參考值(通過關閉相機快門實現)。白色參考用于補償照明條件的變化,而暗參考用于補償傳感器的背景信號。
圖1 實驗室條件下用于離體葉片實驗的高光譜傳感器實驗裝置
田間測量
田間數據在位于比利時Kruishoutem的跨省馬鈴薯栽培研究中心(PCA)/國際馬鈴薯栽培研究中心進行收集,遵循Appeltans等人(Appeltans et al., 2020)描述的方法。使用一個長為3m的可移動鋁制測量架從研究中心的致病疫霉菌品種試驗中進行了 12 次掃描。測量架位于作物上方,測量高度為作物冠層上方300mm。掃描是通過使用電動機和傳動帶將移動到作物冠層上進行的,使用與實驗室測量相同的方法進行白色和暗參考測量。這些掃描對應于兩個馬鈴薯品種:Agria,抗晚疫病品種;Fontane,易感晚疫病品種。
對于每個品種,在晚熟生長階段選擇感染程度高和低的地塊,然后于2020年7月30日在每個地塊的三個位置進行掃描,四個地塊總共進行12次掃描(表1)。表1顯示了四個測量地塊中每個地塊的葉面積感染百分比。注意,Agria-A的葉面積感染率在2020年7月20日時為2.5%,而Agria-B為32.5%,但在7月30日測量時它們是相同的。值得注意的是,測量是在盛夏進行的,平均最高氣溫為30°C,幾乎沒有降水,這會使受感染的葉片迅速干燥,并限制感染的傳播。
表1 2020年測量的田間小區(qū)中感染葉面積的百分比
四個地塊各進行三次掃描,其中兩個是Agria品種(Agria-A和Agria-B),兩個是Fontane品種(Fontane-A和Fontane-B)。附錄'-A'和'-B'分別對應于較低的感染和較高的感染
高光譜庫
訓練數據集是通過選擇一個感興趣的區(qū)域獲得的,該區(qū)域覆蓋一片葉子的7張小葉,包含健康和染病組織。高光譜訓練數據集的光譜屬于健康和染病組織,根據近紅外區(qū)域的反射率情況在疾病進展過程中自動標記,“健康”對應于高光譜庫中的668 nm波段的反射率介于0和0.17之間;疾病分五個階段,第一階段0.17-0.19,第二階段0.19-.21,第三階段0.21-0.23,第四階段0.23-0.25,第五階段高于0.25。這個過程產生了8585個光譜的訓練庫。對應于健康和疾病五個階段的每個訓練集占整個訓練集的百分比分別為86.2%、4.7%、3.3%、2.00%、2.1%和1.7%。
建模
圖2顯示了用于實現實驗室疾病檢測模型和田間疾病檢測模型的建模過程。實驗室疾病檢測模型是一種經過微調的模型,用于在實驗室條件下拍攝的高光譜圖像上檢測疾病。對田間疾病檢測模型進行了微調,以便在田間條件下拍攝的高光譜圖像上檢測癥狀。兩個模型都在實驗室條件下采集的同一數據集上進行訓練。第一個預處理步驟是使用白色參考值和暗參考值校正實驗室原始光譜數據。然后,去除411nm以下和990nm以上的譜帶,因為它們含有太多的噪聲。503 nm及以下波段附近的噪聲和反射輕微升高是由于接種用藍色聚苯乙烯泡沫塑料托盤產生的高“藍色”反射。使用scikit-learn軟件包中的Savitzky-Golay平滑函數對數據進行平滑,然后通過將光譜除以850和900 nm之間的平均反射率進行歸一化。
圖2 疾病檢測建模圖,顯示最終工作流程以及實現此最終工作流程所需的步驟
使用scikit-learn Python軟件包的train_test_split算法將該數據集分開,70.0%(6006個光譜)用于訓練,30.0%(2579個光譜)用于模型驗證。這70.0%用于使用scikit-learn Python軟件包的LogisticRegressionCV函數來訓練邏輯回歸模型,從而產生一個有監(jiān)督的機器學習分類器,該分類器能夠將每個圖像像素分為六個類別之一:健康、階段1、階段2、階段3、階段4和階段5。LogisticRegressionCV函數有12個可能的C參數值作為輸入(0.1,0.5,1,1.5,2,4,10,15,20,30,50,100),算法從中自動選擇最佳C值。在這種情況下,算法保留了10的C值。這個經過訓練的模型被稱為實驗室疾病檢測模型。
使用實驗室模型對實驗室數據進行分類后,進行模型調整使模型更適合田間數據的分類。從現在起,這種新的、經過調整的模型被稱為“田間疾病檢測模型”。為了開發(fā)這種田間疾病檢測模型,通過將光譜除以850-900 nm的平均反射率進行歸一化,并進行Savitzky-Golay平滑,計算一階導數以消除陰影效應。測試了一系列波段組合、植被指數、特征選擇和光譜預處理步驟(包括1-3階導數)。一階導數被證明是消除陰影影響的唯一可行的預處理策略。因此,最終模型在第一次推導后使用了整個光譜范圍。
—— 結果 ——
這項工作的主要結果是發(fā)現,基于實驗室尺度的訓練數據集,可以訓練一種機器學習算法來檢測田間下的晚疫病癥狀。然而,建模過程并不簡單,需要進行修改,使最終模型僅在田間條件下可用(但不再在實驗室條件下可用)。
圖3顯示了馬鈴薯晚疫病菌感染期間(歸一化和平滑后)高光譜輪廓的發(fā)展。圖3A顯示了健康馬鈴薯組織的光譜輪廓。在680 nm處,葉綠素吸收導致反射率的典型下降是顯而易見的。紅邊區(qū)域(700到780 nm之間)的形狀非常清晰,在從可見光區(qū)域到近紅外區(qū)域的過渡過程中,反射率急劇上升。在可見光區(qū)域,綠色波段(近550nm)的高反射率清晰可見。圖3B顯示了馬鈴薯晚疫病病變的光譜輪廓。紅邊區(qū)域的形狀更不明確,呈現出更為平緩的傾斜。與正常光譜相比,綠色區(qū)域的反射率降低。圖3C顯示了馬鈴薯晚疫病病變的橫截面相對應的光譜。在這里,可以看到光譜特征從健康組織到疾病組織的轉變。比較圖3A-C中不同感染階段的光譜,可見光區(qū)域的反射率在綠色區(qū)域降低,在紅色和藍色區(qū)域增加,在近紅外區(qū)域增加,這表明隨著晚疫病病變的發(fā)展,875 nm之前的反射率值降低,875 nm之后的反射率增加。
圖4更為明顯和詳細地描述了這一發(fā)展,圖4描繪了本研究中開發(fā)的馬鈴薯晚疫病預測模型的每個類別訓練集的光譜。通過計算混淆矩陣來評估建模精度和分類錯誤。實驗室模型實現了94.1%的建模精度,在更改模型特征以用于田間疾病檢測后,該精度降至80.8%。
圖5顯示了在高光譜庫上訓練的實驗室邏輯回歸疾病檢測模型的混淆矩陣。由于訓練數據是從單個感興趣的區(qū)域中選擇的,然后自動標記,因此相對較多的訓練樣本對應于“健康”類。在評估整體模型準確性時,這一點很重要,因為可能存在對健康標簽分類的偏見。然而,從混淆矩陣來看,很明顯,無論類別如何,幾乎沒有錯誤分類。
圖3 疾病進展過程中高光譜特征的發(fā)展。A健康馬鈴薯組織的高光譜特征,B馬鈴薯晚疫病病變的高光譜特征,C馬鈴薯晚疫病病變橫截面像素對應的高光譜曲線
圖4 高光譜訓練庫中每個疾病進展等級的馬鈴薯葉片光譜圖,平均光譜以粗體顯示。
圖5 根據全譜實驗室數據訓練的邏輯回歸疾病檢測模型對應的混淆矩陣。階段1至5代表基于668 nm波段的侵染性支原體疾病進展階段
表2 從混淆矩陣得出的感染性支原體實驗室疾病檢測模型的診斷(以比率給出)
TPR真陽性率、TNR真陰性率、PPV精密度/陽性預測值、NPV陰性預測值、FPR假陽性率、FNR假陰性率、FDR假發(fā)現率、ACC準確度
實驗室模型的整體模型精度為94.1%。表2顯示了從混淆矩陣(圖5)得出的每類實驗室疾病檢測模型的診斷結果。每個類別的檢測準確率為95.0%或更高。第2階段和第3階段的假陰性率(FNR)最高,分別為15.0%和12.0%,表明這一數量的群體被錯誤分類。注意,錯誤分類是模型錯誤標記特定光譜的結果。
為了進一步評估分類性能,通過對用于高光譜庫建設的高光譜圖像的每個像素進行分類來生成分類圖像。研究并檢查了該圖是否存在異常,還研究了疾病在整個葉片中的傳播。圖6顯示了實驗室模型對藍色泡沫塑料托盤的高光譜圖像進行的分類,托盤中含有接種了馬鈴薯晚疫病菌的馬鈴薯植株的分離葉片。圖6A顯示了完全分類的圖像,而圖6B顯示了單個感染性瘧原蟲病變的特寫。圖6C顯示了分離葉片托盤的正常RGB圖像,僅疊加了階段1和階段2像素。圖6D顯示了病變的特寫RGB圖像,再次與1期和2期疾病像素疊加,以可視化高光譜相機檢測到的病變(1至5期)覆蓋的區(qū)域大于RGB圖像中肉眼可見的深棕色斑點。
為了評估在實驗室條件下訓練的疾病檢測模型在野外條件下的性能,為野外條件下測量的所有高光譜圖像構建了分類圖像,通過檢查田間高光譜圖像上可見的晚疫病癥狀分類來評估模型性能。圖7顯示了在野外條件下測量的12幅高光譜圖像的代表性圖像的logistic回歸實驗室疾病檢測模型分類(表1)。圖7A顯示了從高光譜數據立方體中獲取的RGB圖像。請注意,RGB圖像中的白色區(qū)域代表土壤像素,由于這些區(qū)域的低反射率和大量噪聲,這些像素看起來很亮。在歸一化步驟中,該低反射率被轉換為高反射率(未顯示數據)。盡管視覺疾病評估(表1)證實了癥狀的存在,但實驗室模型并未成功識別疾病。
圖6 實驗室條件下,在感染馬鈴薯晚疫病菌3天后測量的托盤分離馬鈴薯葉片的高光譜圖像分類。A分類圖像,B感染支原體病變特寫,C階段1和階段2疊加在超立方體的正常RGB圖像上,顯示可見的深棕色病變,周圍有疾病檢測模型分類的紅色和黃色區(qū)域
圖7 使用實驗室檢測模型對田間采集的12次掃描的代表性高光譜圖像進行分類。A為RGB圖像,B分類圖像
在調整建模和預處理策略以開發(fā)田間疾病檢測模型后,再次生成田間掃描的分類圖像,以重新評估模型性能。圖8顯示了在野外條件下進行的12次掃描的代表性高光譜圖像(表1),按照改進的田間疾病檢測模型進行分類。田間疾病檢測模型的分類精度降低(從94.1%降至80.8%),但提高了田間測量的分類性能。圖8A顯示了從超立方體導出的RGB圖像。圖8B顯示了分類結果。很難區(qū)分第一階段、第三階段和第五階段之間的疾病,但第四階段的分類似乎準確地涵蓋了田間視覺上存在的癥狀。
結果表明,盡管調整后的疾病檢測模型在田間條件下表現合理(圖8),但它無法對原始實驗室數據集進行分類(圖9)。圖9顯示了通過田間疾病檢測模型對離體葉片數據集(在實驗室獲得)的分類。
為了表明該模型在田間條件下繪制疾病圖譜的有效性,由訓練有素的技術人員將分類圖像與傳統(tǒng)的視覺評分進行比較。圖10將田間疾病檢測模型的分類與田間技術人員確定的疾病評分進行了比較。技術人員的結果與方程式1的模型結果之間存在線性回歸,R2值為0.985。
y = 0.7894x ? 1.8175 (方程式1)
y為模型結果,x為技術人員的結果。這表明技術人員獲得的結果高估了作物的病害嚴重程度,或者模型低估了病害嚴重程度。注意,由于僅包括4個圖(對應于12個高光譜圖像),且只有3個不同的疾病嚴重程度,該R2值僅指示模型輸出和視覺評分結果之間的相關性,還需要進一步確認。
圖8 使用田間采集的12次掃描的代表性高光譜圖像的經調整的田間邏輯回歸檢測模型對高光譜圖像進行分類。A超立方體獲得的RGB圖像,B分類圖像
圖9 使用改進的田間邏輯回歸疾病檢測模型對實驗室數據進行分類。A分離的土豆葉的托盤,B病損特寫
圖10 技術人員和田間疾病檢測模型測量的四個地塊的平均疾病嚴重程度的比較。
—— 結論 ——
當前工作的結果強調了利用實驗室數據訓練馬鈴薯晚疫病菌田間疾病檢測模型的困難性。期間開發(fā)了兩個模型,一個模型能夠對實驗室數據進行分類,準確率為94.1%,但無法對田間條件下拍攝的圖像進行分類,另一個模型經過調整,在田間條件下表現更好,但準確率降低了80.8%,并高估了實驗室掃描的癥狀。經過實驗室訓練的模型在實驗室數據方面表現良好,能夠在實驗室檢測到早期的、可見的癥狀。然而,該模型無法對田間數據進行分類。經過調整的田間檢測模型(也根據實驗室數據進行了訓練)能夠在田間條件下對感染后期進行分類,但在實驗室數據上表現不佳,突出了兩種數據類型之間的差異??梢缘贸鼋Y論,根據實驗室數據開發(fā)一個在一定程度上適用于田間條件的模型是困難的,但并非不可能。作者建議考慮創(chuàng)建一個高光譜訓練庫,將田間數據或至少溫室和實驗室數據融合在一起。這種混合模型結合了實驗室條件下收集早期疾病發(fā)展信息的優(yōu)勢,以及獲得田間數據的噪聲和干擾因素信息的優(yōu)勢。
原文信息:
Appeltans, S., Pieters, J.G. & Mouazen, A.M. Potential of laboratory hyperspectral data for in-field detection of Phytophthora infestans on potato. Precision Agriculture, 2021: 1-18.
擴展閱讀: