麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于深度學習的半自動圖像精標注方法與流程

文檔序號:11234436閱讀:3292來源:國知局
一種基于深度學習的半自動圖像精標注方法與流程
本發明屬于智能交通和圖像識別領域,特別涉及一種基于深度神經網絡的半自動圖像精標注方法。
背景技術
:現有的像素級圖像標注方法都是純人工完成,從零開始對原始圖像進行標注,這需要耗費大量的人力和財力。知名的交通場景數據集cityscapes使用純手動標注軟件labelme進行像素級標注,效率極低,每張圖像的標注、審核、修正等過程平均需要花費1.5小時,故盡管耗資巨大,cityscapes也僅制作出了5000張精標注圖像數據,其數量遠未達到實際使用的標準。類似數據集如kitti、camvid等也用完全手動的方式進行建設,均面臨著效率低、成本高的困境。技術實現要素:本發明所要解決的技術問題:克服現有技術的不足,提供一種基于深度神經網絡的半自動圖像精標注方法,解決像素級圖像精標注效率極低、成本極高的問題,大大減輕了標注負擔,加工效率較純人工方法提升了3倍以上。本發明所要解決的技術方案:1、一種基于深度學習的半自動圖像精標注方法,其特征在于包括如下步驟:(1)利用基于深度學習圖像語義分割模型對圖像進行預標注;(2)對預標注圖進行自動加工,去除噪聲點;(3)對原始圖像運行基于深度學習的目標檢測算法,得到目標類別和位置信息,根據檢測得到的目標類別和位置信息,在目標位置范圍內有對去除噪聲點后的預標注圖進一步修正分割錯誤;(4)采用校正軟件進行精細處理,在圖像層疊、輪廓高亮、分割圖半透明的輔助工具快速地發現并修正預標注圖中的缺陷,得到最終的標注圖。其中,所述步驟(2)中,采用滑動窗口變參數過濾算法去除噪聲點,具體實現如下:(1)在0-255之間均勻地選取n個灰度值作為類別標簽的定義,其中n為類別數;(2)對預標注圖進行腐蝕膨脹處理。最終每個像素點的最終類別由下式給定:c=argmini|pnew-p[i]|其中,c是類別編號,pnew代表腐蝕膨脹后的灰度值,p[i]代表第i個類別的灰度值。其中,所述步驟(4)中給出了一系列輔助標注人員快速發現和修正缺陷的工具集,其一般工作流程如下:(1)將原始圖像與預標注圖像進行層疊;(2)將預標注圖像設置為半透明狀態,其透明度可調;(3)根據預標注圖像中提供的語義區域自動完成輪廓高亮;(4)標注人員采用畫筆、魔棒等工具修正各區域邊緣,完成語義標注。本發明運用到的方法有:(1)圖像語義分割模型segnetsegnet是基于全卷機神經網絡(fcn)提出的一種端到端的編碼-解碼結構,編碼網絡將原始圖像進行卷積和最大值池化等操作,形成1x1xh的特征表示,再從這一特征表示處罰,通過上池化和反卷積解碼成與原圖尺寸一致的語義分割圖。(2)滑動窗口變參過濾算法首先,在0-255之間均勻地選取n個灰度值作為類別標簽的定義(n為類別數量,如segnet將交通場景圖像中的目標分為12類)。然后,對分割圖進行腐蝕膨脹處理。最后每個像素點的最終類別由下式給定:c=argmini|pnew-p[i]|其中,c是類別編號,pnew代表腐蝕膨脹后的灰度值,p[i]代表第i個類別的灰度值。使用同一種參數對全圖進行腐蝕膨脹的效果不盡如人意,因為在不同的區域噪聲的數量存在較大差異,所以應該對不同的情況使用不同的腐蝕膨脹參數進行處理。(3)目標檢測模型fasterr-cnnfasterr-cnn基于深度卷積神經網絡,是當下的主流目標檢測框架。主要由區域選舉網絡(rpn)、roipooling層、類別分支網絡和box回歸網絡構成。fasterr-cnn首次實現了基于深度學習的端到端的目標檢測模型訓練和識別,準確率較高,速度達到了準實時。(4)人工審核校正軟件道路行車場景的原圖在經過自動標注部分處理后,還存在著以下三個主要問題:存在噪聲點、目標輪廓不精確和存在未定義類別區域。針對這三個問題,開發了一套軟件輔助人工進一步審核修正。開發工具主要提供兩方面的功能,一是提供有效的比對功能,使標注審核人員能夠方便的對比原圖和預加工圖,快速發現和定位存在分割錯誤的地方;二是提供方便的修正工具,使標注審核人員在發現和定位分割錯誤之后,能以最簡易的操作修正錯誤。標注審核人員利用工具提供的兩類主要功能,針對粗標注結果中出現的具體問題來修正粗標注結果。本發明與現有技術相比的優點在于:(1)本發明提出了一系列實用的方法和工具來輔助標注人員完成復雜的像素級圖像精標注。使用了現有的基于深度學習的圖像語義分割模型segnet對圖像進行預標注。由于模型本身存在不足,預標注圖像中產生了大量的噪聲點,并且這些噪聲點在圖中分布不均,于是提出了一種滑動窗口變參數過濾算法,在去除噪聲點的同時基本不影響正確分割的區域。至此,得到了一張準確率較高、整體性較強的預標注圖,又提供了一套實用的工具集,使得標注人員能夠對預標注圖進行快速處理,完成標注任務。(2)在數據集cityscapes的建設過程中,完成一張圖像的精標注、審核、修正等過程,平均花費了1.5小時,故盡管耗資巨大,cityscapes也僅制作出了5000張精標注圖像數據,其數據量遠未達到實際使用的標準。利用本發明的系列方法,這一時間可縮短至20分鐘左右。附圖說明圖1為本發明方法的實現流程圖;圖2為segnet網絡結構;圖3為預加工圖中的典型問題;圖4選中誤識別噪聲點,將噪聲修改為正確的像素值;圖5為預標注的部分效果圖。具體實施方式如圖1所示,本發明基于深度學習的半自動圖像精標注方法,由以下步驟實現:1.segnet粗標注本發明使用的segnet是cambridge提出旨在解決自動駕駛或者智能機器人的圖像語義分割深度網絡,開放源碼,基于caffe框架。segnet網絡結構如圖2所示,input為輸入圖片,output為輸出分割的圖像,不同顏色代表不同的分類。它是一個對稱網絡,由中間pooling層與upsampling層作為分割,通過卷積提取高維特征,并通過pooling使圖片變小,再通過反卷積與upsampling,通過反卷積使得圖像分類后特征得以重現,upsampling使圖像變大,最后通過softmax,輸出不同分類的最大值。2.基于滑動窗口的變參數離群點歸并和腐蝕膨脹segnet輸出的分割圖用12種不同的顏色代表12個物體類別,例如路面、路標、人行道、建筑和騎車人員等,從分割圖中可以發現大量離群點以及邊緣參差不齊的情況,這很不利于人工的進一步處理,所以設計了一個基于滑動窗口的變參過濾算法。首先,在0-255之間均勻地選取12個灰度值作為類別標簽的定義。然后,對分割圖進行腐蝕膨脹處理。最后每個像素點的最終類別由下式給定:c=argmini|pnew-p[i]|其中,c是類別編號,pnew代表腐蝕膨脹后的灰度值,p[i]代表第i個類別的灰度值,使用同一種參數對全圖進行腐蝕膨脹的效果不盡如人意,因為在不同的區域噪聲的數量存在較大差異,所以應該對不同的情況使用不同的腐蝕膨脹參數進行處理。3.與目標檢測的結合對原始圖像運行目標檢測算法fasterr-cnn,得到標識物體的矩形框后,對矩形框范圍內進行濾波去噪、直方均衡的傳統方法進行預處理。同時,有了目標檢測網絡的輸出,可以輔助修正segnet網絡給出的預標注圖。具體地,如果場景理解網絡的輸出圖中,在除所給矩形框之外的區域出現了同一類別的物體,則視為錯誤分類,將其視為背景處理。這樣做是很有意義的,例如在自動駕駛場景中,如果無人駕駛車前方存在誤識別的車輛,那么它將不再前行或者做出非必要的避讓決策。另外,要達到這一效果,應盡可能地提高目標檢測網絡的召回率。為此,應將fasterrcnn最終輸出的閾值盡可能調低,實驗表明,調整為0.6比較合適。4.人工審核校正軟件道路行車場景的原圖在經過自動標注部分處理后,還存在著以下三個主要問題:存在噪聲點、目標輪廓不精確和存在未定義類別區域。如圖3所示,在圖中可以很明顯的觀察到,路面部分存在誤識別的噪聲點;目標車輛的輪廓與原圖相比不是十分精確;廣告牌部分由于網絡中并未做出定義,所以也并未識別。針對粗標注結果中的這三個主要問題,設計開發了如下工具輔助人工進一步審核修正。開發工具主要提供兩方面的功能,一是提供有效的比對功能,使標注審核人員能夠方便的對比原圖和預加工圖,快速發現和定位存在分割錯誤的地方;二是提供方便的修正工具,使標注審核人員在發現和定位分割錯誤之后,能以最簡易的操作修正錯誤。標注審核人員利用工具提供的兩類主要功能,針對粗標注結果中出現的具體問題來修正粗標注結果。利用上述開發工具集的主要功能,針對粗標注結果中出現的具體問題做如圖4的半透明化操作。原圖與預加工圖,在不同的圖層內,以不同的透明度同時呈現。為了快速發現和定位分割問題的具體位置,需要建立兩個圖層,同時呈現原圖和對應的預加工圖像,并調整透明度,使標注審核人員同時看到兩張圖,直觀對比兩張圖的差異,快速定位問題所在。針對預加工圖中存在噪聲點的情況:可以利用魔棒工具選中該噪聲點部分,確定該噪聲點對應的正確類別,通過變色工具,將誤識別噪聲點的像素值修改為正確類別對應的像素值。或者利用魔棒工具選中包含噪聲點的一塊區域,選擇進行不同算子大小的腐蝕膨脹操作,去掉噪聲點。針對預加工圖中目標輪廓不精確的情況:利用魔棒工具選中分割圖中該部分整體區域,提取出區域輪廓,通過與原圖對比,快速定位輪廓不精確的地方;利用加減工具,根據原圖精確修正區域輪廓,使其符合原圖實際情況。在修正過程中,將要刪除的部分修改為背景目標的像素值,將要增加的部分修改為該區域目標對應的像素值。針對出現語義分割網絡中未定義的類別目標的情況:按照所處地域實際情況,可以由標注審核人員按照制定的類別標準,新定義類別和類別所對應的像素值,利用魔棒工具和素描筆描出目標物體輪廓,選中目標對應區域并修改為定義的實際像素值。最后將審核修正完成后的分割結果保存,作為最終分割結果。經過上述主要操作,預加工圖中存在的噪聲點問題,輪廓不精確問題,存在未定義的新類別問題都得到了解決,最后得到的精確分割結果,可以直接用于自動駕駛算法的研究也可以用于場景理解網絡的進一步訓練。5.目標檢測修正實驗首先,在最大程度保證召回率的前提下,使用kitti數據集的訓練/驗證集,分別訓練yolo、ssd和faster-rcnn,其結果如表1所示(此處僅作粗略對比,僅對比三個主要類別,且對于各個類別不再區分easy、moderate和hard)。而后,使用在kitti上訓練好的fasterr-cnn參與到場景理解任務中,按照預先實現的算法流程,發現經過這步處理之后,分割結果的miou并未發生顯著變化(變化在±0.1之間),但確能糾正某些明顯的誤分類情況。表1yolo、fasterr-cnn和ssd在kittitrain/validation上的表現,評價指標為map,實驗gpu為nvidiatitanx(12gb)。不難發現,fasterr-cnn的性能最優(在不考慮運行時間的情況下)。6.粗標注結果結合目標檢測的實驗將通過segnet網絡得到的分割結果直接計算平均準確率,得到結果1;通過segnet網絡得到初步分割結果,進一步進行腐蝕膨脹和去離群點處理,然后結合目標檢測網絡結果,對同一張圖像,若在給定的確切物體的矩形框之外,又出現了同一類別的物體,則將其視為錯誤的分類,將這部分像素修改為背景像素的值,最后得到結果2,計算平均準確率。三次操作得到的各類別的準確率如表2。表2預標注實驗結果classsegnet3.5kdatasettrainingourmethodbuilding8873.878.7tree87.390.792.1sky92.390.193.8car808386.8sign-symbol29.583.986.4road97.695.2196.3pedestrian57.286.890.2fence49.46870.1column-pole27.874.680.2side-walk84.895.395.4bicyclist30.75359classavg.65.981.386.2globalavg.88.686.890.9meani/u50.269.170.5圖5為預標注的部分效果圖,從左到右分別為:原始圖,segnet結果,半自動加工后的結果,真實結果。7.最終效率對比為了對比人工標注與本文提出的半自動標注技術效率,設計如下簡單實驗驗證。準備兩組數量相等的圖像(各100張)。其中一組按照本文提出的半自動標注技術流程,首先用segnet進行語義分割,再結合目標檢測和傳統圖像處理方法,將得出的粗標注結果交付人工進一步校對,得到最終結果。另外一組直接交付人工標注。由于有了人的干預,兩種標注方式在理論上的準確率都是100%,所以只比較標注時間。實驗結果如下:表3標注效率對比總之,本發明利用深度神經網絡模型對圖像進行預標注,再對預標注圖自動加工,去除大量噪聲點,最后交由標注人員使用特定工具快速地發現和修正預標注圖中的缺陷,從而達到縮減標注時間的目的。實踐證明,本發明大大減輕了標注負擔,加工效率較純人工方法提升了3倍以上。當前第1頁12
當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 遂平县| 常熟市| 林甸县| 长岛县| 漳平市| 尚志市| 贡山| 逊克县| 绥阳县| 宜宾县| 建瓯市| 香河县| 沾益县| 武宁县| 屯昌县| 钟山县| 涿鹿县| 冷水江市| 谷城县| 凤城市| 类乌齐县| 腾冲县| 定结县| 襄汾县| 濮阳县| 玛沁县| 新巴尔虎右旗| 当阳市| 岳普湖县| 建宁县| 平塘县| 迁西县| 建德市| 揭西县| 都兰县| 历史| 温州市| 吕梁市| 新民市| 北京市| 磐安县|