1.一種自動取車方法,其特征在于,所述自動取車方法包括:
獲取目標終端和車輛的位置信息;
根據所述目標終端和所述車輛的位置信息,獲取所述車輛的前輪朝向與所述車輛和所述目標終端之間的連線的夾角;
檢測所述車輛附近是否存在障礙物,若所述車輛附近存在所述障礙物,則獲取所述車輛與所述障礙物的最小距離;
根據所述夾角和所述最小距離計算得到增強信號,所述增強信號用于表示所述車輛在對應的所述夾角和所述最小距離時,所述車輛朝向所述目標終端行駛的可靠程度;
根據所述夾角、所述最小距離和計算得到的所述增強信號,采用強化學習算法確定行駛策略;
根據所述行駛策略控制所述車輛的行駛軌跡,直至所述車輛行駛至所述目標終端所處的位置。
2.根據權利要求1所述的自動取車方法,其特征在于,所述檢測所述車輛附近是否存在障礙物,包括:
獲取實際探測距離和最大探測距離,所述實際探測距離為所述車輛上的距離檢測裝置與實際探測到的所述障礙物之間的距離,所述最大探測距離為所述距離檢測裝置的最大探測距離;
當所述實際探測距離等于所述最大探測距離時,所述車輛附近不存在所述障礙物;
當所述實際探測距離小于所述最大探測距離時,所述車輛附近存在所述障礙物。
3.根據權利要求2所述的自動取車方法,其特征在于,所述根據所述夾角和所述最小距離計算得到增強信號,包括:
根據以下公式,計算得到所述增強信號,
其中,r為增強信號,β為權值,θ為所述目標終端與所述車輛之間的夾角,l為所述最大探測距離,di為實際探測距離,i為所述距離檢測裝置的數量。
4.根據權利要求3所述的自動取車方法,其特征在于,根據以下公式,得到所述權值:
5.根據權利要求2所述的自動取車方法,其特征在于,所述根據所述夾角、所述最小距離和計算得到的所述增強信號,采用強化學習算法確定行駛策略,根據所述行駛策略控制所述車輛的行駛軌跡,包括:
根據所述夾角和所述最小距離,確定行駛策略,所述行駛策略包括針對所述車輛的方向調節(jié)和調節(jié)幅度,根據所述行駛策略控制所述車輛的行駛軌跡;
獲取調整后的所述車輛的前輪朝向與所述車輛和所述目標終端之間的連線的夾角,以及調整后的所述車輛與所述障礙物的最小距離,計算得到調整后的增強信號;
比較所述增強信號和所述調整后的增強信號,以得到比較結果;
若所述調整后的增強信號表示的可靠程度高于所述增強信號表示的可靠程度,則將所述行駛策略記錄為正確的行駛策略,
若所述調整后的增強信號表示的可靠程度低于所述增強信號表示的可靠程度,則將所述行駛策略記錄為錯誤的行駛策略;
根據所述比較結果調整所述行駛策略;
根據調整后所述行駛策略控制所述車輛的行駛軌跡。
6.一種自動取車裝置,其特征在于,所述自動取車裝置包括:
位置獲取模塊,用于獲取目標終端和車輛的位置信息;
夾角獲取模塊,用于根據所述目標終端和所述車輛的位置信息,獲取所述車輛的前輪朝向與所述車輛和所述目標終端之間的連線的夾角;
最小距離獲取模塊,用于檢測所述車輛附近是否存在障礙物,若所述車輛附近存在所述障礙物,則獲取所述車輛與所述障礙物的最小距離;
計算模塊,用于根據所述夾角和所述最小距離計算得到增強信號,所述增強信號用于表示所述車輛在對應的所述夾角和所述最小距離時,所述車輛朝向所述目標終端行駛的可靠程度;
確定模塊,用于根據所述夾角、所述最小距離和計算得到的所述增強信號,采用強化學習算法確定行駛策略;
行駛模塊,用于根據所述行駛策略控制所述車輛的行駛軌跡,直至所述車輛行駛至所述目標終端所處的位置。
7.根據權利要求6所述的自動取車裝置,其特征在于,所述最小距離獲取模塊包括:
探測單元,用于獲取實際探測距離和最大探測距離,所述實際探測距離為所述車輛上的距離檢測裝置與實際探測到的所述障礙物之間的距離,所述最大探測距離為所述距離檢測裝置的最大探測距離;
當所述實際探測距離等于所述最大探測距離時,所述車輛附近不存在所述障礙物;
當所述實際探測距離小于所述最大探測距離時,所述車輛附近存在所述障礙物。
8.根據權利要求7所述的自動取車裝置,其特征在于,所述計算模塊包括:
第一計算單元,用于根據以下公式,計算得到所述增強信號,
其中,r為增強信號,β為權值,θ為所述目標終端與所述車輛之間的夾角,l為所述最大探測距離,di為實際探測距離,i為所述距離檢測裝置的數量。
9.根據權利要求8所述的自動取車裝置,其特征在于,所述計算模塊還包括:
第二計算單元,用于根據以下公式,得到所述權值:
10.根據權利要求6所述的自動取車裝置,其特征在于,所述確定模塊還包括:
確定單元,用于根據所述夾角和所述最小距離,確定行駛策略,所述行駛策略包括針對所述車輛的方向調節(jié)和調節(jié)幅度,根據所述行駛策略控制所述車輛的行駛軌跡;
所述計算模塊,還用于獲取調整后的所述車輛的前輪朝向與所述車輛和所述目標終端之間的連線的夾角,以及調整后的所述車輛與所述障礙物的最小距離,計算得到調整后的增強信號;
比較單元,用于比較所述增強信號和所述調整后的增強信號,以得到比較結果,若所述調整后的增強信號表示的可靠程度高于所述增強信號表示的可靠程度,則將所述行駛策略記錄為正確的行駛策略,若所述調整后的增強信號表示的可靠程度低于所述增強信號表示的可靠程度,則將所述行駛策略記錄為錯誤的行駛策略;
學習單元,用于根據所述比較結果調整所述行駛策略。