本發明涉及基因編輯領域,尤其涉及一種微生物基因編輯方案自動設計方法、系統和存儲介質。
背景技術:
1、基因編輯是指通過基因編輯技術對生物體基因組特定目標進行修飾的過程。高效而精準的實現基因插入、缺失或替換,從而改變其遺傳信息和表現型特征。然而目前主要是通過人工設計編輯方案,但設計時的步驟繁瑣,且耗時長,其會導致設計成本增大;同時,對實驗技術人員經驗依賴較高,設計完可能出現結果不準的問題,導致基因編輯成功率降低。
技術實現思路
1、本發明的目的在于提出一種微生物基因編輯方案自動設計方法,其為多種菌株的基因編輯實驗提供了sgrna序列、同源臂引物序列的方案設計,其sgrna序列設計方法綜合考慮設計區域、特異性等因素,使基因編輯成功率更高,能替代繁雜耗時的人工方案,為科研用戶節省大量時間。
2、本發明還提出一種微生物基因編輯方案自動設計系統,其用于執行上述的一種微生物基因編輯方案自動設計方法。
3、為達此目的,本發明采用以下技術方案:
4、一種微生物基因編輯方案自動設計方法,包括以下步驟:
5、(1)針對不同類型的菌株選擇設計對象,設計對象為細菌或真菌;確定目的基因后,從ncbi數據庫中獲取目的基因信息;
6、(2)若所述步驟(1)的設計對象選擇為細菌時,只執行步驟(2-1);若所述步驟(1)的設計對象選擇為真菌時,執行步驟(2-2);
7、(2-1)細菌的設計方案包括以下步驟:
8、(2-1-1)確定grna設計區域:當基因≤1000bp時,兩條grna分別設計在基因1/4~3/4之間的區域;當基因大于1000bp時,兩條grna分別設計在基因兩端,第一條grna設計在一側100~400bp范圍內,第二條grna設計在另一側100~400bp范圍內;
9、(2-1-2)挑選最優的grna的序列:使用crispor軟件在grna設計區域中篩選grna序列,均要滿足以下三個條件:
10、①特異性分數specificity?score為100;
11、②脫靶預測off-targets全為0;
12、③doench'16的分數≥40;
13、(2-1-3)序列復雜性分析:基因及其上下游1000bp以內的序列做點陣分析和gc含量分析,并找出潛在的發夾結構的位置;
14、(2-2)真菌的設計方案使用移碼方案,所述移碼方案包括以下步驟:
15、(2-2-1)移碼方案的grna設于基因內部中起始密碼子后面的任意與其他基因不重疊的位置;
16、(2-2-2)使用crispor軟件在grna設計區域中篩選grna序列,并根據以下規則挑選最優的grna的序列:
17、①特異性分數specificity?score≥80,脫靶預測off-targets全為0,lindel分數≥80,從符合以上條件的grna中選取lindel分數最高的grna;
18、(2-2-3)序列復雜性分析:基因及其上下游1000bp以內的序列做點陣分析和gc含量分析,并找出潛在的發夾結構的位置;
19、(3)為同源臂鑒定引物設計兩對四條引物序列,引物設計區域的選擇條件為:
20、上游同源臂-反向引物up-r:上游第一個編碼基因右端200bp到目的基因前1/3以內均可設計引物,離基因的起始密碼子或終止密碼子近的優先;
21、上游同源臂-正向引物up-f:若目的基因長度≤2000bp,在距離up-r引物450~600bp之間的區域設計引物;若目的基因長度大于2000bp,在距離up-r引物950~1100bp之間的區域設計引物;
22、下游同源臂down-f:目的基因后1/3到下游第一個編碼基因左端200bp以內均可設計引物,離基因的起始密碼子或終止密碼子近的優先;
23、下游同源臂down-r:若目的基因長度≤2000bp,在距離down-f引物450~600bp之間的區域設計引物;若目的基因長度大于2000bp,在距離down-f引物950~1100bp之間的區域設計引物;
24、(4)輸出sgrna序列和同源臂引物序列的設計結果。
25、可優化地,所述步驟(1)中,根據基因名、基因id或locus?tag三種特征標識來確定目的基因。
26、可優化地,在所述步驟(2-1-2)中,對于同時滿足三個條件的grna序列中,選擇lindel分數最高的grna。
27、可優化地,在所述步驟(3)中,同源臂引物符合標準為:
28、①引物tm值在58~62℃之間;
29、②引物gc含量在35%~65%之間;
30、③3’端最后一個堿基是g或c;
31、④引物對之間不能有連續6bp互補配對;
32、⑤引物序列長度17~30bp。
33、可優化地,在所述步驟(2-2-2)中,若沒有符合規則①的序列,則繼續使用規則②來篩選;
34、②specificity?score≥80,lindel≥70,從符合以上條件的grna中選取lindel分數最高的grna;若沒有符合規則②的序列,則繼續使用規則③來篩選;
35、③specificity?score≥70,lindel≥60,從符合以上條件的grna中選取lindel分數最高的grna;若沒有符合該條件的序列,則該基因無法設計移碼敲除方案。
36、可優化地,在所述步驟(2-2)中,真菌的設計方案使用全基因敲除方案代替移碼方案;
37、(2-2-1)grna設在基因內部兩側100~400bp范圍之間,避開與其他基因重疊的區域;
38、(2-2-2)使用crispor軟件在grna設計區域中篩選grna序列,并根據以下規則挑選最優的grna的序列:
39、①specificity?score≥80,lindel≥80,off-targets為0,從符合以上條件的grna中選取lindel分數最高的grna;若沒有符合該規則的序列,則按規則②篩選;
40、②specificity?score≥70,lindel≥60,從符合以上條件的grna中選取lindel分數最高的grna;若沒有符合該條件的序列,則該基因無法設計全基因敲除方案;
41、(2-2-3)序列復雜性分析:基因及其上下游1000bp以內的序列做點陣分析和gc含量分析,并找出潛在的發夾結構的位置。
42、一種微生物基因編輯方案自動設計系統,包括:基因獲取模塊、細菌設計策略模塊、真菌設計策略模塊和同源臂鑒定引物設計模塊;
43、所述基因獲取模塊,用于針對不同類型的菌株選擇設計對象,設計對象為細菌或真菌;確定目的基因后,從ncbi數據庫中獲取目的基因信息;并根據設計對象選擇為細菌或真菌,調用所述細菌設計策略模塊或真菌設計策略模塊;
44、所述細菌設計策略模塊,用于確定grna設計區域:當基因≤1000bp時,兩條grna分別設計在基因1/4~3/4之間的區域;當基因大于1000bp時,兩條grna分別設計在基因兩端,第一條grna設計在一側100~400bp范圍內,第二條grna設計在另一側100~400bp范圍內;并挑選最優的grna的序列:使用crispor軟件在grna設計區域中篩選grna序列,均要滿足以下三個條件:
45、①特異性分數specificity?score為100;
46、②脫靶預測off-targets全為0;
47、③doench'16的分數≥40;
48、所述細菌設計策略模塊,還用于序列復雜性分析:在基因及其上下游1000bp以內的序列做點陣分析和gc含量分析后,找出潛在的發夾結構的位置;
49、所述真菌設計策略模塊,用于執行移碼方案:其將grna設于基因內部中起始密碼子后面的任意與其他基因不重疊的位置;并使用crispor軟件在grna設計區域中篩選grna序列,并根據以下規則挑選最優的grna的序列:
50、①特異性分數specificity?score≥80,脫靶預測off-targets全為0,lindel分數≥80,從符合以上條件的grna中選取lindel分數最高的grna;
51、所述真菌設計策略模塊,還用于進行序列復雜性分析:基因及其上下游1000bp以內的序列做點陣分析和gc含量分析,并找出潛在的發夾結構的位置;
52、所述同源臂鑒定引物設計模塊,用于為同源臂鑒定引物設計兩對四條引物序列,引物設計區域的選擇條件為:
53、①上游同源臂-反向引物up-r:上游第一個編碼基因右端200bp到目的基因前1/3以內均可設計引物,離基因的起始密碼子或終止密碼子近的優先;
54、②上游同源臂-正向引物up-f:若目的基因長度≤2000bp,在距離up-r引物450-600bp之間的區域設計引物;若目的基因長度大于2000bp,在距離up-r引物950-1100bp之間的區域設計引物;
55、③下游同源臂down-f:目的基因后1/3到下游第一個編碼基因左端200bp以內均可設計引物,離基因的起始密碼子或終止密碼子近的優先;
56、④下游同源臂down-r:若目的基因長度≤2000bp,在距離down-f引物450~600bp之間的區域設計引物;若目的基因長度大于2000bp,在距離down-f引物950~1100bp之間的區域設計引物。
57、可優化地,若沒有符合規則①的序列,則繼續使用規則②來篩選;
58、②specificity?score≥80,lindel≥70,從符合以上條件的grna中選取lindel分數最高的grna。若沒有符合該條件的序列,則按規則③篩選;
59、③specificity?score≥70,lindel≥60,從符合以上條件的grna中選取lindel分數最高的grna;若沒有符合該條件的序列,則該基因無法設計移碼敲除方案。
60、可優化地,所述真菌設計策略模塊,還用于執行全基因敲除方案,將grna設在基因內部兩側100~400bp范圍之間,避開與其他基因重疊的區域;使用crispor軟件在grna設計區域中篩選grna序列,并根據以下規則挑選最優的grna的序列:
61、①specificity?score≥80,lindel≥80,off-targets為0,從符合以上條件的grna中選取lindel分數最高的grna;若沒有符合該規則的序列,則按規則②篩選;
62、②specificity?score≥70,lindel≥60,從符合以上條件的grna中選取lindel分數最高的grna;若沒有符合該條件的序列,則該基因無法設計全基因敲除方案。
63、一種存儲介質,其中存儲有處理器可執行的程序,所述處理器可執行的程序在由處理器執行時用于執行上述的一種微生物基因編輯方案自動設計方法。
64、與現有技術相比,上述技術方案中的一個技術方案具有以下有益效果:
65、本方案為多種菌株的基因編輯實驗提供了sgrna序列、同源臂引物序列的方案設計,其sgrna序列設計方法綜合考慮設計區域、特異性等因素,使基因編輯成功率更高,能替代繁雜耗時的人工方案,為科研用戶節省大量時間,解決了人工設計基因敲除的最佳位點和設計sgrna序列方案面臨成本大的問題。