專利名稱:優化的內切核酸酶及其用途的制作方法
技術領域:
本發明涉及優化的內切核酸酶,以及使用優化的內切核酸酶對多核苷酸進行靶向整合、靶向缺失或靶向突變的方法。
背景技術:
基因組改造(genome engineering)是概括用于在基因組內插入、缺失、取代或操縱特定遺傳序列的不同技術的通用術語,其具有大量的治療應用和生物技術應用。所有基因組改造技術或多或少都使用重組酶、整合酶或內切核酸酶,用于在預定位點制造DNA雙鏈斷裂,以促進同源重組。盡管已利用了大量的方法來制造DNA雙鏈斷裂,開發在基因組中于高度特異性位點制造DNA雙鏈斷裂的有效方法仍是基因療法、農業技術和合成生物學中的主要目標。 實現該目標的ー種手段是使用對下述序列具有特異性的核酸酶,所述序列足夠大到僅存在于基因組內的單個位點。識別此類大約15至30個核苷酸的大DNA序列的核酸酶因此被稱為“大范圍核酸酶”或“歸巢(homing)內切核酸酶”,并常與寄生性(parasitic)或自私的(selfish)DNA元件相關聯,所述元件例如常發現于植物和真菌基因組中的組I自剪接內含子和內含肽。大范圍核酸酶通常被分組為四個家族LAGLIDADG家族、GIY-YIG家族、His-Cys盒家族和HNH家族。這些家族的特征在于影響催化活性和它們的DNA識別序列的序列的結構基序。來自LAGLIDADG家族的天然大范圍核酸酶已被用于在昆蟲和哺乳動物細胞培養物以及很多生物(例如植物、酵母或小鼠)中有效促進位點特異性基因組修飾,但是該手段已局限于對DNA識別序列保守的同源基因的修飾或已向其中引入了識別序列的預改造(preengineered)基因組的修飾。為避免此類局限以及為促進DNA雙鏈斷裂激發的基因修飾的系統性(systematic)執行,已經制造了新的核酸酶類型。ー種新核酸酶類型由人工組合的非特異性核酸酶和高度特異性DNA結合結構域構成。已使用FokI限制性酶的非特異性核酸酶結構域和經改造的鋅指DNA結合結構域之間的嵌合融合體,在多種生物中展現了該策略的有效性(例如W003/089452)。該手段的一種變化是使用作為DNA結合結構域的大范圍核酸酶的失活變體與非特異性核酸酶(例如FokI)融合的,例如 Lippow 等人,“Creation of a type IIS restriction endonucleasewith a long recognition sequence”,Nucleic Acid Research(2009), Vol. 37,No. 9,3061至3073頁所公開的。一種備選手段是對天然大范圍核酸酶進行遺傳改造,以定制其與基因組中存在的位點結合的DNA結合區域,由此制造具有新特異性的經改造的大范圍核酸酶(例如W007093918、W02008/093249、W009114321)。但是,已針對DNA切割特異性改造過的很多大范圍核酸酶相對于其所來源的天然存在的大范圍核酸酶而言具有減少的切割活性(US2010/0071083)。大多數的大范圍核酸酶還作用于與其最優結合位點相似的序列上,這可能導致非意圖性的或者甚至有害的脫靶作用。已采取了若干手段,以增強大范圍核酸酶誘導的同源重組的效率,例如通過將核酸酶與大鼠糖皮質激素受體的配體結合結構域融合,以通過添加地塞米松或相似化合物促進或者甚至誘導該經修飾的核酸酶運送至細胞核以及由此運送至其靶向位點(W02007/135022)。盡管如此,本領域仍需要開發具有對同源重組有高誘導效率和/或針對其結合位點有高特異性的大范圍核酸酶,由此限制脫靶作用的風險。發明簡述本發明提供了 LAGLIDADG內切核酸酶家族的優化版本的內切核酸酶。特別是包括與SEQ ID N0:l、15、16、17或19所描述的多肽具有至少80%的氨基酸序列同一性的氨基酸序列的優化的內切核酸酶。在本發明的一個實施方案中,優化的內切核酸酶是野生型或經改造版本的I-SceI,如SEQ ID NO : I所述,或其一種在氨基酸水平具有至少55%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98% 或 99% 序列同一,注的同源物,具有一種或多種選自以下的突變a)I-Scel_l,I-Scel-2,I-Scel-3,I-Scel-4,I-Scel-5, I-Scel-6, I-Scel-7, I-Scel-8 和 I-Scel-9 ;b)S229K, S229A, S229P, S229G,S229E, S229Q, S229D, S229N, S229C, S229Y, S229T, M203K, M203H, M203R, Q77K, Q77H, Q77R, E130K, E130H, E130R, Y199K, Y199H 和 Y199R ;c)在其氨基酸序列的起始甲硫氨酸之后的甲硫氨酸、纈氨酸、甘氨酸、蘇氨酸、絲氨酸、丙氨酸、半胱氨酸、谷氨酸、谷氨酰胺、天冬氨酸、天冬酰胺、異亮氨酸或組氨酸;或d)選自上述a)和b)、a)和c)、b)和c)或a)、b)和c)的一個或多個突變的組
ム
ロ ο在一個實施方案中,優化的內切核酸酶包括SEQ ID NO :2、3或5所描述的氨基酸序列。在本發明的另ー個實施方案中,優化的內切核酸酶是經改造的內切核酸酶版本,其包含與SEQ ID NO: I、15、16、17或19所描述的多肽具有至少80%的氨基酸序列同一性的氨基酸序列。在另ー個實施方案中,本發明提供了與SEQ ID NO :I所描述的多肽具有至少80%的氨基酸序列同一性的內切核酸酶,或與SEQ ID NO :1所描述的多肽具有至少80%的氨基酸序列同一性的經改造的內切核酸酶版本,其中通過刪除或突變氨基酸序列TISSETFLK的任一個氨基酸,去除了氨基酸序列TISSETFLK。本發明的另ー個優選的實施方案是權利要求I至4的任一項所述的優化的內切核酸酶,其包含與SEQ ID NO :1或2所描述的多肽具有至少80%的氨基酸序列同一性的氨基酸序列,且包含SE9 ID NO :I的絲氨酸Nr229的突變。在本發明的另ー個實施方案中,優化的內切核酸酶與至少ー個鋅指結構域,或與源自轉錄激活物-樣(TAL)效應子的至少ー個重復單元,或與至少ー個鋅指結構域和源自轉錄激活物-樣(TAL)效應子的至少ー個重復單元融合。優選的,優化的內切核酸酶包括SecIII或SecIV分泌信號。本發明還提供了包含多核苷酸序列的經分離的多核苷酸,所述多核苷酸序列編碼優化的內切核酸酶。優選地,這ー多核苷酸是經密碼子優化的,或具有低含量的DNA不穩定性基序(motives),或具有低含量的密碼子重復,或具有低含量的隱蔽剪接位點,或具有低含量的備選起始密碼子,具有低含量的限制性位點,或具有低含量的RNA ニ級結構,或具有上述這些特征的任何組合。本發明的另ー實施方式是表達盒,所述表達盒包含與啟動子和終止子序列功能性組合的、如上文所述的經分離的多核苷酸。本發明的其他實施方案是下述載體、宿主細胞或非人生物,它們包含編碼優化的內切核酸酶的多核苷酸,或編碼優化的內切核酸酶的經分離的多核苷酸,或含有編碼優化的內切核酸酶的多核苷酸的表達盒,以及包含上述內切核酸酶、多核苷酸和表達盒的組合的載體、宿主細胞或非人生物。優選地,非人生物是植物。本發明提供了使用本文所述的內切核酸酶誘導同源重組或末端連接事件的方法。優選地,在用于序列切除的靶向整合的方法中。優選地,被切除的序列是標記基因。本發明進ー步提供了用于同源重組多核苷酸的方法,包括下列步驟a)提供用于同源重組的感受態細胞,b)提供下述多核苷酸,所述多核苷酸包含側翼有序列A和序列B的經優化的內切核酸酶的DNA識別位點,c)提供包含序列A’和B’的多核苷酸,所述序列A’和B’足夠長并且與序列A和序列B足夠同源,從而允許在所述細胞中同源重組,以及d)提供本文所述的優化的內切核酸酶或本文所述的表達盒,e)在所述細胞中組合b)、c)和d),以及f)檢測b)和c)的重組多核苷酸,或選擇出包含b)和c)的重組多核苷酸的細胞,或使包含b)和c)的重組多核苷酸的細胞生長。優選地,用于多核苷酸同源重組的方法導致同源重組,其中,步驟a)的感受態細胞中包含的多核苷酸序列從步驟f)的生長細胞的基因組中缺失。 本發明的另一方法是用于靶向突變的方法,所述方法包括下述步驟a)提供包含下述多核苷酸的細胞,所述多核苷酸包含優化的內切核酸酶的DNA識別位點,b)提供能切割步驟a)的所述DNA識別位點的、如權利要求I至7中任意一項所述的經優化的內切核酸酶或權利要求10所述的表達盒,c)在所述細胞中組合a)和b),以及d)檢測經突變的多核苷酸,或針對包含經突變的多核苷酸的細胞加以選擇并且生長所述細胞。在本發明的另ー優選的實施方式中,上文所述的方法包括下述步驟,其中優化的內切核酸酶和DNA識別位點組合于至少ー種細胞中,這通過生物的雜交、通過轉化或通過經由融合至經優化內切核酸酶的SecIII或SecIV肽介導的運送來實現。附圖
簡述圖I顯示了同源重組頻率的比較,這是通過在三種不同的I-SceI變體誘導重組后,β-葡糖醛酸糖苷酶活性的重建藍色幼苗)來測量的。每個I-SceI變體都在5株攜帶了測試構建體的不同植物株系中測試。對于每個組合,分析96株幼苗的Τ2代的β-葡糖醛酸糖苷酶活性(“ I-SceI ”,具有SEQ ID NO :1所述的氨基酸序列;"I-SceI c-term mod”具有SEQ ID NO 3所述的氨基酸序列;“NLS I-SceI c-term mod”具有SEQ ID NO :5所述的氨基酸序列),還參見實施例10b。圖2描述了不同的I-SceI同源物的序列比對,其中I是SEQ ID N0:l,2是SEQ IDNO: 15,3 是 SEQ ID NO: 16,4 是 SEQ ID NO : 17,5 是 SEQID NO: 18。發明詳述本發明提供了優化的內切核酸酶,其可以用作備選的誘導DNA雙鏈斷裂的酶。本發明還提供了使用這些優化的內切核酸酶的方法。優化的內切核酸酶是I-Sce-I(SEQ ID NO 1所述)的變體,以及I-Sce-I的同源物,所述同源物在氨基酸水平具有至少55 %、58 %、60 %、70 %、80 %、85 %、90 %、92 %、93%、94%、95%、96%、97%、98%或99%序列同一性。優化的I-SceI版本也被稱為優化的I-SceI。I-SceI內切核酸酶的同源物可克隆自其它生物,或可通過對LAGLIDADG內切核酸酶加以突變來制造,例如通過替代、添加或缺失給定的LAGLIDADG內切核酸酶的氨基酸序列中的氨基酸來進行。例如,可向LAGLIDADG內切核酸酶的氨基酸序列添加核定位信號和/或改變其序列的一個或多個氨基酸和/或缺失其序列的部分,例如,其N-末端的部分或C-末端的部分。表I =I-SceI的示例性同源物(可克隆自其它生物)描述在表I中;
·
Oui-Prot登生物SEQID 與I-SeeI的I基酸序列同
錄號NO;一性
A7LCPI釀酒酵母(& eerevM )IWO
Q36760釀酒酵母1598
063264二孢接合酵母 U. blsporm)1672
Q34839耐熱克魯維酵母([i/wmcuto/mww》1771
Q34807加拿大畢赤酵母(P. canadensis)18S8可用于本發明的LAGLIDADG內切核酸酶可在藻類、真菌、酵母、原生動物、葉綠體、線粒體、細菌和古細菌的基因組中發現。LAGLIDADG內切核酸酶包含至少一個保守的LAGLIDADG基序。LAGLIDADG基序的名稱基于出現于所有LAGLIDADG內切核酸酶中的特征性氨基酸序列。術語LAGLIDADG是該氨基酸序列根據STANDARD ST. 25( S卩,PCIPI執行協調委員會(PCIPI Executive Coordination Committee)針對專利申請中呈現的核苷酸和氨基酸序列表所采用的標準)中所述的單字母編碼的首字母縮寫。但是,LAGLIDADG基序并非在所有LAGLIDADG內切核酸酶中完全保守(見例如 Chevalier 等人(2001), Nucleic Acids Res. 29(18) :3757 至 3774,或 Dalgaard 等人(1997),Nucleic Acids Res. 25(22) :4626 至 4638),從而一些 LAGLIDADG 內切核酸酶在它們的LAGLIDADG基序中包含一個或數個氨基酸改變。包含僅一個LAGLIDADG基序的LAGLIDADG內切核酸酶通常作為同源或異源二聚體發揮作用。包含兩個LAGLIDADG基序的LAGLIDADG內切核酸酶作為單體發揮作用,并且通常包含偽二聚體結構。LAGLIDADG內切核酸酶可分離自表I中作為例子提到的生物的多核苷酸,或通過本領域已知的技術從頭合成,例如使用本領域技術人員已知的公眾數據庫中可獲得的序列信息來進行,所述數據庫例如 Genbank (Benson (2010)), Nucleic Acids Res 38 :D46_51 或Swissprot(Boeckmann(2003), Nucleic Acids Res 31 :365-70)。可在針對蛋白質家族的PFAM-數據庫中發現LAGLIDADG內切核酸酶的集合。PFAM-數據庫檢錄號PR)0961描述了 LAGLIDADG I蛋白質家族,其包含約800條蛋白序列。PFAM-數據庫檢錄號PF03161描述了 LAGLIDADG 2蛋白質家族的成員,其包含約150條蛋白序列。可在InterPro數據庫中找到LAGLIDADG內切核酸酶的一個備選集合,例如,InterPro檢錄號 IPR004860。產生LAGLIDADG內切核酸酶的同源物的另一種方法是突變LAGLIDADG內切核酸酶的氨基酸序列,從而修飾它的DNA結合親和力、它的二聚體形成親和力或改變它的DNA識別序列。LAGLIDADG內切核酸酶的蛋白質結構確定以及同源物的序列比對允許涉及下述可以改變的氨基酸的理性的選擇,所述氨基酸的改變影響它的DNA結合親和力、它的酶活性或改變它的DNA識別序列。在本文中使用時,術語“DNA結合親和性”表示大范圍核酸酶或LAGLIDADG內切核酸酶與參照DNA分子(例如DNA識別序列或任意序列)非共價聯結的趨勢。結合親和性是通過解離常數Kd (例如,I-SceI針對WT DNA識別序列的Kd為大約O. InM)測量的。在本文中使用時,如果相對于參照大范圍核酸酶或LAGLIDADG內切核酸酶而言,重組大范圍核酸酶針對參照DNA識別序列的Kd增加或減少統計上顯著(P < O. 05)的量,那么大范圍核酸酶則具有“變動的”結合親和性。在本文中使用時,術語“酶活性”指大范圍核酸酶(例如LAGLIDADG內切核酸酶)切割特定DNA識別序列的速率。此類活性是可測量的酶促反應,所述反應涉及對雙鏈DNA的磷酸二酯鍵的水解。作用于特定DNA底物上的大范圍磷酸酶的活性受大范圍核酸酶對該 特定DNA底物的親和性(affinity)或親合力(avidity)的影響,這又進而受與DNA的序列特異性相互作用和非序列特異性相互作用的影響。可通過缺失核酸酶氨基酸序列中的50、40、30、20、10、9、8、7、6、5、4、3、2或I個氨
基酸對核酸酶進行優化,而不破壞其內切核酸酶活性。例如,當LAGLIDADG內切核酸酶的氨基酸序列中的部分被缺失的情況下,保留上文所述的LAGLIDADG內切核酸酶基序則是重要的。優選地,缺失PEST序列或其它失穩(destabilizing)基序,例如KEN-框、D-框和A-框。還可通過引入單個氨基酸改變,例如向PEST序列中引入帶正電荷的氨基酸(精氨酸、組氨酸和賴氨酸),來破壞這些基序。經過突變而修飾了它的DNA結合親和性或改變了它的DNA識別位點的LAGLIDADG內切核酸酶被稱為經改造的內切核酸酶。可以像其他LAGLIDADG內切核酸酶一樣,改造I-Sce I及其在氨基酸水平上具有至少55%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的I-Sce I同源物,從而改變它的DNA結合親和力、它的酶活性或改變它的DNA識別序列。經過改造的I-SceI和I-Sce I同源物版本在氨基酸水平上具有至少55 %、58 %、60 %、70 %、80 %、85 %、90 %、92 %、93 %、94%、95%、96%、97%、98%或 99% 的序列同一性因此,在本發明的一個實施方案中,優化的內切核酸酶是經改造的版本的I-Sce I及其在氨基酸水平上具有至少 55%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95 %、96%、97 %、98 %或99%的序列同一性的同源物,并且相比其未改造的形式(意指天然存在的各個LAGLIDADG內切核酸酶)時,具有改變的DNA結合親和力、改變的酶活性或改變的DNA識別序列。在本發明的另一個實施方案中,優化的內切核酸酶是SEQ ID NO :1所述的I-SecI或如它們天然存在的其在氨基酸水平上具有至少55%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物的變體。只要不包含其他突變,則這樣的同源物也將被認為是天然存在的同源物,其中所述同源物不是天然存在的,但具有A36G,L40M, L40V, I41S,I41N, L43A,H91A和I123L中的至少一個突變,所述突變對I-SceI的DNA結合親和力幾乎沒有影響,或者將改變的它的DNA識別序列,而相比SEQ ID NO : I所述的I-SecI或在氨基酸水平上具有至少55%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或 99% 的序列同一性的各個同源物(如其天然存在的),所述其他突變改變了其DNA結合親和力、酶活性或其DNA識別序列。具有增加的或減少的DNA結合親和性的I-SceI的經改造的版本例如被公開于W007/047859和W009/076292中,兩者通過引用包括到本文中。如果沒有另外的明確指明,所有突變體都將按照各內切核酸酶的野生型氨基酸序列的氨基酸編號來命名,例如,I-SceI的突變體L19將在如SEQ ID NO :1所示的野生型I-SceI氨基酸序列第19位處具有對亮氨酸的氨基酸替換。I-SceI的L19H突變體將以組氨酸替代野生型I-SceI氨基酸序列第19位的氨基酸亮氨酸。例如,I-SceI的DNA結合親和性可通過對應于選自下組的取代的至少一種修飾而增加,所述組由(a)用 H、N、Q、S、T、K 或 R對 D201、L19、L80、L92、Y151、Y188、I191、Y199 或 Y222的取代;或(b)用 K 或 R對 N15、N17、S81、H84、N94、N120、T156、N157、S159、N163、Q165、S166、N194或S202的取代構成。I-SceI的DNA結合親和性可通過對應于選自下組的取代的至少一種突變而減少,所述組由(a)用 H、N、Q、S、T、D 或 E 對 K20、K23、K63、K122、K148、K153、K190、K193、K195 或Κ223的取代;或(b)用 D 或 E 對 L19、L80、L92、Y151、Y188、1191、Y199、Y222、N15、N17、S81、H84、N94、N120、T156、N157、S159、N163、Q165、S166、N194 或 S202 的取代構成。具有改變的DNA識別序列的I-SceI、I-CreI、I-MsoI和I-CeuI的經改造版本被公開于例如 W007/047859 和 W009/076292 中。例如,I-SceI的一個重要DNA識別位點具有下述序列正義5’-TTACCCTGTTA T C C C T A G-3’堿基位置I 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18反義3' -AATGGGACAA T A G G G A T C-5/I-SceI的下述突變將使第4位對C的優先性改變至A :K50。I-SceI的下述突變將保持第4位對C的優先性K50、CE57。I-SceI的下述突變將使第4位對C的優先性改變至G :E50、R57、Κ57。I-SceI的下述突變將使第4位對C的優先性改變至T :Κ57、Μ57、Q50。I-SceI的下述突變將使第5位對C的優先性改變至A :K48、Q102。I-SceI的下述突變將保持第5位對C的優先性R48、K48、E102、E59。I-SceI的下述突變將使第5位對C的優先性改變至G :E48、K102、R102。I-SceI的下述突變將使第5位對C的優先性改變至T :Q48、C102、L102、V102。I-SceI的下述突變將使第6位對C的優先性改變至A :K59。I-SceI的下述突變將保持第6位對C的優先性R59、K59。 I-SceI的下述突變將使第6位對C的優先性改變至G :K84、Ε59。
I-SceI的下述突變將使第6位對C的優先性改變至T :Q59、Y46。I-SceI的下述突變將使第7位對T的優先性改變至A :C46、L46、V46。I-SceI的下述突變將使第7位對T的優先性改變至C :R46、K46、E86。I-SceI的下述突變將使第7位對T的優先性改變至G :K86、R86、Ε46。I-SceI的下述突變將保持第7位對T的優先性K68、C86、L86、Q46 *。I-SceI的下述突變將使第8位對G的優先性改變至A :K61、S61、V61、Α61、L61。I-SceI的下述突變將使第8位對G的優先性改變至C :E88、R61、Η61。I-SceI的下述突變將保持第8位對G的優先性E61、R88、Κ88。I-SceI的下述突變將使第8位對G的優先性改變至T :K88、Q61、Η61。I-SceI的下述突變將使第9位對T的優先性改變至A :T98、C98、V98、L9B。I-SceI的下述突變將使第9位對T的優先性改變至C :R98、K98。I-SceI的下述突變將使第9位對T的優先性改變至G :E98、D98。I-SceI的下述突變將保持第9位對T的優先性Q98。I-SceI的下述突變將使第10位對T的優先性改變至A :V96、C96、A96。I-SceI的下述突變將使第10位對T的優先性改變至C :K96、R96。I-SceI的下述突變將使第10位對T的優先性改變至G :D96、E96。I-SceI的下述突變將保持第10位對T的優先性Q96。I-SceI的下述突變將保持第11位對A的優先性C90、L90。I-SceI的下述突變將使第11位對A的優先性改變至C :K90、R90。I-SceI的下述突變將使第11位對A的優先性改變至G :Ε90。I-SceI的下述突變將使第11位對A的優先性改變至T :Q90。I-SceI的下述突變將使第12位對T的優先性改變至A :Q193。I-SceI的下述突變將使第12位對T的優先性改變至C :E165、E193、D193。I-SceI的下述突變將使第12位對T的優先性改變至G :K165、R165。I-SceI的下述突變將保持第12位對T的優先性C165、L165、C193、V193、A193、T193、S193。I-SceI的下述突變將使第13位對C的優先性改變至A :C193、L193。I-SceI的下述突變將保持第13位對C的優先性K193、R193、D192。I-SceI的下述突變將使第13位對C的優先性改變至G :E193、D193、Κ163、R192。I-SceI的下述突變將使第13位對C的優先性改變至T :Q193、C163、L163。I-SceI的下述突變將使第14位對C的優先性改變至A :L192、C192。I-SceI的下述突變將保持第14位對C的優先性E161、R192、K192。I-SceI的下述突變將使第14位對C的優先性改變至G :K147、Κ161、R161、R197、D192、E192。I-SceI的下述突變將使第14位對C的優先性改變至T :K161、Q192。I-SceI的下述突變將保持第15位對C的優先性Ε151。I-SceI的下述突變將使第15位對C的優先性改變至G :Κ151。I-SceI的下述突變將使第15位對C的優先性改變至T :C151、L151、Κ151。I-SceI的下述突變將保持第17位對A的優先性N152、S152、C150、L150、V150、T150。I-SceI的下述突變將使第17位對A的優先性改變至C :Κ152、Κ150。I-SceI的下述突變將使第17位對A的優先性改變至G :N152、S152、D152、D150、Ε150。I-SceI的下述突變將使第17位對A的優先性改變至T :Q152、Q150。I-SceI的下述突變將使第18位對G的優先性改變至A :K155、C155。I-SceI的下述突變將使第18位對G的優先性改變R155、K155。I-SceI的下述突變將保持第18位對G的優先性E155。I-SceI的下述突變將使第18位對G的優先性改變至T :H155、Y155。 若干突變的組合可增強效果。一個例子是三重突變體W149G、D150C和N152K,其將使I-SceI在第17位對A的優先性改變至G。為保持酶活性,應當避免I-SceI或其在氨基酸水平上具有至少55%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或 99% 的序列同一性的同源物的下述突變I38S、I38N、G39D、G39R、L40Q、L42R、D44E、D44G、D44H、D44S, A45E, A45D,Y46D、I47R、I47N、D144E、D145E、D145N 和 G146E。可組合改變了 I-SceI或其在氨基酸水平上具有至少55 %、58 %、60 %、70 %、80%、85%、90%、92%、93%、94%、95%、96%、97%、98% 或 99% 的序列同一性的同源物的酶活性、DNA結合親和性、DNA識別序列的突變,以制造經改造的內切核酸酶,例如基于I-SceI的經改造的內切核酸酶、并且較之SEQ ID NO :1所描述的I-SceI具有變動的DNA結合親和性和/或改變的DNA識別序列。除了理性的改造I-SecI外,還可以利用分子進化改變I-SceI或其在氨基酸水平上具有至少 55%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物的酶活性、DNA結合親和性、DNA識別序列。可例如采用DNA改組方案來調節編碼候選內切核酸酶的多核苷酸。DNA改組是遞歸性重組和突變的方法,其通過對相關基因的庫進行隨機片段化、接著通過聚合酶鏈式反應樣的方法重新組裝片段來進行。見例如,Stemmer(1994)Proc Natl Acad SciUSA 91:10747-10751;Stemmer(1994)Nature 370 :389-391 和 US5, 605,793、US 5,837,458、US 5,830,721和 US5,811,238。還可基于對給定內切核酸酶晶體結構的進一步了解,使用理性設計,來制造經改造的內切核酸酶,見例如,Faj ardo-Sanchez 等人,“Computer design of obligateheterodimer meganucleases allows efficient cutting of custom DNA sequences,,,Nucleic Acids Research,2008,第 36 卷,第 7 期,2163-2173。經改造的內切核酸酶以及它們各自的DNA識別位點的大量例子是本領域已知的,并被公開于例如 WO 2005/105989、WO 2007/034262、W02007/047859、WO 2007/093918、WO2008/093249、WO 2008/102198、WO 2008/152524、WO 2009/001159、WO 2009/059195、WO2009/076292,WO 2009/114321 或 WO 2009/134714,WO 10/001189 中,上述文獻均通過引用
并入本文。為了制造優化的核酸酶的突變和改變可以與用于制造經改造的內切核酸酶的突變組合,例如I-SceI的同源物可以是本文所述的優化的核酸酶,但也可以包括用于改變它的DNA結合親和性和/或改變它的DNA識別序列的突變。
通過調整多核苷酸序列使其適合生物的密碼子使用,或者通過從編碼內切核酸酶的多核苷酸序列中刪除備選的起始密碼子或者通過刪除隱蔽的多聚腺苷酸化信號,可以改善I-SceI或其在氨基酸水平上具有至少55%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物的氨基酸序列,以及編碼I-SceI或其在氨基酸水平上具有至少55%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物的多核苷酸,其中所述生物中意圖表達I-SceI或其在氨基酸水平上具有至少55%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或 99% 的序列同一性的同源物的。用于制造優化的核酸酶的突變:可以通過改變各個LAGLIDADG內切核酸酶的氨基酸序列,優化已優化過的核酸酶,如優化版本的I-SceI或其在氨基酸水平上具有至少55%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或 99% 的序列同一性的同源物,來增強蛋白穩定性。因此,較之未經優化的核酸酶的氨基酸序列而言,經優化的核酸酶不包含下 述,或具有降低的數量的下述a) PEST-序列b) KEN-框c)A_ 框,d)D-框,或e)根據N-末端規則包含用于穩定性的經優化的N-端末端,f)包含甘氨酸(glycin)作為N-端第二個氨基酸,或g)a)、b)、c)、d)、e)和 f)的任何組合。PEST序列是約12個氨基酸的序列,其包含至少一個脯氨酸、一個谷氨酸(glutamate)或天冬氨酸(aspartate),以及至少一個絲氨酸或蘇氨酸。PEST序列例如被描述于 Rechsteiner M, Rogers Sff. “PEST Sequences and regulation byproteolySis. ” TrendS Biochem. Sci. 1996 ;21(7),267 至 271 頁中。KEN-框的氨基酸共有序列是KENXXX(N/D)。A-框的氨基酸共有序列是AQRXLXXSXXXQRVL。
D-框的氨基酸共有序列是RXXL。對核酸酶進行穩定以對抗降解的另一途徑是根據N-末端規則優化各內切核酸酶的N-端的氨基酸序列。針對在真核生物中的表達優化過的核酸酶在其氨基酸序列的起始甲硫氨酸之后包含甲硫氨酸、纈氨酸、甘氨酸、蘇氨酸、絲氨酸、丙氨酸或半胱氨酸。針對在原核生物中的表達優化過的核酸酶在其氨基酸序列的起始甲硫氨酸之后包含甲硫氨酸、纈氨酸、甘氨酸、蘇氨酸、絲氨酸、丙氨酸、半胱氨酸、谷氨酸、谷氨酰胺、天冬氨酸、天冬酰胺、異亮氨酸或組氨酸。可通過缺失核酸酶氨基酸序列中的50、40、30、20、10、9、8、7、6、5、4、3、2或I個氨
基酸對核酸酶進行優化,而不破壞其內切核酸酶活性。例如,當LAGLIDADG內切核酸酶的氨基酸序列中的部分被缺失的情況下,保留上文所述的LAGLIDADG內切核酸酶基序則是重要的。用于優化核酸酶的另一途徑是向核酸酶的氨基酸序列添加核定位信號。例如,SEQID NO :4所描述的核定位信號。經優化的核酸酶可包含上文所述的方法和特征的組合,例如,它們可包含核定位信號,包含甘氨酸作為第二個N-端氨基酸,或者包含C-端的缺失,或這些特征的組合。具有上文所述的方法和特征的組合的經優化的核酸酶的例子是例如SEQ ID NOs :2、3和5所描述的。經優化的核酸酶不包含下述序列所示的氨基酸序列HVCLLYDQWVLSPPH, LAYWFMDDGGK, KTIPNNLVENYLTPMSLAYffFMDDGGK,KPIIY-IDSMSYLIFYNLIK, KLPNTISSETFLK,或 TISSETFLK,或者其不包含下述序列所示的氨基酸序列HVCLLYDQWVLSPPH, LAYWFMDDGGK, KPIIYIDSMSYLIFYNLIK, KLPNTISSETFLK 或TIS-SETFLK, 或者其不包含下述序列所示的氨基酸序列HVCLLYDQWVLSPPH, LAYWFMDDGGK, KLPNTISSETFLK 或 TISSETFLK,或者其不包含下述序列所示的氨基酸序列LAYWFMDDGGK, KLPNTISSETFLK 或 TISSETFLK,或者其不包含下述序列所示的氨基酸序列KLPNTISSETFLK或TISSETFLK。在一種實施方式中,經優化的核酸酶是I-SceI或其在氨基酸水平上具有至少55%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98% 或 99%的序列同一性的同源物,其中,位于野生型I-SceI或其下述同源物的C-端的氨基酸序列TISSETFLK被缺失或突變,所述同源物在氨基酸水平上具有至少55 %、58 %、60 %、70 %、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或 99% 的序列同一性且在 C-端具有氨基酸序列TISSETFLK。可通過缺失或突變野生型I-SceI或下述其同源物的C-端的至少1、2、3、4、5、6、7、8或9個氨基酸,來缺失或突變氨基酸序列TISSETFLK,所述其同源物在氨基酸水平上具有至少 55%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98% 或99%的序列同一性且在C-端具有氨基酸序列TISSETFLK。表2 :針對野生型I-SceI中TISSETFLK氨基酸序列的缺失的不同例子
權利要求
1.優化的內切核酸酶,其包含與SEQID N0:l、15、16、17或19所描述的多肽具有至少80 %的氨基酸序列同一性的氨基酸序列。
2.權利要求I所述的優化的內切核酸酶,其包含SEQID NO :2、3或5所描述的氨基酸序列。
3.權利要求I所述的優化的內切核酸酶,其是經改造的內切核酸酶。
4.權利要求1、2或3所述的優化的內切核酸酶,其包含與SEQID NO :1或2所描述的多肽具有至少80%的氨基酸序列同一性的氨基酸序列,且不包含氨基酸序列TISSETFLK。
5.權利要求I至4的任一項所述的優化的內切核酸酶,其包含與SEQID NO :1或2所描述的多肽具有至少80%的氨基酸序列同一性的氨基酸序列,且包含SEQ ID ΝΟ:1的絲氨酸Nr229的突變。
6.權利要求I至5的任一項所述的優化的內切核酸酶,其與至少ー個鋅指結構域,或至少ー個源自轉錄激活物-樣(TAL)效應子的重復單元,或至少ー個鋅指結構域和至少ー個源自轉錄激活物-樣(TAL)效應子的重復單元融合。
7.權利要求I至6的任一項所述的優化的內切核酸酶,其還包含SecIII或SecIV分泌信號。
8.包含多核苷酸序列的經分離的多核苷酸,所述多核苷酸序列編碼權利要求I至7中任意一項所述的優化的內切核酸酶。
9.權利要求8所述的包含核苷酸序列的經分離的多核苷酸,其中經分離的多核苷酸的序列 a.是經密碼子優化的, b.具有低含量的RNA不穩定性基序, c.具有低含量的密碼子重復, d.具有低含量的隱蔽剪接位點, e.具有低含量的備選起始密碼子, f.具有低含量的限制性位點, g.具有低含量的RNAニ級結構, h.具有a)、b)、c)、d)、e)、f)或g)的任何組合。
10.表達盒,所述表達盒包含與啟動子和終止子序列功能性組合的、權利要求8或9所述的經分離的多核苷酸。
11.載體、宿主細胞或非人生物,其包含 a.編碼權利要求I至7中任一所述的優化的內切核酸酶的多核苷酸,或 b.權利要求8或9所述的經分離的多核苷酸,或 c.權利要求10所述的表達盒,或 d.a)、b)和c)的任何組合。
12.權利要求11所述的非人生物,其中所述非人生物是植物。
13.用于多核苷酸同源重組的方法,其包括 a.提供用于同源重組的感受態細胞, b.提供下述多核苷酸,所述多核苷酸包含側翼為序列A和序列B的經優化的內切核酸酶的DNA識別位點,C.提供包含序列A’和B’的多核苷酸,所述序列A’和B’足夠長并且與序列A和序列B足夠同源,從而允許在所述細胞中同源重組,以及 d.提供如權利要求I至7中任意一項所述的優化的內切核酸酶或如權利要求10所述的表達盒, e.在所述細胞中組合b)、c)和d),以及 f.檢測b)和c)的重組多核苷酸,或選擇出或生長包含b)和c)的重組多核苷酸的細胞。
14.如權利要求13所述的用于多核苷酸同源重組的方法,其中,同源重組之后,步驟a)的所述感受態細胞中包含的多核苷酸序列從步驟f)的生長細胞的基因組中缺失。
15.用于多核苷酸的靶向突變的方法,其包括 a.提供包含含有如權利要求I至7中任意一項所述的經優化的內切核酸酶的DNA識別位點的多核苷酸的細胞, b.提供能切割步驟a)的所述DNA識別位點的、如權利要求I至7中任意ー項所述的經優化的內切核酸酶或權利要求10所述的表達盒, c.在所述細胞中組合a)和b),以及 d.檢測經突變的多核苷酸,或選擇出或生長包含經突變的多核苷酸的細胞。
16.如權利要求12至14中任意一項所述的用于同源重組或靶向突變的方法,其中所述經優化的內切核酸酶和DNA識別位點通過生物的雜交、通過轉化或通過經由融合至經優化的內切核酸酶的SecIII或SecIV肽介導的運送,組合于至少ー個細胞中。
全文摘要
提供了優化的內切核酸酶,以及使用優化的內切核酸酶靶向整合、靶向缺失或靶向突變多核苷酸的方法。
文檔編號C12N15/63GK102725412SQ201080062324
公開日2012年10月10日 申請日期2010年11月25日 優先權日2009年11月27日
發明者A·赫魯貝克, C·比斯根 申請人:巴斯夫植物科學有限公司