使用修飾的核酸表達多肽的方法
【專利摘要】本文報道了用于在細胞中重組生產(chǎn)多肽的方法,包括步驟:培養(yǎng)包含編碼多肽的核酸的細胞,從細胞或培養(yǎng)基中回收多肽,其中,多肽的每個氨基酸殘基都是由至少一個密碼子編碼的,將編碼相同氨基酸殘基的不同密碼子組合在一個組中,按其在組內(nèi)的具體使用頻率定義組內(nèi)的每個密碼子,一組內(nèi)所有密碼子的具體使用頻率之和為100%,其中多肽編碼核酸中的密碼子使用頻率與其在組內(nèi)的具體使用頻率幾乎相同。
【專利說明】使用修飾的核酸表達多肽的方法
[0001] 本文報道的方法所屬的領域是優(yōu)化多肽編碼核酸,和改善由本文報道的方法優(yōu)化 的核酸所編碼的多肽的表達。
[0002] 發(fā)明背景
[0003] Cannarozzi, G.等人報道了在翻譯動力學中的密碼子順序的作用(Cell 141(2010)355-367)。Plotkin,J.B.和 Kudla,G.報道了密碼子偏愛的原因和后果(Nat. Rev. Gen. 12(2011)32-42)。Weygand_Durasevic,I·和 Ibba,M.報道了密碼子使用的新作 用(Science 329(2010) 1473-1474)。Itzkovitz,S.等人報道了蛋白質(zhì)編碼序列中的重疊 代碼(Gen. Res. 20 (2010) 1582-1589)。
[0004] W0 97/11086中報道了高水平的蛋白質(zhì)表達。W0 03/70957中報道了生產(chǎn)植物多 肽。W0 03/85114中(報道了)用于設計在宿主細胞中優(yōu)化蛋白質(zhì)表達的合成核酸序列的 方法。US 5, 082, 767中報道了密碼子配對優(yōu)化。W0 2008/000632中報道了用于實現(xiàn)改良 的多肽表達的方法。W0 2007/142954和US 8, 128, 938中報道了密碼子優(yōu)化方法。
[0005] Watkins, Ν· E.等人報道了 DNA二聚體中的脫氧次黃苷(deoxyinosine)對的最近 鄰熱動力學(Nucl.Acids Res.33(2〇〇5)6258-6267)。
[0006] 發(fā)明概沭
[0007] 已發(fā)現(xiàn)對于在細胞中表達多肽,使用具有本文報道特征的多肽編碼核酸是有利 的。多肽編碼核酸的特征是每個氨基酸都是由一組密碼子編碼的,按組內(nèi)的具體使用頻率 相對于該密碼子在細胞基因組中的整體使用頻率,來定義密碼子組內(nèi)的每個密碼子,(總) 多肽編碼核酸中的密碼子使用頻率與相應組內(nèi)的使用頻率幾乎相同。
[0008] 本文報道的一個方面是用于在細胞中重組生產(chǎn)多肽的方法,包括步驟:培養(yǎng)包含 編碼多肽的核酸的細胞,從細胞或培養(yǎng)基中回收多肽,
[0009] 其中,多肽的每個氨基酸殘基都是由一個或多個(至少一個)密碼子編碼的,將編 碼相同氨基酸殘基的(不同)密碼子組合在一個組中,按其在組內(nèi)的具體使用頻率定義組 內(nèi)的每個密碼子,一組內(nèi)所有密碼子的具體使用頻率之和為100%,
[0010] 其中多肽編碼核酸中每個密碼子的整體使用頻率與其在組內(nèi)的具體使用頻率幾 乎相同。
[0011] 在一個實施方案中,氨基酸殘基 G、A、V、L、I、P、F、S、T、N、Q、Y、C、K、R、H、D 和 E 分別由一組密碼子編碼,而氨基酸殘基Μ和W由單個密碼子編碼。
[0012] 在一個實施方案中,氨基酸殘基 G、Α、V、L、I、P、F、S、T、N、Q、Y、C、K、R、H、D 和 Ε 分別由包含至少兩個密碼子的一組密碼子編碼,而氨基酸殘基Μ和W由單個密碼子編碼。
[0013] 在一個實施方案中,如果氨基酸殘基實際只由1個密碼子編碼,則密碼子的具體 使用頻率是1〇〇%。
[0014] 在一個實施方案中,氨基酸殘基G由最多4個密碼子的組編碼。在一個實施方案 中,氨基酸殘基Α由最多4個密碼子的組編碼。在一個實施方案中,氨基酸殘基V由最多4 個密碼子的組編碼。在一個實施方案中,氨基酸殘基L由最多6個密碼子的組編碼。在一個 實施方案中,氨基酸殘基I由最多3個密碼子的組編碼。在一個實施方案中,氨基酸殘基Μ 實際只由1個密碼子編碼。在一個實施方案中,氨基酸殘基P由最多4個密碼子的組編碼。 在一個實施方案中,氨基酸殘基F由最多2個密碼子的組編碼。在一個實施方案中,氨基酸 殘基W實際只由1個密碼子編碼。在一個實施方案中,氨基酸殘基S由最多6個密碼子的 組編碼。在一個實施方案中,氨基酸殘基T由最多4個密碼子的組編碼。在一個實施方案 中,氨基酸殘基N由最多2個密碼子的組編碼。在一個實施方案中,氨基酸殘基Q由最多2 個密碼子的組編碼。在一個實施方案中,氨基酸殘基Y由最多2個密碼子的組編碼。在一 個實施方案中,氨基酸殘基C由最多2個密碼子的組編碼。在一個實施方案中,氨基酸殘基 K由最多2個密碼子的組編碼。在一個實施方案中,氨基酸殘基R由最多6個密碼子的組編 碼。在一個實施方案中,氨基酸殘基Η由最多2個密碼子的組編碼。在一個實施方案中,氨 基酸殘基D由最多2個密碼子的組編碼。在一個實施方案中,氨基酸殘基Ε由最多2個密 碼子的組編碼。
[0015] 在一個實施方案中,氨基酸殘基G由1至4個密碼子的組編碼。在一個實施方案 中,氨基酸殘基Α由1至4個密碼子的組編碼。在一個實施方案中,氨基酸殘基V由1至4 個密碼子的組編碼。在一個實施方案中,氨基酸殘基L由1至6個密碼子的組編碼。在一 個實施方案中,氨基酸殘基I由1至3個密碼子的組編碼。在一個實施方案中,氨基酸殘基 Μ由1個密碼子的組編碼,S卩,實際上由1個密碼子編碼。在一個實施方案中,氨基酸殘基P 由1至4個密碼子的組編碼。在一個實施方案中,氨基酸殘基F由1至2個密碼子的組編 碼。在一個實施方案中,氨基酸殘基W由1個密碼子的組編碼,S卩,實際上由1個密碼子編 碼。在一個實施方案中,氨基酸殘基S由1至6個密碼子的組編碼。在一個實施方案中,氨 基酸殘基T由1至4個密碼子的組編碼。在一個實施方案中,氨基酸殘基N由1至2個密 碼子的組編碼。在一個實施方案中,氨基酸殘基Q由1至2個密碼子的組編碼。在一個實 施方案中,氨基酸殘基Y由1至2個密碼子的組編碼。在一個實施方案中,氨基酸殘基C由 1至2個密碼子的組編碼。在一個實施方案中,氨基酸殘基K由1至2個密碼子的組編碼。 在一個實施方案中,氨基酸殘基R由1至6個密碼子的組編碼。在一個實施方案中,氨基酸 殘基Η由1至2個密碼子的組編碼。在一個實施方案中,氨基酸殘基D由1至2個密碼子 的組編碼。在一個實施方案中,氨基酸殘基Ε由1至2個密碼子的組編碼。
[0016] 在一個實施方案中,每個組僅包括在細胞基因組中的整體使用頻率大于5%的密 碼子。在一個實施方案中,每個組僅包括在細胞基因組中的整體使用頻率為8%或更高的密 碼子。在一個實施方案中,每個組僅包括在細胞基因組中的整體使用頻率為10%或更高的 密碼子。在一個實施方案中,每個組僅包括在細胞基因組中的整體使用頻率為15%或更高 的密碼子。
[0017] 在一個實施方案中,編碼多肽的核酸中特定氨基酸殘基的密碼子順序按5'至3' 方向是,即,對應于,相應氨基酸密碼子基序中的密碼子順序。
[0018] 在一個實施方案中,對于從多肽的Ν-末端開始,多肽中每個順序出現(xiàn)的特定氨基 酸,編碼核酸包括與各特定氨基酸在氨基酸密碼子基序中相應順序位置上的密碼子相同的 密碼子。
[0019] 在一個實施方案中,氨基酸密碼子基序中的密碼子使用頻率與其組內(nèi)的具體使用 頻率幾乎相同。
[0020] 在一個實施方案中,在多肽中下一次出現(xiàn)的具體氨基酸時,已經(jīng)到達氨基酸密碼 子基序的最后一個密碼子后,編碼核酸包括位于氨基酸密碼子基序的第一位上的密碼子。
[0021] 在一個實施方案中,氨基酸密碼子基序中的各個密碼子隨機分布在整個氨基酸密 碼子基序中。
[0022] 在一個實施方案中,氨基酸密碼子基序選自包含能夠通過排列其中的密碼子所獲 得的所有可能的氨基酸密碼子基序的氨基酸密碼子基序,其中所有的基序都具有相同數(shù)量 的密碼子,且每個基序中的密碼子都具有相同的具體使用頻率。
[0023] 在一個實施方案中,氨基酸密碼子基序中的密碼子按遞減的具體使用頻率排列, 使一種使用頻率的所有密碼子彼此直接連續(xù)。在一個實施方案中,將一種密碼子使用頻率 的密碼子分組在一起。
[0024] 在一個實施方案中,氨基酸密碼子基序中的(不同)密碼子均勻的分布在整個氨 基酸密碼子基序中。
[0025] 在一個實施方案中,按遞減的具體使用頻率排列氨基酸密碼子基序中的密碼子, 使得在具有最低具體使用頻率的密碼子之后,或者在具有第二低的具體使用頻率的密碼子 之后,出現(xiàn)(使用)具有最高具體使用頻率的密碼子。
[0026] 在一個實施方案中,按遞減的具體使用頻率排列氨基酸密碼子基序中的密碼子, 使得在具有最低具體使用頻率的密碼子之后,出現(xiàn)(使用)具有最高具體使用頻率的密碼 子。
[0027] 在一個實施方案中,細胞是原核細胞。
[0028] 在一個實施方案中,原核細胞是E. coli細胞。
[0029] 在一個實施方案中,氨基酸密碼子基序是
[0030] 丙氨酸選自 SEQ ID N0:01、02、03、04 和 05,和 / 或
[0031] 精氨酸選自SEQ ID N0:06和07,和/或
[0032] 天冬酰胺選自 SEQ ID N0:08、09、10、ll 和 12,和 / 或
[0033] 天冬氨酸選自SEQ ID N0:13和14,和/或
[0034] 半胱氨酸選自SEQ ID N0:15、16和17,和/或
[0035] 谷氨酰胺選自SEQ ID N0:18、19、20和21,和/或
[0036] 谷氨酸選自SEQ ID N0:22、23和24,和/或
[0037] 甘氨酸選自SEQ ID N0:25和26,和/或
[0038] 組氨酸選自SEQ ID N0:27和28,和/或
[0039] 異亮氨酸選自SEQ ID N0:29和30,和/或
[0040] 亮氨酸選自SEQ ID NO: 31、32和33,和/或
[0041] 賴氨酸選自 SEQ ID N0:34、35、36 和 37,和 / 或
[0042] 苯丙氨酸選自SEQ ID N0:38、39和40,和/或
[0043] 脯氨酸選自 SEQ ID 勵:41、42、43、44、45和46,和/或
[0044] 絲氨酸選自SEQ ID N0:47和48,和/或
[0045] 蘇氨酸選自SEQ ID N0:49、50和51,和/或
[0046] 酪氨酸選自SEQ ID N0:52和53,和/或
[0047] 纈氨酸選自 SEQ ID N0:54、55 和 56。
[0048] 在一個實施方案中,氨基酸密碼子基序是
[0049] 丙氨酸是 SEQ ID NO:03,
[0050] 精氨酸是 SEQ ID NO:07,
[0051] 天冬酰胺是 SEQ ID NO: 10,
[0052] 天冬氨酸是 SEQ ID NO: 13,
[0053] 半胱氨酸是 SEQ ID NO: 17,
[0054] 谷氨酰胺是 SEQ ID NO:20,
[0055] 谷氨酸是 SEQ ID NO :23,
[0056] 甘氨酸是 SEQ ID NO :26,
[0057] 組氨酸是 SEQ ID NO :28,
[0058] 異亮氨酸是 SEQ ID NO:30,
[0059] 亮氨酸是 SEQ ID NO :33 ;
[0060] 賴氨酸是 SEQ ID NO :36,
[0061] 苯丙氨酸是 SEQ ID NO:39,
[0062] 脯氨酸是 SEQ ID NO :43,
[0063] 絲氨酸 is SEQ ID NO:48,
[0064] 蘇氨酸是 SEQ ID NO:51,
[0065] 酪氨酸是 SEQ ID NO:53,和
[0066] 纈氨酸是 SEQ ID NO:56。
[0067] 在一個實施方案中,細胞是真核細胞,選自CHO細胞、BHK細胞、HEK細胞、SP2/0細 胞或NS0細胞。
[0068] 在一個實施方案中,真核細胞是CH0細胞。
[0069] 在一個實施方案中,氨基酸密碼子基序是
[0070] 丙氨酸選自 SEQ ID N0:64、65、66、67 和 68,和 / 或
[0071] 精氨酸選自SEQ ID N0:69和70,和/或
[0072] 天冬酰胺選自SEQ ID N0:71和72,和/或
[0073] 天冬氨酸選自SEQ ID N0:73和74,和/或,
[0074] 半胱氨酸選自SEQ ID N0:75和76,和/或
[0075] 谷氨酰胺選自SEQ ID N0:77、78、79和80,和/或
[0076] 谷氨酸選自SEQ ID NO: 81和82,和/或
[0077] 甘氨酸選自SEQ ID N0:83和84,和/或
[0078] 組氨酸選自SEQ ID N0:85和86,和/或
[0079] 異亮氨酸選自SEQ ID N0:87和88,和/或
[0080] 亮氨酸選自SEQ ID N0:89、90和91,和/或
[0081] 賴氨酸選自SEQ ID N0:92和93,和/或
[0082] 苯丙氨酸選自SEQ ID N0:94和95,和/或
[0083] 脯氨酸選自SEQ ID N0:96和97,和/或
[0084] 絲氨酸選自SEQ ID N0:98、99和100,和/或
[0085] 蘇氨酸選自 SEQ ID N0:101、102 和 103,和 / 或
[0086] 酪氨酸選自SEQ ID N0:104和105,和/或
[0087] 纈氨酸選自 SEQ ID NO: 106、107 和 108。
[0088] 在一個實施方案中,氨基酸密碼子基序是
[0089] 丙氨酸是 SEQ ID N0:68,
[0090] 精氨酸是 SEQ ID NO:69,
[0091] 天冬酰胺 is SEQ ID NO:72,
[0092] 天冬氨酸是 SEQ ID NO:74,
[0093] 半胱氨酸是 SEQ ID NO:76,
[0094] 谷氨酰胺 is SEQ ID NO:79,
[0095] 谷氨酸是 SEQ ID N0:82,
[0096] 甘氨酸是 SEQ ID NO:84,
[0097] 組氨酸是 SEQ ID NO :86,
[0098] 異亮氨酸是 SEQ ID NO:88,
[0099] 亮氨酸是 SEQ ID NO :90 ;
[0100] 賴氨酸是 SEQ ID NO:93,
[0101] 苯丙氨酸是 SEQ ID NO:95,
[0102] 脯氨酸是 SEQ ID NO:97,
[0103] 絲氨酸是 SEQ ID NO:99,
[0104] 蘇氨酸是 SEQ ID NO: 103,
[0105] 酪氨酸是 SEQ ID NO: 105,和
[0106] 纈氨酸是 SEQ ID NO: 108。
[0107] 在一個實施方案中,多肽是抗體、或抗體片段、或抗體融合多肽。
[0108] 本文報道的一個方面是編碼多肽的核酸,其特征是多肽的每個氨基酸殘基都是由 一個或多個(至少一個)密碼子編碼的,
[0109] 使編碼相同氨基酸殘基的不同密碼子組合在一個組內(nèi),組內(nèi)的每個密碼子按其在 組內(nèi)的具體使用頻率定義,一組內(nèi)所有密碼子的具體使用頻率之和為100 %,
[0110] 其中,在多肽編碼核酸中的密碼子使用頻率與其在其組內(nèi)的具體使用頻率幾乎相 同。
[0111] 在一個實施方案中,氨基酸殘基 G、A、V、L、I、P、F、S、T、N、Q、Y、C、K、R、H、D 和 E 分別由一組密碼子編碼,而氨基酸殘基Μ和W由單個密碼子編碼。
[0112] 在一個實施方案中,氨基酸殘基 G、Α、V、L、I、P、F、S、T、N、Q、Y、C、K、R、H、D 和 Ε 分別由包含至少兩個密碼子的一組密碼子編碼,而氨基酸殘基Μ和W由單個密碼子編碼。
[0113] 在一個實施方案中,如果氨基酸殘基實際只由1個密碼子編碼,則密碼子的具體 使用頻率是1〇〇%。
[0114] 在一個實施方案中,氨基酸殘基G由最多4個密碼子的組編碼。在一個實施方案 中,氨基酸殘基Α由最多4個密碼子的組編碼。在一個實施方案中,氨基酸殘基V由最多4 個密碼子的組編碼。在一個實施方案中,氨基酸殘基L由最多6個密碼子的組編碼。在一個 實施方案中,氨基酸殘基I由最多3個密碼子的組編碼。在一個實施方案中,氨基酸殘基Μ 實際只由1個密碼子編碼。在一個實施方案中,氨基酸殘基Ρ由最多4個密碼子的組編碼。 在一個實施方案中,氨基酸殘基F由最多2個密碼子的組編碼。在一個實施方案中,氨基酸 殘基W實際只由1個密碼子編碼。在一個實施方案中,氨基酸殘基S由最多6個密碼子的 組編碼。在一個實施方案中,氨基酸殘基T由最多4個密碼子的組編碼。在一個實施方案 中,氨基酸殘基N由最多2個密碼子的組編碼。在一個實施方案中,氨基酸殘基Q由最多2 個密碼子的組編碼。在一個實施方案中,氨基酸殘基Y由最多2個密碼子的組編碼。在一 個實施方案中,氨基酸殘基C由最多2個密碼子的組編碼。在一個實施方案中,氨基酸殘基 K由最多2個密碼子的組編碼。在一個實施方案中,氨基酸殘基R由最多6個密碼子的組編 碼。在一個實施方案中,氨基酸殘基Η由最多2個密碼子的組編碼。在一個實施方案中,氨 基酸殘基D由最多2個密碼子的組編碼。在一個實施方案中,氨基酸殘基Ε由最多2個密 碼子的組編碼。
[0115] 在一個實施方案中,氨基酸殘基G由1至4個密碼子的組編碼。在一個實施方案 中,氨基酸殘基Α由1至4個密碼子的組編碼。在一個實施方案中,氨基酸殘基V由1至4 個密碼子的組編碼。在一個實施方案中,氨基酸殘基L由1至6個密碼子的組編碼。在一 個實施方案中,氨基酸殘基I由1至3個密碼子的組編碼。在一個實施方案中,氨基酸殘基 Μ由1個密碼子的組編碼。在一個實施方案中,氨基酸殘基P由1至4個密碼子的組編碼。 在一個實施方案中,氨基酸殘基F由1至2個密碼子的組編碼。在一個實施方案中,氨基酸 殘基W由1個密碼子的組編碼。在一個實施方案中,氨基酸殘基S由1至6個密碼子的組 編碼。在一個實施方案中,氨基酸殘基Τ由1至4個密碼子的組編碼。在一個實施方案中, 氨基酸殘基Ν由1至2個密碼子的組編碼。在一個實施方案中,氨基酸殘基Q由1至2個 密碼子的組編碼。在一個實施方案中,氨基酸殘基Υ由1至2個密碼子的組編碼。在一個 實施方案中,氨基酸殘基C由1至2個密碼子的組編碼。在一個實施方案中,氨基酸殘基Κ 由1至2個密碼子的組編碼。在一個實施方案中,氨基酸殘基R由1至6個密碼子的組編 碼。在一個實施方案中,氨基酸殘基Η由1至2個密碼子的組編碼。在一個實施方案中,氨 基酸殘基D由1至2個密碼子的組編碼。在一個實施方案中,氨基酸殘基Ε由1至2個密 碼子的組編碼。
[0116] 在一個實施方案中,每個組僅包括在細胞基因組中的整體使用頻率大于5%的密 碼子。在一個實施方案中,每個組僅包括在細胞基因組中的整體使用頻率為8%或更高的密 碼子。在一個實施方案中,每個組僅包括在細胞基因組中的整體使用頻率為10%或更高的 密碼子。在一個實施方案中,每個組僅包括在細胞基因組中的整體使用頻率為15%或更高 的密碼子。
[0117] 在一個實施方案中,編碼多肽的核酸中特定氨基酸殘基的密碼子順序按5'至3' 方向是,即,對應于,相應氨基酸密碼子基序中的密碼子順序。
[0118] 在一個實施方案中,對于從多肽的Ν-末端開始,多肽中每個順序出現(xiàn)的特定氨基 酸,編碼核酸包括與各特定氨基酸在氨基酸密碼子基序中相應順序位置上的密碼子相同的 密碼子。
[0119] 在一個實施方案中,氨基酸密碼子基序中的密碼子使用頻率與其組內(nèi)的具體使用 頻率幾乎相同。
[0120] 在一個實施方案中,在多肽中下一次出現(xiàn)的具體氨基酸時,已經(jīng)到達氨基酸密碼 子基序的最后一個密碼子后,編碼核酸包括位于氨基酸密碼子基序的第一位上的密碼子。
[0121] 在一個實施方案中,氨基酸密碼子基序中的各個密碼子隨機分布在整個氨基酸密 碼子基序中。
[0122] 在一個實施方案中,氨基酸密碼子基序中的各個密碼子均勻分布在整個氨基酸密 碼子基序中。
[0123] 在一個實施方案中,按遞減的具體使用頻率排列氨基酸密碼子基序中的密碼子, 使得在具有最低具體使用頻率的密碼子之后,或者在具有第二低的具體使用頻率的密碼子 之后,使用具有最高具體使用頻率的密碼子。
[0124] 在一個實施方案中,按遞減的具體使用頻率排列氨基酸密碼子基序中的密碼子, 使得在具有最低具體使用頻率的密碼子之后,使用具有最高具體使用頻率的密碼子。
[0125] 本文報道的一個方面是包含本文報道的核酸的細胞。
[0126] 本文報道的一個方面是用于增加原核細胞或真核細胞中的多肽表達的方法,包括 步驟:
[0127] -提供編碼多肽的核酸,
[0128] 其中多肽的每個氨基酸殘基都是由至少一個密碼子編碼的,將編碼相同氨基酸殘 基的不同密碼子組合在一個組中,按其在組內(nèi)的具體使用頻率定義組內(nèi)的每個密碼子,一 組內(nèi)所有密碼子的具體使用頻率之和為100%,
[0129] 其中多肽編碼核酸中的密碼子使用頻率與其組內(nèi)的具體使用頻率幾乎相同。
[0130] 發(fā)明詳沭
[0131] 定義
[0132] 術語"氨基酸"在本說明書中表示羧基α-氨基酸的類別,是由核酸直接編碼或以 前體的形式編碼。由編碼單個氨基酸的核酸由3個核苷酸組成,被稱為密碼子或堿基-三 聯(lián)體。每個氨基酸由至少一個密碼子編碼。不同密碼子編碼相同氨基酸被稱為"遺傳密碼 的簡并性"。術語"氨基酸"在本說明書中表示天然存在的羧基α-氨基酸,包括丙氨酸(三 字母代碼:ala,一字母代碼:Α)、精氨酸(arg,R)、天冬酰胺(asn,N)、天冬氨酸(asp,D)、半 胱氨酸(cys,C)、谷氨酰胺(gln,Q)、谷氨酸(glu,E)、甘氨酸(gly,G)、組氨酸(his,H)、異 亮氨酸(ile,I)、亮氨酸(leu,L)、賴氨酸(lys,K)、甲硫氨酸(met, M)、苯丙氨酸(phe,F(xiàn))、 脯氨酸(pro, P)、絲氨酸(ser,S)、蘇氨酸(thr,T)、色氨酸(trp,W)、酪氨酸(tyr,Y)和繳 氨酸(val,V)。
[0133] 術語"抗體"在本文中使用最廣泛的含義,涵蓋了各種抗體結構,包括但不限于單 克隆抗體、多克隆抗體、多特異性抗體(例如,雙特異性抗體)和抗體片段,只要其表現(xiàn)出理 想的抗原結合活性。
[0134] "抗體片段"指除完整抗體以外的分子,包括完整抗體的一部分,所述部分結合完 整抗體所結合的抗原。抗體片段的例子包括但不限于Fv、Fab、Fab'、Fab' _SH、F(ab')2 ;二 價體(diabody);線性抗體;單鏈抗體分子(例如,scFv);和由抗體片段形成的多特異性抗 體。
[0135] 術語"密碼子"表示由編碼定義氨基酸的3個核苷酸組成的寡核苷酸。由于遺傳密 碼的簡并性,大部分氨基酸都有一個以上的密碼子編碼。這些編碼相同氨基酸的不同密碼 子在各宿主細胞中具有不同的相對使用頻率。因此,特定的氨基酸實際上是由一個密碼子 或者由一組不同的密碼子編碼的。多肽的氨基酸序列同樣可以由不同的核酸編碼。因此, 多肽中的特定氨基酸(殘基)可以由一組不同的密碼子編碼,使每個這些密碼子在給定的 宿主細胞中具有使用頻率。
[0136] 由于可獲得大量常用宿主細胞的大量基因序列,因此可以計算密碼子使用的相對 頻率。可以自例如"Codon Usage Database,'(www.kazusa.or. jp/codon/),Nakamura,Y.等 人,Nucl. Acids Res. 28 (2000) 292中獲得計算后的密碼子用法表。
[0137] "EMBOSS:The European Molecular Biology Open Software Suite" (Rice,P. 等人,Trends Gen.l6(2000)276-277, Release 6.0.1,15.07.2009)中已經(jīng)報道了酵母、 E. coli、智人和倉鼠的密碼子用法表,顯示在下表中。計算了每種氨基酸的20種天然存在 的氨基酸在E.coli、酵母、人細胞和CH0細胞中不同的密碼子使用頻率,而不是所有64個密 碼子。
[0138] 表:釀酒酵母(Saccharomyces cerevisiae)的整體密碼子使用頻率
[0139] (編碼氨基酸|密碼子|使用頻率[% ])
[0140] Ala GCG 1 Gly GGG 1 Pro CCG 1 Ala GCA 6 Gly GGA 3 Pro CCA 80 Ala GOT 64 Gly GGT 89 Pro CCT 17 Ala GCC 29 Gly GGC 7 Pro CCC 2 Arg AGG 3 His CAT 37 Ser AGT 6 Arg AGA 77 His CAC 63 Ser AGC 5 Arg CGG 0 Ser TCG 2 Arg CGA 0 lie ATA 2 Ser TCA 8
[0141] Arg CGT 19 lie ATT 52 Scr TCT 49 Arg CGC 1 lie ATC 45 Ser TCC 31 Asn AAT 23 Leu CTG 3 Thr ACG 1 Asn A AC 77 Leu CTA 9 Thr ACA 8 Leu CTT 4 Thr ACT 52 Asp GAT 49 Leu CTC 1 Thr ACC 40 Asp GAC 51 Leu TTG 64 Leu TTA 20 Trp TGG 100 Cys TGT 87 Cys TGC 13 Lys AAG 74 Tyr TAT 22 Lys AAA 26 Tyr TAC 78 Gin CAG 6 Gin CAA 94 Met ATG 100 ¥al GTG 4 Yal GTA 3 Glu GAG 11 Phe TTT 29 ¥al GTT 54 Glu GAA 89 Phe TTC 71 Val GTC 38
[0142] 表:大腸埃希氏菌(Escherichia Coli)整體密碼子使用頻率
[0143] (編碼氨基酸I密碼子I使用頻率[% ])
[0144] Ala GCG 32 Gly GGG 4 Pro CCG 75 Ala GCA 24 Gly GGA 2 Pro CCA 14 Ala GOT 28 Gly GGT 51 Pro CCT 10 Ala GCC 16 Gly GGC 43 Pro CCC 1 Arg AGG 0 His CAT 29 Ser AGT 4 Arg AG A 0 His CAC 71 Ser AGC 25 Arg CGG 1 Ser TCG 7 Arg CGA 1 lie ATA 0 Ser TCA 5 Arg CGT 65 lie ATT 32 Ser TCT 32 Arg CGC 33 lie ATC 68 Ser TCC 27
[0145] Asn A AT 16 Leu CTG 79 Thr ACG 12 Asn AAC 84 Leu CTA 1 Thr AC A 4 Leu CTT 5 Thr ACT 28 Asp GAT 46 Leu CTC 8 Thr ACC 56 Asp GAC 54 Leu TTG 5 Leu TTA 3 Trp TGG 100 Cys TGT 36 Cys TGC 64 Lys AAG 20 Tyr TAT 36 Lys AAA 80 Tyr TAC 64 Gin CAG 82 Gin CAA 18 Met ATG 100 Val GTG 27 Val GTA 20 Glu GAG 24 Phe TTT 2H Val GTT 40 Glu GAA 76 Pile TTC n Val GTC 13
[0146] 表:智人種(Homo sapiens)整體密碼子使用頻率
[0147] (編碼氨基酸I密碼子I使用頻率[% ])
[0148] Ala GCG 10 Gly GGG 24 Pro CCG 11 Ala GCA 22 Gly GGA 25 Pro CCA 28 Ala GCT 27 Gly GGT 17 Pro CCT 28 Ala GCC 41 Gly GGC 34 Pro CCC 33 Arg AGG 20 His CAT 40 Ser AGT 15 Arg AGA 20 His CAC 60 Ser AGO 25 Arg CGG 20 Ser TCG 6 Arg CGA 11 lie ATA 15 Ser TCA 14 Arg CGT 9 lie ATT 35 Ser TCT 18 Arg CGC 20 lie ATC 50 Ser TCC 23 Asn AAT 45 Leu CTG 42 Thr ACG 12 Asn A AC 55 Leu CTA 7 Thr ACA 27 Leu CTT 13 Thr ACT 24 Asp GAT 46 Leu CTC 20 Thr ACC 37 Asp GAC 54 Leu TTG 12 Leu TTA 7 Trp TGG 100 Cys TGT 44 Cys TGC 56 Lys AAG 59 Tyr TAT 43 Lys AAA 41 Tyr TAG 57 Gin CAG 74 Gin CAA 26 Met ATG 100 Val GTG 47 Val GTA 11
[0149] Glu GAG 58 Phe TTT 45 Val GTT 17 Glu GAA 42 Phe TTC S5 Val GTC 25
[0150] 表:倉鼠整體密碼子
[0151] (編碼氨基酸I密碼子I使用頻率[% ])
[0152] Ala GCG 9 Gly GGG 24 Pro CCG 7 Ala GCA 23 Gly GGA 25 Pro CCA 29 Ala GOT 30 Gly GGT 19 Pro CCT 29 Ala GCC 38 Gly GGC 33 Pro CCC 34 Arg AGG 22 His CAT 42 Ser AGT 14 Arg AGA 20 His CAC 58 Ser AGC 24 Arg CGG 19 Ser TCG 5 Arg CGA 9 lie ATA 15 Ser TCA 15 Arg CGT 10 lie ATT 35 Ser TCT 18 Arg CGC 19 lie ATC 51 Ser TCC 24 Asn A AT 39 Leu CTG 44 Thr ACG 10 Asn A AC 61 Leu CTA 6 Thr ACA 29 Leu CTT 13 Thr ACT 21 Asp GAT 39 Leu CTC 19 Thr ACC 40 Asp GAC 61 Leu TTG 12 Leu TTA 6 Tip TGG 100 Cys TGT 42 Cys TGC 58 Lys AAG 67 Tyr TAT 39 Lys AAA j3 Tyr TAG 61 Gin CAG 78 Gin CAA 22 Met ATG 1U0 Val GIG 48 Val GTA 11 Glu GAG 64 Phe TTT 44 Val GTT 16 Glu GAA 36 Phe TTC 56 Val GTC 25
[0153] 術語"表達"在本文中指在細胞在發(fā)生的轉錄和/或翻譯過程。可以基于細 胞中存在的相應mRNA的量,確定目標核酸序列在細胞中的轉錄水平。例如,可以通過 RT-PCR(qRT-PCR)或Northern雜交(參見Sambrook,J.等人,1989,見上文),定量從目標序 列轉錄的mRNA。可以通過多種方法,例如ELISA、評估多肽的生物學活性或應用不依賴于這 類活性的測定(如使用識別和結合多肽的免疫球蛋白的Western印跡或放射性免疫測定), 定量由目標核酸編碼的多肽(參見Sambrook, J.等人,1989,見上文)。
[0154] "表達盒"指含有必需的調(diào)控元件的構建體,例如啟動子和多聚腺苷酸化位點,用 于在細胞中至少表達所含有的核酸。
[0155] 基因表達的實施是瞬時的或永久的表達。目標多肽一般是分泌型多肽,因此含 有N-末端延伸(也稱為信號序列),是多肽通過細胞壁運輸/分泌到胞外基質(zhì)中所必需 的。一般而言,信號序列可以源自任何編碼分泌型多肽的基因。如果使用異源的信號序 列,則優(yōu)選是被宿主細胞識別和加工(即,被信號肽酶切割)的。例如,為了在酵母中分 泌,可以用源自分泌型基因的同源酵母信號序列取代待表達的異源基因的天然信號序列, 如酵母轉化酶的信號序列、 α-因子前導序列(包括酵母(Saccharomyces)、克魯維酵母 (Kluyveromyces)、畢赤酵母(Pichia)和漢遜酵母(Hansenula)的α-因子前導序列,第二 個描述在US 5, 010, 182中)、酸性磷酸酶信號序列,或白色念珠菌(C. albicans)葡糖淀粉 酶信號序列(EP 0362179)。在哺乳動物細胞表達中,目標蛋白質(zhì)的天然信號序列是令人滿 意的,但其他的哺乳動物信號序列也是合適的,如來自相同或相關物種的分泌型多肽的信 號序列,例如來自人或鼠類來源的免疫球蛋白,以及病毒性分泌信號序列,例如單純皰疹病 毒糖蛋白D的信號序列。將編碼這類前片段的DNA片段連接在讀碼框內(nèi),S卩,與編碼目標多 肽的DNA片段有效連接。
[0156] 術語"細胞"或"宿主細胞"指可以轉染或已轉染了例如編碼異源多肽的核酸的細 胞。術語"細胞"包括原核細胞,其用于表達核酸和生產(chǎn)編碼的多肽,包括擴增質(zhì)粒;和真核 細胞,其用于表達核酸和生產(chǎn)編碼的多肽。在一個實施方案中,真核細胞是哺乳動物細胞。 在一個實施方案中,哺乳動物細胞是CH0細胞,任選的CHO K1細胞(ATCC CCL-61或DSM ACC 110)、或 CHO DG44 細胞(也稱為 CH〇-DHFR[-],DSM ACC 126)、或 CHO XL99 細胞、CH0-T 細胞(參見例如 Morgan, D.等人,Biochemistry 26 (1987) 2959-2963)、或 CH0-S 細胞、或 Super-CHO 細胞(Pak, S. C. 0·等人 Cytotechnology 22 (1996) 139-146)。如果這些細胞不 適應在無血清培養(yǎng)基或懸浮液中生長,則在使用本發(fā)明方法前進行適應性改動。如本文中 使用的,表達"細胞"包括對象細胞及其后代。因此,詞語"轉化子"和"轉化細胞"包括了原 代對象細胞及其來源的培養(yǎng)物,不論傳代或亞培養(yǎng)的次數(shù)。還應理解,由于人為突變或自發(fā) 突變,所有后代的DNA含量可以不必精確的相同。具有與最初轉化細胞所篩選的功能或生 物學活性相同的功能或生物學活性的變體后代也包括在內(nèi)。
[0157] 在一個實施方案中,真核細胞是酵母細胞。在一個實施方案中,酵母細胞是酵母 屬、或畢赤酵母屬、或漢遜酵母屬、或克魯維酵母屬、或裂殖酵母屬的酵母。
[0158] 在一個實施方案中,原核細胞是埃希氏菌(Escherichia)細胞、或沙門氏菌 (Salmonella)細胞、或芽孢桿菌(Bacillus)細胞、或乳球菌(Lactococcus)細胞、或鏈球菌 (Streptococcus)細胞。
[0159] 在一個實施方案中,真核細胞是植物細胞。在一個實施方案中,植物細胞屬于擬南 芥屬、煙草屬和番茄屬。
[0160] 術語"密碼子優(yōu)化"表示用在相應細胞中具有不同使用頻率的不同密碼子替換多 肽編碼核酸中的一個、至少一個、或一個以上密碼子。
[0161] 術語"密碼子優(yōu)化的核酸"表示通過用在細胞中具有不同的相對使用頻率的編碼 相同氨基酸殘基的密碼子,替換親代多肽編碼核酸中的一個、至少一個、或一個以上密碼 子,已經(jīng)改良而在細胞中具有改善的表達的編碼多肽的核酸,例如哺乳動物細胞或細菌細 胞。
[0162] "基因"表示核酸片段,例如位于染色體或質(zhì)粒上、可以實現(xiàn)肽、多肽或蛋白質(zhì)表達 的片段。除編碼區(qū)(即,結構基因)外,基因還包括其他功能元件,例如信號序列、啟動子、 內(nèi)含子和/或終止子。
[0163] 術語"密碼子組"及其語義學等價物表示編碼一個(即,相同)氨基酸殘基的一定 數(shù)量的不同密碼子。一組的單個密碼子在細胞基因組中的整體使用頻率不同。根據(jù)組內(nèi)密 碼子的數(shù)量,密碼子組中的每個密碼子具有具體的組內(nèi)使用頻率。該具體的組內(nèi)使用頻率 可以不同于細胞基因組中的整體使用頻率,但依賴于所述整體使用頻率(與其相關)。密碼 子組可以僅包含一個密碼子,也可以包括多達6個密碼子。
[0164] 術語"細胞基因組中的整體使用頻率"表示具體密碼子在整個細胞基因組中的出 現(xiàn)頻率。
[0165] 術語密碼子組中的密碼子的"具體使用頻率"表示密碼子組的單個(即,具體)密 碼子相對于一組的所有密碼子的頻率,所述具體使用頻率可見于編碼多肽的核酸中,用本 文報道的方法獲得。具體使用頻率的值取決于細胞基因組中的具體密碼子的整體使用頻率 和組內(nèi)的密碼子數(shù)量。因此,由于密碼子組不必包含編碼一個具體氨基酸殘基的所有可能 的密碼子,所以密碼子組中的密碼子的具體使用頻率至少與其在細胞基因組中的整體使用 頻率相同,最多是100%,即,至少與細胞基因組中的整體使用頻率相同,也可以更高。密碼 子組的所有成員的具體密碼子使用頻率的總和總是幾乎100%。
[0166] 術語"氨基酸密碼子基序"表示密碼子的順序,所述密碼子都是相同密碼子組的成 員,因此編碼相同的氨基酸殘基。氨基酸密碼子基序中不同密碼子的數(shù)量與密碼子組中的 不同密碼子數(shù)量相同,但每個密碼子可以在氨基酸密碼子基序中出現(xiàn)一次以上。此外,每個 密碼子以其具體使用頻率存在于氨基酸密碼子基序中。因此,氨基酸密碼子基序代表編碼 相同氨基酸殘基的不同密碼子順序,其中每個不同的密碼子以其具體使用頻率存在,其中 順序以具有最高具體使用頻率的密碼子開始,且其中按定義的順序排列密碼子。例如,編碼 氨基酸殘基丙氨酸的密碼子組包括4種密碼子GCG、GCT、GCA和GCC,具體使用頻率分別為 32^^28^^24%和16% (對應于4:4:3:2比例)。氨基酸殘基丙氨酸的氨基酸密碼子基序 定義為包含4種密碼子606、6(:1\604和60:,比例為4 :4:3:2,其中第一密碼子是606。丙 氨酸的一種示例性氨基酸密碼子基序是gcg gcg gcg gcg get get get get gca gca gca gee gcc(SEQ ID N0:01)。該基序由13個順序的密碼子組成(4+4+3+2 = 13)。在多肽的 氨基酸序列中第一次出現(xiàn)氨基酸殘基丙氨酸時,在相應的編碼核酸中使用氨基酸密碼子基 序的第一個密碼子。在第二次出現(xiàn)丙氨酸時,使用氨基酸密碼子基序的第二個密碼子,依此 類推。在多肽的氨基酸序列中第13次出現(xiàn)丙氨酸時,在相應的編碼核酸中使用氨基酸密碼 子基序的第13位,S卩,最后一位密碼子。在多肽的氨基酸序列中第14次出現(xiàn)氨基酸丙氨酸 時,再次使用氨基酸密碼子基序的第一個密碼子,依此類推。
[0167] 術語"核酸"或"核酸序列"在本說明書中可以互換的使用,指由單個核苷酸(也 稱為堿基)a、c、g和t (或u在RNA中)組成的多聚分子,例如DNA、RNA或其修飾物。該多 核苷酸分子可以是天然存在的多核苷酸分子或合成的多核苷酸分子或一個或多個天然存 在的多核苷酸分子與一個或多個合成的多核苷酸分子的組合。該定義還涵蓋了天然存在的 多核苷酸分子,其中一個或多個核苷酸是改變的(例如,通過誘變)、刪除的、或添加的。核 酸可以是分離的或整合到另一種核酸中,例如表達盒、質(zhì)粒或宿主細胞的染色體中。核酸的 特征是其由單個核苷酸組成的核酸序列。
[0168] 對于本領域技術人員而言,將氨基酸序列(例如多肽)轉化為編碼該氨基酸序列 的相應核酸序列的程序和方法是普遍已知的。因此,核酸的特征是其由單個核苷酸組成的 核酸序列,和由其編碼的多肽的氨基酸序列。
[0169] "結構基因"表示沒有信號序列的基因區(qū)域,S卩,編碼區(qū)。
[0170] "轉染載體"是提供包含編碼核酸/結構基因的轉染載體在宿主細胞中表達必需的 所有元件的核酸(也被稱為核酸分子)。轉染載體包含原核質(zhì)粒擴增單元,例如用于E. coli 的,繼而包含復制的原核起點,和產(chǎn)生原核選擇劑抗性的核酸,還包含轉染載體一個或多個 產(chǎn)生真核選擇劑抗性的核酸,和一個或多個編碼目標多肽的核酸。優(yōu)選的是產(chǎn)生選擇劑抗 性的核酸和編碼目標多肽的核酸分別位于表達盒中,使每個表達盒包含啟動子、編碼核酸 和包含多聚腺苷酸化信號的轉錄終止子。基因表達通常處于啟動子的控制之下,這類結構 基因被稱為與啟動子"有效連接"。類似的,如果調(diào)控元件調(diào)節(jié)核心啟動子的活性,則調(diào)控元 件和核心啟動子是有效連接的。
[0171] 如本文中使用的,術語"載體"指能夠擴增與其相連的另一種核酸的核酸分子。術 語包括作為自主復制型核酸結構的載體,以及整合到所導入的宿主細胞基因組中的載體。 某些載體能夠指導與其有效連接的核酸的表達。這類載體在本文中被稱為"表達載體"。
[0172] 重組方法
[0173] 可以使用重組方法和組合物生產(chǎn)抗體,例如US 4, 816, 567所述。在一個實施方案 中,提供了本文報道的編碼抗體的分離的核酸。這類核酸可以編碼包含抗體的VL的氨基酸 序列和/或包含抗體的VH的氨基酸序列(例如,抗體的輕鏈和/或重鏈)。在一個實施方 案中,提供了包含這類核酸的一個或多個載體(例如,表達載體)。在一個實施方案中,提供 了包含所述核酸的細胞。在一個實施方案中,細胞包含(例如,已轉化了):(1)包含編碼包 含抗體的VL的氨基酸序列和包含抗體的VH的氨基酸序列的核酸的載體,或(2)包含編碼 包含抗體的VL的氨基酸序列的核酸的第一載體,和包含編碼抗體的VH的氨基酸序列的核 酸的第二載體。在一個實施方案中,細胞是真核的,例如中華田鼠卵巢(CH0)細胞或淋巴細 胞(例如,Y0、NS0、Sp2/0細胞)。在一個實施方案中,提供了制備抗體的方法,其中方法包 含在適合抗體表達的條件下,培養(yǎng)本文提供的包含編碼抗體的核酸的細胞,和任選的從細 胞(或培養(yǎng)基)回收抗體。
[0174] 為了重組生產(chǎn)抗體,分離編碼抗體的核酸,例如本文所述,并將其插入到一個或多 個載體中,用于進一步克隆和/或在細胞中表達。可以使用常規(guī)方法方便的分離和測序這 類核酸(例如,使用能夠特異性結合編碼抗體重鏈和輕鏈的基因的寡核苷酸探針)。
[0175] 用于克隆或表達抗體編碼載體的合適細胞包括本文所述的原核或真核細胞。 例如,可以在細菌中生產(chǎn)抗體,特別是當不需要糖基化和Fc效應子功能時。關于在細 菌中表達抗體片段和多肽,參見例如US 5, 648, 237、US 5, 789, 199和US 5, 840, 523; Charlton,K.A.,In:Methods in Molecular Biology,第 248 卷,Lo,B.K.C.(編著),Humana Press,Totowa,NJ(2003),第 245-254 頁,描述了在E·coli中表達抗體片段。在表達后,可 以在可溶性級分中分離抗體和細菌細胞漿,并可進一步純化。
[0176] 除原核細胞外,真核微生物(如絲狀真菌或酵母)是抗體編碼載體的合適的克隆 或表達宿主,包括糖基化通路被"人源化"的真菌和酵母菌株,導致生產(chǎn)具有部分或完全人 糖基化模式的抗體(參見 Gerngross, T. U.,Nat. Biotech. 22 (2004) 1409-1414 ;和 Li, H.等 人,Nat. Biotech. 24 (2006) 210-215)。
[0177] 用于表達糖基化抗體的合適的宿主細胞也源自多細胞生物(無脊椎動物和脊椎 動物)。無脊椎動物細胞的例子包括植物和昆蟲細胞。已鑒別了多個可以與昆蟲細胞聯(lián)合 使用的桿狀病毒株,特別是用于轉染秋粘蟲(Spodoptera frugiperda)細胞。
[0178] 也可以利用植物細胞培養(yǎng)物作為宿主(參見例如US 5, 959, 177、US 6, 040, 498、 US 6, 420, 548、US 7, 125, 978和US 6, 417, 429(描述了用于在轉基因植物中生產(chǎn)抗體的 PLANTIB0DIES? 技術)。
[0179] 也可以利用脊椎動物細胞作為宿主。例如,可使用適應于在懸浮液中生長的哺 乳動物細胞系。其他有效的哺乳動物細胞系的例子是用SV40轉化的猴腎CV1細胞系 (C0S-7);人胚腎細胞系(293 細胞,例如 Graham, RL 等人,J. Gen Virol. 36 (1977) 59-74 所述);幼倉鼠腎細胞(ΒΗΚ);小鼠足細胞(TM4細胞,例如Mather,J. P.,Biol. R印rod.23(1980)243-252 所述);猴腎細胞系(CVl);非洲綠猴腎細胞(VER0-76);人宮頸 癌細胞(HELA);犬腎細胞(MDCK);水牛鼠肝細胞(BRL 3A);人肺細胞(W138);人肝細胞 Ofep G2);小鼠乳腺癌(MMT 060562) ;TRI 細胞,例如Mather, J.P.等人,Annals N.Y. Acad. Sci. 383(1982)44-68所述;MRC 5細胞;和FS4細胞。其他有效的哺乳動物細胞系包括中 華田鼠卵巢(CH0)細胞,包括 DHFR-CH0 細胞(Urlaub,G.等人,Proc.Natl.Acad.Sci.USA 77(1980)4216-4220);和黑色素瘤細胞系,如Y0、NS0和Sp2/0。關于適合抗體生產(chǎn)的某 些哺乳動物宿主細胞系的綜述,參見例如Yazaki,P.和Wu,A.M.,Methods in Molecular Biology,第 248 卷,Lo, Β· K. C.(編著),Humana Press, Totowa, NJ(2004),第 255-268 頁。
[0180] 密碼子用法
[0181] 可方便的獲得密碼子用法表(例如參見上表),例如可自http://www. kazusa. or. jp/codon/獲得的"Codon Usage Database",可以多種方式調(diào)整這些表格(Nakamura, Υ· 等人,Nucl. Acids Res. 28 (2000) 292)。
[0182] 編碼核酸在重組多肽的高產(chǎn)量表達中發(fā)揮了重要作用。天然存在的和自自然界分 離的編碼核酸對于高產(chǎn)量表達一般不是優(yōu)化的,尤其是在異源宿主細胞中表達的話。由于 遺傳密碼的簡并性,一個氨基酸殘基可以被一種以上的核苷酸三聯(lián)體(密碼子)編碼,氨基 酸色氨酸和甲硫氨酸除外。因此,一個氨基酸序列可以有不同的編碼密碼子(=相應的編 碼核酸序列)。
[0183] 不同的生物體以不同的相對頻率使用編碼一個氨基酸殘基的不同密碼子(密碼 子用法)。一般一個特定的密碼子使用的頻率比其他可能的密碼子更高。
[0184] W0 2001/088141中報道了根據(jù)高表達的哺乳動物基因發(fā)現(xiàn)的密碼子用法的讀碼 框優(yōu)化。出于所述目的,生成了矩陣,幾乎只考慮在高表達的哺乳動物基因中最常用的那些 密碼子,次優(yōu)的是第二常用的那些密碼子,如下表所述。
[0185] 使用這些來自高表達的人基因的密碼子,生成了不存在于自然界中的純合成讀碼 框,然而其編碼與原始野生型基因構建物完全相同的產(chǎn)物。
[0186] US 8, 128, 938中報道了使用單個密碼子的使用頻率優(yōu)化密碼子的不同方法,如一 致優(yōu)化、完全優(yōu)化和最小優(yōu)化。
[0187] 下表中顯示了在高表達的哺乳動物基因中可見的最常用的密碼子(密碼子1)和 第二常用的密碼子(密碼子2)。
[0188] 表
[0189]
【權利要求】
1. 用于在原核細胞中重組生產(chǎn)多肽的方法,包括培養(yǎng)包含編碼多肽的核酸的原核細胞 的步驟,和從原核細胞或培養(yǎng)基中回收多肽的步驟, 其中,多肽的每個氨基酸殘基都是由至少一個密碼子編碼的,編碼相同氨基酸殘基的 密碼子組合成組,組內(nèi)的每個密碼子按其在組內(nèi)的具體使用頻率定義,一組內(nèi)所有密碼子 的具體使用頻率之和為100%, 其中多肽編碼核酸中的每個密碼子的整體使用頻率與其在組內(nèi)的具體使用頻率幾乎 相同。
2. 權利要求1的方法,其特征是組僅包括在細胞基因組中的整體使用頻率大于5%的 密碼子。
3. 權利要求1的方法,其特征是組僅包括在細胞基因組中的整體使用頻率為8%或更 高的密碼子。
4. 權利要求1的方法,其特征是組僅包括在細胞基因組中的整體使用頻率為10%或更 高的密碼子。
5. 權利要求1至4的任一項的方法,其特征是從多肽的N-末端開始,多肽中每個順序 出現(xiàn)的特定氨基酸在編碼核酸的相應位置上使用與特定氨基酸的相應氨基酸密碼子基序 中相應順序位置上存在的密碼子相同的密碼子。
6. 權利要求5的方法,其特征是: i) 使用氨基酸密碼子基序的最后一個密碼子后,在多肽中下一次出現(xiàn)特定氨基酸時在 相應的編碼核酸中再次使用位于相應氨基酸密碼子基序中的第一個密碼子, ii) 多肽中再次順序出現(xiàn)這一特定氨基酸時,在編碼核酸的相應位置上,使用位于特定 氨基酸的相應氨基酸密碼子基序中相應位置上的密碼子。
7. 權利要求5至6的任一項的方法,其特征是氨基酸密碼子基序中的密碼子是按遞減 的具體使用頻率排列的,使得在具有最低具體使用頻率的密碼子之后,或者在具有第二低 的具體使用頻率的密碼子之后,使用具有最高具體使用頻率的密碼子。
8. 權利要求7的方法,其特征是氨基酸密碼子基序中的密碼子是按遞減的具體使用頻 率排列的,使得在具有最低的具體使用頻率的密碼子之后,使用具有最高的具體使用頻率 的密碼子。
9. 權利要求1至8的任一項的方法,其特征是所述細胞是E. coli。
10. 權利要求9的方法,其特征是氨基酸密碼子基序是 丙氨酸選自SEQ ID N0:01、02、03、04和05,和/或 精氨酸選自SEQ ID NO:06和07,和/或 天冬酰胺選自SEQ ID N0:08、09、10、ll和12,和/或 天冬氨酸選自SEQ ID NO: 13和14,和/或 半胱氨酸選自SEQ ID N0:15、16和17,和/或 谷氨酰胺選自SEQ ID N0:18、19、20和21,和/或 谷氨酸選自SEQ ID N0:22、23和24,和/或 甘氨酸選自SEQ ID N0:25和26,和/或 組氨酸選自SEQ ID NO: 27和28,和/或 異亮氨酸選自SEQ ID NO: 29和30,和/或 亮氨酸選自SEQ ID N0:31、32和33,和/或 賴氨酸選自SEQ ID N0:34、35、36和37,和/或 苯丙氨酸選自SEQ ID N0:38、39和40,和/或 脯氨酸選自 SEQ ID NO:41、42、43、44、45 和 46,和 / 或 絲氨酸選自SEQ ID NO:47和48,和/或 蘇氨酸選自SEQ ID N0:49、50和51,和/或 酪氨酸選自SEQ ID N0:52和53,和/或 纈氨酸選自SEQ ID NO:54、55和56。
11.權利要求1至10的任一項的方法,其特征是所述多肽是抗體、或抗體片段、或抗體 融合多肽。
【文檔編號】C12N15/67GK104245937SQ201380020266
【公開日】2014年12月24日 申請日期:2013年4月15日 優(yōu)先權日:2012年4月17日
【發(fā)明者】S·克洛斯特曼, E·科佩茨基, U·施瓦茨 申請人:弗·哈夫曼-拉羅切有限公司