技術特征:
技術總結
本發明涉及一種基于流水線的分布式多表連接方法及系統,其中方法包括并行執行的以下步驟:映射處理單元從分布式文件系統讀取待連接表,將所述待連接表進行映射處理后得到對應的數據塊,并以每兩個待連接表為一組輸出;第二規約處理單元按序讀取第二組至末尾組表的數據塊,并對每組表的兩個數據塊進行哈希連接得到每組表的兩表連接結果;第一規約處理單元讀取第一組表的兩個數據塊進行哈希連接后作為初始的多表連接結果,并在等待第二規約機器群完成一組表的哈希連接后,將當前的多表連接結果與該組表的兩表連接結果進行順序連接,直至所有組表完成連接。本發明通過并行執行的流水線,既實現了查詢操作時自適應分割,又能快速高效的完成。
技術研發人員:王宏志;孫旭冉;趙志強
受保護的技術使用者:哈工大大數據產業有限公司
技術研發日:2017.05.19
技術公布日:2017.10.03