2013年4月26日 星期五

[hadoop][hive]hive schema on read / schema on write

[hadoop][hive]hive schema on read / schema on write

- schema on write
傳統的RDB內,dbms擁有db與data的所有控制權,包括管理數據的儲存格式,與update更新資料。
dbms就如同一個gatekeeper角色
(A gatekeeper is a person who controls access to something, for example via a city gate. )

- schema on read
只有當有query需求,在去查看該資料表的schema定義。
所以在,hive中才有one data multi schema的情況,
可以把多個描述資訊指向同一筆data。

從hive的,架構與設計開始講起,
為了滿足大量資料的處理與資料共享,
他們希望在 data warehouse 內的資料是可以快速搬遷與共用的。

所以,可以使用 EXTERNAL 的方式共享資料來源,
運用multi schema 來重用資料。

LOAD DATA 時 不檢查導入的資料是否符合schema定義的格式,
所以可以使用map reduce的特性,平行把資料 put 到 hdfs上。

像是 阿里的雲梯和百度內部的資料 與平台設計上 都有應用到資料共享的方式去設計。


沒有留言:

張貼留言