2014年9月2日 星期二

[hadoop][best practices] how to choose the appropriate linux file system for HDFS 如何選擇一個合適的檔案系統




Hadoop Distributed File System(HDFS) 是一個獨立的平台,可以在運行在任何不同的文件系統與操作系統上運行。Linux 提供了多種的檔案系統的選擇,每個選擇對於HDFS性能有不同的影響。
一般來說的最佳實踐方案,在掛載(mount) Hadoop Data的硬碟建議不啟用 "noatime"。這將會加快文件讀取速度。
有三種比較流行的檔案系統
  • Ext3
  • Ext4
  • XFS
Yahoo 使用 ext3 檔案系統來做他們的hadoop 的預設 檔案系統。Ext3 也是許多作業系統預設的檔案系統。所以 HDFS on ex3 已經被Yahoo 廣泛的測試,這可能是個比較安全的檔案系統選項。

ext4 的前身是ext3 。ext4 對於大檔案有比較好的性能表現。ext4 還有 " delayed allocation of data ",可以會增加一點風險造成服務氣中段,但是同時減少碎片的產生與改進效能。

XFS 比起ext3 提供比較好的磁碟空間使用率而且有更快的格式化時間。這意味著你可以比較快的使用 XFS 的 datanode。

硬碟的I/O 是個主要影響 Hadoop 的性能問題。 ext3 已經被廣泛的使用在hadoop上,而 ext4 , xfs可以用來提供更加的性能。


Best Practices: Linux File Systems for HDFS - Hortonworks http://zh.hortonworks.com/kb/linux-file-systems-for-hdfs/

沒有留言:

張貼留言