http://dongxicheng.org/big-data/select-ten-from-billions/
非常棒的思路,因為在現今多核的年代裡面,
處理top k就有不同的組合。
4. 总结
Top K问题是一个非常常见的问题,公司一般不会自己写个程序进行计算,而是提交到自己核心的数据处理平台上计算,该平台的计算效率可能不如直接写程序高,但它具有良好的扩展性和容错性,而这才是企业最看重的。
5. 参考资料
《十道海量数据处理面试题与十个方法大总结》:http://blog.csdn.net/v_JULY_v/archive/2011/03/26/6279498.aspx
原创文章,转载请注明: 转载自董的博客
本文链接地址: http://dongxicheng.org/big-data/select-ten-from-billions/
沒有留言:
張貼留言