2012年2月15日 星期三

[CS] top k 問題

怎样从10亿查询词找出出现频率最高的10个 | 董的博客 very nice artical
http://dongxicheng.org/big-data/select-ten-from-billions/

非常棒的思路,因為在現今多核的年代裡面,
處理top k就有不同的組合。


4. 总结

Top K问题是一个非常常见的问题,公司一般不会自己写个程序进行计算,而是提交到自己核心的数据处理平台上计算,该平台的计算效率可能不如直接写程序高,但它具有良好的扩展性和容错性,而这才是企业最看重的。

5. 参考资料

《十道海量数据处理面试题与十个方法大总结》:http://blog.csdn.net/v_JULY_v/archive/2011/03/26/6279498.aspx

原创文章,转载请注明: 转载自董的博客

本文链接地址: http://dongxicheng.org/big-data/select-ten-from-billions/

沒有留言:

張貼留言