2013年7月30日 星期二

[note]the c10 problem



hence the name C10k - concurrent ten thousand connections

1萬 併發連線的問題
C10k problem - Wikipedia, the free encyclopedia
http://en.wikipedia.org/wiki/C10k_problem
The C10K problem翻译 - fll - 博客园
http://www.cnblogs.com/fll/archive/2008/05/17/1201540.html

Http | Reference Guide | Elasticsearch
http://www.elasticsearch.org/guide/reference/modules/http/







2013年7月26日 星期五

[武術] 130724 傳奇人物 松田隆智 走了

130724 傳奇人物 松田隆智 走了


訃報:中国武術研究の第一人者・松田隆智氏が死去 - eFight 【イーファイト】 格闘技情報を毎日更新!
http://efight.jp/news-20130724_20234


 


日本における中国武術研究の第一人者・松田隆智氏が、7月24日(水)7時39分、急性心筋梗塞のため死去した。享年75歳。


 松田氏は1938年6月6日、愛知県岡崎市出身。極真空手の創始者・大山倍達に師事したほか多くの武道遍歴を重ねた後、台湾・中国大陸に渡って中国武術の修行を積んだ。


 1980年代初頭に子供向けテレビ番組「ひらけ!ポンキッキ」で数え歌「カンフーレディー」に出演し、同曲はお茶の間で人気となり、一躍有名となった。1982年公開の映画「刑事物語」で武田鉄矢に蟷螂拳(とうろうけん)を指導したことでも知られる。書籍では多くの中国拳法の技術書を著し、またコミックでは中国拳法漫画「拳児」を原作した。


[music]音樂家介紹 音樂的家首頁


柴可夫斯基
http://www2.ouk.edu.tw/wester/composer/Tchaikovsky.htm

滿多音樂家的介紹跟曲目歷史故事
音樂的家首頁
http://www2.ouk.edu.tw/wester/composer/main.htm



2013年7月24日 星期三

[music] 蕭邦 Piano Prelude 雨滴前奏曲

 [music] 蕭邦 Piano Prelude  雨滴前奏曲
原來熟悉的聲音是這個曲目


15. Piano Prelude No 15 Raindrop ( 57:39 )
16. Piano Prelude No 7 Opus 28 ( 1:03:14 )


[twwy] 田調日記 驚為天人 振興館


大家所說的 西螺七崁
以前都想說,陳成 (肉圓成) 的拳肢已經看不到了,
殊不知,還保有這麼扎扎實實的練法。

千言萬語等日後,補齊部分資料再來特書一章。


[news]金山雲 楊鋼 雲存儲市場已趨於成熟


金山云杨钢:云存储市场已趋于成熟-CSDN.NET
http://www.csdn.net/article/a/2013-07-19/15816089


影片內有個採訪,講到雲端硬碟 雲存儲 的商業模式,
雲服務的按需付費,再來就是跟協力廠商把市場做大。

用戶的體驗而不只是個用戶數字。


2013年7月22日 星期一

[hadoop] pig bulk load data into hbase error log tmp




bash-4.1$ pig -useHCatalog simple.bulkload.pig
2013-07-19 21:23:40,293 [main] INFO org.apache.pig.Main - Apache Pig version 0.10.1.21 (rexported) compiled Jan 10 2013, 04:00:42
2013-07-19 21:23:40,294 [main] INFO org.apache.pig.Main - Logging error messages to: /home/hdfs/pc_test/pig_1374240220291.log
2013-07-19 21:23:40,588 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://dmp-hadoop-m1.dmp:8020
2013-07-19 21:23:40,687 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to map-reduce job tracker at: dmp-hadoop-m2.dmp:50300
2013-07-19 21:23:41,301 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig features used in the script: UNKNOWN
2013-07-19 21:23:41,496 [main] WARN org.apache.hadoop.hive.conf.HiveConf - DEPRECATED: Configuration property hive.metastore.local no longer has any effect. Make sure to provide a valid value for hive.metastore.uris if you are connecting to a remote metastore.
2013-07-19 21:23:41,573 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 2998: Unhandled internal error. com.google.common.base.Objects.firstNonNull(Ljava/lang/Object;Ljava/lang/Object;)Ljava/lang/Object;
Details at logfile: /home/hdfs/pc_test/pig_1374240220291.log
bash-4.1$ vim /home/hdfs/pc_test/pig_1374240220291.log

2013年7月18日 星期四

[python]dict size

稍微做了一個測試把一個字典檔載入到dict裡面,
結構為 dict[term]=詞頻

$ ls -al /usr/local/lib/python2.7/dist-packages/jieba-0.30-py2.7.egg/jieba/dict.txt
-rw-r--r-- 1 root staff 8583143 7月 15 16:11 /usr/local/lib/python2.7/dist-packages/jieba-0.30-py2.7.egg/jieba/dict.txt

字典檔大小是 8M
生成的 python dict 是 25M
25166104

主要是由 sys.getsizeof(obj) 來計算。

所以,使用dict存放在內存內,大概膨脹了3倍的大小。

2013年7月16日 星期二

[hadoop] Hadoop Summit, San Jose - June 26-27, 2013 slides and video and about hive

Hadoop Summit, San Jose - June 26-27, 2013
http://hadoopsummit.org/san-jose/schedule/

已經有上傳slides跟影片可以看了。

幾個hive相關的sessions

- Simplifying Use of Hive with the Hive Query Tool
http://www.slideshare.net/Hadoop_Summit/scaffidi-june26-405pmroom212
Simplifying Use of Hive with the Hive Query Tool - YouTube
http://www.youtube.com/watch?v=5if1GXBBKMQ
TripAdvisor內部使用 perl 撰寫 接上 Hive CLI 的 Hive Query Tool
還有提供Template制定要選取的query語法範本,
主要是想要提供給非程式設計師使用的query介面。
tripadvisor/hive-query-tool
https://github.com/tripadvisor/hive-query-tool
A web interface to Hive with flexible, user-friendly query customization

- An In-Depth Look at Putting the Sting in Hive
http://www.slideshare.net/Hadoop_Summit/gates-june27-1100amroom210a
Hortonworks 對 Hive改進的報告,
其中有幾個重要的改進點,還有join的時候把所以的data都load到各台的memory裏面,
減少很多步驟會產生中間暫存檔,加快了不少速度。
還有 sort merge bucket /SMB 的改進。

- Master Chief Loves Hive -- Using Hadoop in the Cloud
http://www.slideshare.net/Hadoop_Summit/flasko-june27-425pmhall1
Master Chief Loves Hive- Using Hadoop in the Cloud - YouTube
http://www.youtube.com/watch?v=dXodQRFA1HM
microsoft 的keynote 關於 hive query and online service HDinsight demo,
怎麼從小的規劃演變到使用big data tools。
可以看到很多關於,windows上的tools演示 包跨使用 excel 操作hive。

- ORC File & Vectorization - Improving Hive Data Storage and Query Performance
http://www.slideshare.net/Hadoop_Summit/hanson-o-malleypandeyjune27425pmroom212
ORC File & Vectorization - Improving Hive Data Storage and Query Performance - YouTube
http://www.youtube.com/watch?v=GV7vpR7vpjM








[think]Data Scientist 關於 twitter的資料科學家 數據科學家 數據專家

[think]關於 twitter的資料科學家 數據科學家 數據專家

非常有趣的問題關於最近新興的一個名詞,"Data Scientist "。
我想這並不是一門新興的學問也不是單一目標就可以成為資料科學家。
起碼要有,

- 自動化處理資料的經驗
- 怎麼分析的know-how(需要怎樣的output)
- visualization 可視化分析 就是告訴你數據算完會長怎樣。

以前,這是一門隱晦的學問,因為常常都是有本事的人的看家本領。
要麻就在學界,要麻就封閉在業界,
最近因為big data狂潮,大家才又開始把這樣的觀念提出來講。

数据科学与R语言: Twitter的数据科学家是如何工作?
http://xccds1977.blogspot.tw/2012/03/twitter.html


"3. Was your latest post (on clustering) inspired by something you’re working on at Twitter (that you can discuss)?
I’ve been doing some work on clustering our users and advertisers, automatically inferring topic categories in text, and thinking about what we can learn from food on Twitter (for example, do men and women, or San Franciscans and New Yorkers, differ in what they eat? is there any relationship between what people eat and what they tweet, e.g., are people more likely to eat junk food when they’re sad?). So while the post wasn’t directly inspired by what I’m working on at Twitter, it’s definitely related."

From :Twitter Data Scientist Takes on McDonald's Entire Menu, Survives | MIT Technology Review
http://www.technologyreview.com/view/427305/twitter-data-scientist-takes-on-mcdonalds-entire-menu-survives/

2013年7月13日 星期六

[電影]1999 駭客任務


沒錯 就是 駭客任務,
之前在片單上看到駭客任務,就想說一直沒好好看過駭客任務三部曲。
我想以1999年的時候,不光只是從影片探討的思想,跟影片拍攝的手法都是很新奇的。


駭客任務 - 維基百科,自由的百科全書
http://zh.wikipedia.org/wiki/%E9%BB%91%E5%AE%A2%E5%B8%9D%E5%9B%BD


《駭客任務》(英語:The Matrix)是一部1999年好萊塢科幻電影。由華卓斯基兄弟執導,基努·李維、勞倫斯·菲什伯恩、凱莉·安摩絲及雨果·威明等人主演,並由香港電影界的袁和平擔任動作指導,本片另於2003年推出續集及第三集。

2013年7月12日 星期五

[電影]1993 今天暫時停止


一部1993年的片子,
今天下午颱風天放假,剛好看到justin tv上有人放這部片了。
本來還想說主角很像湯姆漢克。
以那個年代背景來說,算是很有趣的題材,不對的重複同一天,
然後,怎麼心境上面的改變。
好像很多片,都有這樣的pattern。


今天暫時停止 - 維基百科,自由的百科全書
http://zh.wikipedia.org/wiki/%E4%BB%8A%E5%A4%A9%E6%9A%AB%E6%99%82%E5%81%9C%E6%AD%A2


2013年7月9日 星期二

[python]python GIL 與其他語言機制對比


est
11:12 (23 小時前)

寄給 python-cn
解决GIL 那是不可能的事情。本菜就来总结下:

1. C/C++ 手动管理。
2. perl 重来都是fork
3. tcl / lua 一个core一个解释器
4. erlang 复制为王
5. Ruby 也有GIL
6. JVM - fine grained lock。

总的来说,GIL 是个被严重夸大的问题,

为啥喷子就不去喷Go语言的GOMAXPROCS啊????整天把一个跑单核的Go语言当成宝了。

2013年7月8日 星期一

[fors]130708 七夕之後


剛好,在日本的七夕之後,
兩個本意不惡的人,就這樣了。祝你好運。
我想,這應該是這系列最後一篇,
中間,實在是忙壞了,思想太多了,甚至是想寫下的時候,可是精神身體狀態已經不行累攤了。

謝謝你,帶給了我很多歡笑,跟很多想像,還有,很久遺失的那種感覺。

很遺憾的是了解的不深,不過,可能會覺得我是個枯燥乏味的人,
我就這樣對人的。

很多話講說,
我覺得生活很重要,當某一方面的情感已經嚴重影響生活的各個面相的時候,
就讓我覺得這是很糟糕的事情。

日子還是在過,
如果把不開心,不明的狀態去除,我想會更好過一點。

對不起亂入你的生活,
本來就是兩條很不一樣的平行線。
沒有誰好也沒有誰不好,都很特別。

只是你也在找跟你頻率相同的人吧。

2013年7月3日 星期三

[life]130702 高雄遊

[life]130702 高雄遊

下高雄

左營高鐵

六合夜市

民宿

中山大學

中央公園

漢神巨蛋

鼎泰豐

飛梭

[hadoop]Exceeded limits on number of counters More than 120 counters in hadoop

"You can override that property in mapred-site.xml on your JT, TT, client nodes but make sure that this will be a system-wide modification:

<configuration>
...
<property>
<name>mapreduce.job.counters.limit</name>
<value>500</value>
</property>
...
</configuration>


Then restart the mapreduce service on your cluster.

"
limit - More than 120 counters in hadoop - Stack Overflow
http://stackoverflow.com/questions/12140177/more-than-120-counters-in-hadoop