2013年4月30日 星期二

[think]當下



當你想念一個人的時候,盡情去想念吧,也許有一天,你再也不會如此想念他了。當你愛一個人的時候,就盡情去愛吧,讓他知道你是如此愛他。也許有一天,你長大了,失望太多,思慮也多了,你再也不會那麼熾烈地愛一個人了。

[linux]ssh passwordless login authorized_keys permission


root@am1[~]{18:23}# ssh-copy-id -i ~/.ssh/id_rsa.pub am3
root@am3's password:
Now try logging into the machine, with "ssh 'am3'", and check in:

.ssh/authorized_keys

to make sure we haven't added extra keys that you weren't expecting.

因為之前有更改,am3上的 /root 的權限,
所以只要改回把 .ssh 與 .ssh/authorized_keys 改回正確的權限,
就可以使用key 登入了。


2013年4月29日 星期一

[talk]永別了!台灣雲豹 學者用生命調查13年證實「已滅絕」 | ETtoday生活新聞 | ETtoday 新聞雲

永別了!台灣雲豹 學者用生命調查13年證實「已滅絕」 | ETtoday生活新聞 | ETtoday 新聞雲
http://www.ettoday.net/news/20130429/199109.htm


唉 哀傷,一言難盡阿
以前常常引以為傲的台灣雲豹,
要被宣告絕種了。

人類科技與技術的發展,跟自然界的生物,好像也沒有往上回復。

有些事物,一過去,卻在也回不來。
不勝唏噓阿。

[think]最幸福的三件事

有人愛, 有事做, 有所期待... 最幸福的三件事 之前在BBS上的po文, 最近又看到它,又覺得描寫的很深刻。


[think]最幸福的三件事


有人愛,
有事做,
有所期待...
最幸福的三件事

之前在BBS上的po文,
最近又看到它,又覺得描寫的很深刻。


[電影]極惡非道 北野武

極惡非道 - 維基百科,自由的百科全書
http://zh.wikipedia.org/wiki/%E6%A5%B5%E6%83%A1%E9%9D%9E%E9%81%93

極惡非道(日語:アウトレイジ)是日本2010年的電影,導演為北野武,該電影以黑幫作為主要題材。本片入圍第63屆坎城電影節主競賽單元。於2010年6月12日日本上映。

好狠~~~

[hadoop][hive] multi char delimiter 多字節 分隔符

[hadoop][hive] multi char delimiter 多字節 分隔符

hive create hive表時,可以使用 ROW FORMAT DELIMITED 來指定 FIELDS TERMINATED BY '\t' (以\t為例)
使用單一char的分隔符,來分隔record。
預設是使用ctrl a 也就是\000 。

hive 是屬於schema on read ,當讀取或者操作data時,才會去parse資料。
一般可以採用,SERDE去parse你的record。
實際情況中,若是你從 RDB導入 hive中,你會發現你的field可能很多,
大概在大於30的regex的時候,會有無法啟動的情況。

所以,採用自定義的 INPUTFORMAT 與 OUTPUTFORMAT


CREATE TABLE WEBLOG(
(
WEBPAGEID STRING,
URL STRING,
TITLE STRING
CDATE DATE
)
stored as INPUTFORMAT 'MULTICHARInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' ;

hive 中 透過重寫 INPUTFORMAT 來parse讀入的record,
要輸出則使用 OUTPUTFORMAT,可預先定義好的 HiveIgnoreKeyTextOutputFormat

HiveOutputFormat (Hive 0.10.0 API)
http://hive.apache.org/docs/r0.10.0/api/org/apache/hadoop/hive/ql/io/HiveOutputFormat.html
org.apache.hadoop.hive.ql.io
Interface HiveOutputFormat

All Superinterfaces:
org.apache.hadoop.mapred.OutputFormat
All Known Implementing Classes:
AvroContainerOutputFormat, HiveBinaryOutputFormat, HiveIgnoreKeyTextOutputFormat, HiveNullValueSequenceFileOutputFormat, HiveSequenceFileOutputFormat, RCFileOutputFormat, Rot13OutputFormat

甚至可以使用RCFileOutputFormat用RCFile的格式當hive的輸出。
(在hive中,如何使用 rcfile,在接下來會談到。)

詳細的源碼 可以在 peicheng at github 上取得
hive-archive/MULTICHAR_jar at master · peicheng/hive-archive · GitHub
https://github.com/peicheng/hive-archive/tree/master/MULTICHAR_jar


2013年4月28日 星期日

[電影]The Fighter 燃燒鬥魂


The Fighter –
What have you done with your life?
The Fighter Clip - YouTube
http://www.youtube.com/watch?v=NVnqzC4lGEM

看到都熱血了。


主角和配角 (斗士 影评)
http://movie.douban.com/review/5099869/


[hadoop][hbase]How Scaling Really Works in Apache HBase | Apache Hadoop for the Enterprise | Cloudera

How Scaling Really Works in Apache HBase | Apache Hadoop for the Enterprise | Cloudera
http://blog.cloudera.com/blog/2013/04/how-scaling-really-works-in-apache-hbase/

2013年4月26日 星期五

[hadoop][hive]dynamic partition


hadoop - Hive: Create Table and Partition By - Stack Overflow
http://stackoverflow.com/questions/13800360/hive-create-table-and-partition-by

[hadoop][hive]hive schema on read / schema on write

[hadoop][hive]hive schema on read / schema on write

- schema on write
傳統的RDB內,dbms擁有db與data的所有控制權,包括管理數據的儲存格式,與update更新資料。
dbms就如同一個gatekeeper角色
(A gatekeeper is a person who controls access to something, for example via a city gate. )

- schema on read
只有當有query需求,在去查看該資料表的schema定義。
所以在,hive中才有one data multi schema的情況,
可以把多個描述資訊指向同一筆data。

從hive的,架構與設計開始講起,
為了滿足大量資料的處理與資料共享,
他們希望在 data warehouse 內的資料是可以快速搬遷與共用的。

所以,可以使用 EXTERNAL 的方式共享資料來源,
運用multi schema 來重用資料。

LOAD DATA 時 不檢查導入的資料是否符合schema定義的格式,
所以可以使用map reduce的特性,平行把資料 put 到 hdfs上。

像是 阿里的雲梯和百度內部的資料 與平台設計上 都有應用到資料共享的方式去設計。


[hadoop][hive]查看 表是否為外部表 check your table is managed or external table

[hadoop][hive]查看 表是否為外部表 check your table is managed or external table

MANAGED_TABLE 就是 我們稱的 internal table 使用hive管理我們在hdfs內的檔案(hive 檔案路徑下)
EXTERNAL_TABLE 是資料存放在hdfs系統下,但是不一定存放在hive 檔案路徑下。

可以使用
DESCRIBE EXTENDED tablename;
會秀出
tableType:MANAGED_TABLE)
或者是
tableType:EXTERNAL_TABLE)

[hadoop][hive]how to create table in hive

在hive建立一個表 (table )
他只會自在metastore也就是我們的rdb 建立metadata。

create table table_name (
id int,
dtDontQuery string,
name string
);

還可以加上partition 把查找資訊帶在hdfs的資料夾路徑上,
在使用where條件時,hive只會去對該路徑下的file做處理,
可以節省處理其他不必要的檔案。
create table table_name (
id int,
dtDontQuery string,
name string
)
partitioned by (date string);

在hdfs上的路徑會長的像這樣
(hive 使用的root 路徑 定義在 hive.metastore.warehouse.dir
這裡使用 /apps/hive/warehouse/ )

/apps/hive/warehouse/table_name/date=20130426/

這時候我們就開始想把data透過hive載到hdfs上面去歸檔,
在hive中有形式的表存在hdfs中,

第一種,internal table 檔案在hive資料夾的路徑中,
第二種,external table 使用 external table的方式映設到hdfs上的檔案
(當 drop table TABLENAME ; 時,external table只會刪除,在metastore上的表的metadata並不會刪除原本hdfs內的資料。)

對 external table的宣告如下,

create external table if not exists table_name (
id int,
dtDontQuery string,
name string
);
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/data/tb';

上面這個例子,
我們又多提到了, if not exists 與 ROW FORMAT DELIMITED FIELDS TERMINATED BY
還有 LOCATION。
分別是,可以先判斷你要創建的表是否存在於hive table當中,如果沒有就會幫你建立。
當我們載入的資料來源,每一筆record中,每個field是以 ','作為分隔的話,
就可以使用 DELIMITED FIELDS TERMINATED BY 去 宣告,
這個在hive內預設是 ctrl+A \000。
透過,location 直接映設了存在在hdfs上的檔案。

順道一提,
hive 是屬於 schema on read,也就說,當他在建table, load data時,不會檢查檔案的內容,
所以,在載入資料到hive 路徑下時,只是單純的copy。





[hadoop][hive]how to cat read rcfile

[hadoop][hive]how to cat read rcfile

hive provides an rcfilecat tool to display the content of RCFilels

hive --service rcfilecat /apps/hive/warehouse/Tablename/000000_0

這樣就可以看到RCFile裡面的內容

2013年4月25日 星期四

[電影]iron man 3 鋼鐵人

[電影]iron man 3 鋼鐵人

已經不是再是那麼純粹的無敵英雄電影了。
敵人都是我們自己創造的,要問真正的自己,還有你怎麼牽起你心中的那個人。

2013年4月24日 星期三

[電影]iron man 3 鋼鐵人

[電影]iron man 3 鋼鐵人

已經不是再是那麼純粹的無敵英雄電影了。
敵人都是我們自己創造的,要問真正的自己,還有你怎麼牽起你心中的那個人。

2013年4月15日 星期一

[data]截面數據


按照被描述的對象與時間的關係,可以將統計數據分為截面數據和時間序列數據。截面數據是在相同或近似相同的時間點上收集的數據,它所描述的是現像在某一時刻的變化情況。例如,2011年末房山區常住人口96.7萬人就是截面數據;時間序列數據是在不同時間上收集到的數據。它所描述的是現象隨時間而變化的情況,例如,2001—2011年房山區常住人口變動數據就是時間序列數據。

截面数据和时间序列数据
http://fsh.bjstats.gov.cn/zsyd/31291.htm


2013年4月10日 星期三

2013年4月6日 星期六

記 台灣演義西螺七崁的專題 前


前些日子,民視的 台灣演義 節目輾轉聯絡到我,
說是要製作一個 西螺七崁的專題。

便把手邊的資料,有關七崁的文章,都發了過去,
不過,倒是有件事情難倒了我,說是要代為聯絡,
可是認識都是師父長輩,很多遇見機會都是屬於機緣,也沒有執著的留下聯繫方式。

上網查了之前雲科大的文化資產網,也沒找到了。

看來,一個長久穩定的資料供應勢必要加快進行了。

2013年4月5日 星期五

[note]cheers 149 201304 陸雄文 跟高手過招,是進步最好的方法

[note]cheers 149 201304 陸雄文 跟高手過招,是進步最好的方法

1.跟高手過招
2.時刻告訴自己要有獨立的看法

2013年4月2日 星期二

[design pattern]Singleton 模式

Singleton 模式
http://caterpillar.onlyfun.net/Gossip/DesignPattern/SingletonPattern.htm