資訊分享_1_為何我們需要可視化?
什麼是可視化(visualization)
Webster 字典中visualization的定義如下。
Vi.su.al.i.za.tion [1]
1.Formation of mental visual images
2.The act or process of interpreting in visual terms or of putting into visible form.
簡單的說我們可以把可視化理解成是一個:將抽象的科學或者商業數據.用圖像表示出來.幫助理解數據的意義的過程。它通常會在進行數據分析(data analysis)的過程中大量的使用。
使用可視化呈現信息並不是一個新現象。
大家都聽說過南丁格爾~~
但大家所不常聽說的是在19世紀中期,克里米亞戰爭爆發。
在這場戰中,雙方死亡人數超過50萬人,
可謂戰況慘烈。南丁格爾當時是英國的一名戰地護士,
她對英國士兵的死亡情況進行了統計對比,
最終發現「因醫療條件惡劣導致的死亡人數,遠遠超過了前線陣亡人數」。
南丁格爾將統計結果繪製成一張圖表,
這張圖表即是被後世稱為「南丁格爾玫瑰圖」的歷史上第一份「極區圖」。
玫瑰圖,刺激了神經麻木的官僚,充分證明了數據可視化的價值,
促成了第一座戰地醫院的建立,從而大大降低了戰爭帶來的死亡率。
不可忽略可視化相較於統計的重要性
許多人對於"Anscombe's quartet"這個名詞應該很陌生,
這是 FJ Anscombe在1973年在他的一篇論文" Graphs in Statistical Analysis "中所提出的,
我們先看到下方四個數據集
對四組數據進行簡單的數據分析,
每組數據有兩個變量,
我們用常用的統計去評估四組數據的特點,
可以得到相同的
Means(平均值): X = 9 Y = 7.5
Variance(總體方差): X = 11Y = 4.122
Correlation(關聯) xy: 0.816
Linear regression(線性回歸方程): Y = 3.0 + 0.5X
好像所有的數據貌似都是一個特點。
一樣的平均值,線性回歸方程。
如果只是根據這些數據去做簡單的判斷的話,
得出來的結論是一樣的。
但是,如果我們用簡單的data visualization去分析這些數據,
得到的結果確完全不一樣!。
第一租數據圖告訴我們,x 和y 有線性關係。
第二組數據圖告訴我們, x 和y 有曲線回歸關係。
第三組數據圖告訴我們, x 和y 有強線性關係且還有一個異常點。
第四組數據圖可以看出多數數據X坐標集中在一起,而且也有一個異常值。
我們用了簡單的圖表對比以後,
就會發現實際上這些在用圖像表示出來後,
有完全不一樣的故事。
加拿大的Matejka, Justin; Fitzmaurice, George
在2017年發表了一篇很有意思的論文
"相同統計,不同圖形:通過模擬生成具有不同外觀和統一統計的數據集"
"Same Stats, Different Graphs:
Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing".
在Youtube中也有他們的模擬結果影片,
可以看出來其中平均統計量到小數點後兩位相同,
等於數據的統計變化量誤差小於1%
結論生活在資訊化的現代,
我們應該對於統計不再陌生,
且能善用手邊工具例如EXCEL,
更進一步可以推薦使用Tableau等專業的可視化軟件,
進階的話建議可以選擇學習Python或是R語言。
最後推薦幾本不錯的入門書
第一本是目前博客來中唯一教導使用Tableau的書籍
大數據時代必學的超吸睛視覺化工具與技術:Excel+Tableau成功晉升資料分析師
R語言的話非常推薦
R語言:邁向Big Data之路(最新版)
本網站所有文章皆為 H.B. Liu 撰寫,歡迎分享,有疑問想討論的都歡迎於下方留言,
現在也多了個 新選項可以到粉專私訊我,
有所錯誤歡迎指教。
有問題也可 B10231040@gmail.com聯繫
留言
張貼留言