資訊分享_1_為何我們需要可視化?



什麼是可視化(visualization)

Webster 字典中visualization的定義如下。

Vi.su.al.i.za.tion [1]

1.Formation of mental visual images

2.The act or process of interpreting in visual terms or of putting into visible form.

簡單的說我們可以把可視化理解成是一個:將抽象的科學或者商業數據.用圖像表示出來.幫助理解數據的意義的過程。它通常會在進行數據分析(data analysis)的過程中大量的使用。



使用可視化呈現信息並不是一個新現象。

大家都聽說過南丁格爾~~

但大家所不常聽說的是在19世紀中期,克里米亞戰爭爆發。

在這場戰中,雙方死亡人數超過50萬人,

可謂戰況慘烈。南丁格爾當時是英國的一名戰地護士,

她對英國士兵的死亡情況進行了統計對比,

最終發現「因醫療條件惡劣導致的死亡人數,遠遠超過了前線陣亡人數」。




南丁格爾將統計結果繪製成一張圖表,

這張圖表即是被後世稱為「南丁格爾玫瑰圖」的歷史上第一份「極區圖」。

玫瑰圖,刺激了神經麻木的官僚,充分證明了數據可視化的價值,

促成了第一座戰地醫院的建立,從而大大降低了戰爭帶來的死亡率。

不可忽略可視化相較於統計的重要性




許多人對於"Anscombe's quartet"這個名詞應該很陌生,

這是 FJ Anscombe在1973年在他的一篇論文" Graphs in Statistical Analysis "中所提出的,

我們先看到下方四個數據集




對四組數據進行簡單的數據分析,

每組數據有兩個變量,

我們用常用的統計去評估四組數據的特點,


可以得到相同的

Means(平均值): X = 9 Y = 7.5

Variance(總體方差): X = 11Y = 4.122

Correlation(關聯) xy: 0.816

Linear regression(線性回歸方程): Y = 3.0 + 0.5X


好像所有的數據貌似都是一個特點。

一樣的平均值,線性回歸方程。

如果只是根據這些數據去做簡單的判斷的話,

得出來的結論是一樣的。




但是,如果我們用簡單的data visualization去分析這些數據,

得到的結果確完全不一樣!。





第一租數據圖告訴我們,x 和y 有線性關係。

第二組數據圖告訴我們, x 和y 有曲線回歸關係。

第三組數據圖告訴我們, x 和y 有強線性關係且還有一個異常點。

第四組數據圖可以看出多數數據X坐標集中在一起,而且也有一個異常值。

我們用了簡單的圖表對比以後,

就會發現實際上這些在用圖像表示出來後,

有完全不一樣的故事。






加拿大的Matejka, Justin; Fitzmaurice, George

在2017年發表了一篇很有意思的論文

"相同統計,不同圖形:通過模擬生成具有不同外觀和統一統計的數據集"

"Same Stats, Different Graphs:

Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing".


在Youtube中也有他們的模擬結果影片,



可以看出來其中平均統計量到小數點後兩位相同,

等於數據的統計變化量誤差小於1%


結論生活在資訊化的現代,

我們應該對於統計不再陌生,

且能善用手邊工具例如EXCEL,

更進一步可以推薦使用Tableau等專業的可視化軟件,

進階的話建議可以選擇學習Python或是R語言。




最後推薦幾本不錯的入門書

第一本是目前博客來中唯一教導使用Tableau的書籍

大數據時代必學的超吸睛視覺化工具與技術:Excel+Tableau成功晉升資料分析師






R語言的話非常推薦
R語言:邁向Big Data之路(最新版)








本網站所有文章皆為 H.B. Liu 撰寫,歡迎分享,有疑問想討論的都歡迎於下方留言,

現在也多了個 新選項可以到粉專私訊我,

有所錯誤歡迎指教。

有問題也可 B10231040@gmail.com聯繫



留言

這個網誌中的熱門文章

Excel_統計_簡單線性回歸_檢量線

軟體分享_Imagej_顆粒計算_孔隙率計算_孔徑分布

Google試算表_統計_簡單線性回歸_檢量線