資訊分享_1_為何我們需要可視化?

- 8月 31, 2018

什麼是可視化(visualization)

Webster 字典中visualization的定義如下。

Vi.su.al.i.za.tion [1]

1.Formation of mental visual images

2.The act or process of interpreting in visual terms or of putting into visible form.

簡單的說我們可以把可視化理解成是一個：將抽象的科學或者商業數據.用圖像表示出來.幫助理解數據的意義的過程。它通常會在進行數據分析(data analysis)的過程中大量的使用。

使用可視化呈現信息並不是一個新現象。

大家都聽說過南丁格爾~~

但大家所不常聽說的是在19世紀中期，克里米亞戰爭爆發。

在這場戰中，雙方死亡人數超過50萬人，

可謂戰況慘烈。南丁格爾當時是英國的一名戰地護士，

她對英國士兵的死亡情況進行了統計對比，

最終發現「因醫療條件惡劣導致的死亡人數，遠遠超過了前線陣亡人數」。

南丁格爾將統計結果繪製成一張圖表，

這張圖表即是被後世稱為「南丁格爾玫瑰圖」的歷史上第一份「極區圖」。

玫瑰圖，刺激了神經麻木的官僚，充分證明了數據可視化的價值，

促成了第一座戰地醫院的建立，從而大大降低了戰爭帶來的死亡率。

不可忽略可視化相較於統計的重要性

許多人對於"Anscombe's quartet"這個名詞應該很陌生，

這是 FJ Anscombe在1973年在他的一篇論文" Graphs in Statistical Analysis "中所提出的，

我們先看到下方四個數據集

對四組數據進行簡單的數據分析,

每組數據有兩個變量,

我們用常用的統計去評估四組數據的特點，

可以得到相同的

Means(平均值): X = 9 Y = 7.5

Variance(總體方差): X = 11Y = 4.122

Correlation(關聯) xy: 0.816

Linear regression(線性回歸方程): Y = 3.0 + 0.5X

好像所有的數據貌似都是一個特點。

一樣的平均值，線性回歸方程。

如果只是根據這些數據去做簡單的判斷的話，

得出來的結論是一樣的。

但是，如果我們用簡單的data visualization去分析這些數據，

得到的結果確完全不一樣！。

第一租數據圖告訴我們，x 和y 有線性關係。

第二組數據圖告訴我們, x 和y 有曲線回歸關係。

第三組數據圖告訴我們, x 和y 有強線性關係且還有一個異常點。

第四組數據圖可以看出多數數據X坐標集中在一起，而且也有一個異常值。

我們用了簡單的圖表對比以後，

就會發現實際上這些在用圖像表示出來後，

有完全不一樣的故事。

加拿大的Matejka, Justin; Fitzmaurice, George

在2017年發表了一篇很有意思的論文

"相同統計，不同圖形：通過模擬生成具有不同外觀和統一統計的數據集"

"Same Stats, Different Graphs:

Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing".

在Youtube中也有他們的模擬結果影片，

可以看出來其中平均統計量到小數點後兩位相同，

等於數據的統計變化量誤差小於1%

結論生活在資訊化的現代，

我們應該對於統計不再陌生，

且能善用手邊工具例如EXCEL，

更進一步可以推薦使用Tableau等專業的可視化軟件，

進階的話建議可以選擇學習Python或是R語言。

最後推薦幾本不錯的入門書

第一本是目前博客來中唯一教導使用Tableau的書籍

大數據時代必學的超吸睛視覺化工具與技術：Excel+Tableau成功晉升資料分析師

R語言的話非常推薦
R語言：邁向Big Data之路(最新版)

本網站所有文章皆為 H.B. Liu 撰寫，歡迎分享，有疑問想討論的都歡迎於下方留言，

現在也多了個新選項可以到粉專私訊我，

有所錯誤歡迎指教。

有問題也可 B10231040@gmail.com聯繫

搜尋此網誌

學習分享_阿好伯

資訊分享_1_為何我們需要可視化?

留言

張貼留言

這個網誌中的熱門文章

Excel_統計_簡單線性回歸_檢量線

Google試算表_統計_簡單線性回歸_檢量線

軟體分享_Imagej_顆粒計算_孔隙率計算_孔徑分布