|
International Conference on the Frontiers of Statistics: High
Dimensional Data Analysis
Yunnan University, Kunming, China
August 13 and 14, 2007
Short Courses - August 11 and 12, 2007
High
dimensional data visualization: the matrix visualization approach,
half-day, by Chun-Houh Chen, Academia Sinica, Taiwan |
[English
Version][Chinese Version]
國際統計前沿會議: 高維數據分析
短期課程: 高維度資料視覺化--全矩陣資訊視覺化方法
雲南大學, 昆明, 中國
8.11 ~ 8.12 2007
應用圖形化探索質化與量化的資料是現代統計分析方法中的第一步也是必需的一步。傳統的圖形化工具都有些限制,例如:
散佈圖陣列(Scatterplot
Matrix)對資料只有20個變數左右比較有用、盒狀圖(Box-Plot)沒有提供變數之間的交互作用、而平行座標製圖(Parallel-Coordinate-Plot)需要大量的互動作用以擷取所有的資訊。維度簡化的工具如主成份分析(Principal
Component Analysis)與多元尺度法(MultiDimensional Scaling)在視覺化探索潛藏於高維度資料的資訊結構時,會喪失些許效益。
矩陣視覺化(Matrix
visualization, Chen (2002); Chen et al.
(2004))可以同時地探索數千個觀察對象、變數及兩者之間的關係而不需要先降低維度。矩陣視覺化藉由適當的關係矩陣與排序方法對原始資料矩陣的行跟列做排列,排列後的原始資料矩陣及兩關係矩陣經由適當的圖譜呈現成矩陣圖的形態,我們可以視覺化地擷取資料中觀察對象之群性、變數的群性及兩者的交互作用。矩陣散佈圖、盒狀圖以及平行座標製圖對某些資料型態如二元資料(binary)、順序資料(ordinal)及名目資料(nominal)沒辦法提供充分的視覺化資訊,而全矩陣資訊視覺化能給我們觀察對象、變數及兩者群與群之間交互作用的全面資訊。 |
0. 矩陣視覺化之廣義相關圖的一般架構
|
這次的演講,首先我會針對我們實驗室所發展的資訊視覺化方法-廣義關聯圖(Generalized Association
Plots),應用在不同資料型態(連續、二元、名目)所需要的技術做簡單地介紹。實際應用的科學問題包含範圍從生物醫學實驗、心理測量學的研究到社會調查等都會在此探討。並討論我們方法的發展及未來可能的研究方向。相關的資訊與軟體(目前只有針對連續與二元的資料型態;我們希望可以在昆明的會議中提供可以處理名目資料型態的GAP軟體)可以參觀此網頁http://gap.stat.sinica.edu.tw
。有興趣使用我們的軟體,可以在會議前下載Java版的GAP與使用手冊,以便課程中的討論。
|
本次包含的課題:
1. 矩陣視覺化之連續資料型態(嚴重急性呼吸道症候,
SARS)
2. 矩陣視覺化之二元資料型態
|
3. 矩陣視覺化之類別資料型態
4. 矩陣視覺化之地圖資料與區域性連結
5. 變項校正之矩陣視覺化(Covariate-adjusted MV)
6. 多層次架構資料(MultiLevel)
7. 遺失值問題(Missing value)
8. 相關矩陣的絳維模型檢測
9. 非線性相關的矩陣視覺化
10. 典型相關分析的矩陣視覺化
...
|
|
|