Re: [求救] microarray normalization原理

看板Biotech作者 (莉羅夾克)時間9年前 (2014/11/06 03:33), 9年前編輯推噓5(5010)
留言15則, 4人參與, 最新討論串2/2 (看更多)
※ 引述《wouldfly (瑋瑋)》之銘言: : 是這樣的... 在看microarray data挑選一些顯著差異的candidates : 不免讓人想到是怎樣分析的,因為data分析前條件的設定,都會牽扯到可信度.. : 有一天有一位前輩跟我說 : http://ppt.cc/H9p9 這樣代表會有很多不可信的雜訊進去 : 但重點是我看不多懂這張圖~~~~~~ : 我有爬文或查過一些網路上的資料 : 像以下這些資料http://ppt.cc/H9p9 : http://www.slideshare.net/antiplastics/normalization-of-microarray : 或http://genpromarkers.com/Bioinformatics/Bioinformatics.html : 好像就是在解釋這個概念 : 但我還是看不懂那個盒鬚圖代表的概念是什麼,上下調整會影響什麼? : 條件設高設低代表的意思? : 不好意思~~~拜託懂得大大可以解釋,感激QQ "Normalization(正規化)是讓數據之間可以比較的前處理" 以qPCR來說,針對housekeeping gene數質的處理就是一種正規化 之所以會有原始數質彼此不能比較的原因 大部分在於operation variation(每次加樣的量都不同)跟platform background 過去Microarray 正規化也有人嘗試以qPCR的想法,把原始數值跟house keeping相除得到 delta CT,把這個數值當作正規化的數值。 這種想法十分的生物,但是遇到兩個問題, 第一個問題:housekeeping gene如何挑選? 高表現的housekeeping gene跟低表現的house keeping gene是不同的, 而正規化的比較標準又要一致, 第二個問題:真的有housekeeping gene嗎? 此外每間實驗室認為的housekeeping gene都有自己的一套know-how..... 由於housekeeping gene是人定義的,定義方式也不客觀 我碩論也被正規化的問題問得很慘,也告訴念生資或念生物的千萬不要自己開發統計方法 我們怎麼搞也無法說服統計學家........ 好的! 回來目前通行的正規化方式 目前Micorarray正規化的基本假設是:"大部分的基因表現在所有樣品間的差異不大" 換句話說有差異的基因佔的比例很低 這個假設捨棄了house keeping gene的概念,用population的概念去讓數值之間可以比較 http://genpromarkers.com/Systems_biology/img173.gif
上圖是原始數據,下圖是正規化的數值 我們看到每筆"原始數值"的population都不同,違反上面提到的假設 正規化後的數值就是調整每樣本的數值分佈是一樣的<-分佈!? 講到分佈~ 統計學家又高潮了~ 這就是我碩士論文又拖兩個月的原因 每套正規化工具所定義的分佈,不同的假設下,數值分佈會不同 回來看原始數值,我們可以了解Microaray的數值為何需要正規化 1. 我們可以看到 有些樣品的原始數值普遍偏高,這就是我提到operation variation 我們無法肯定每次RNA下的量都一樣,因此整體數值就會不同 2. 我們可以看到 有些樣品的variaion(iner-quataile range)小,而有些不是 這可能也是hybridization技術的問題(platform background) 因為hybridazation的技術一直有over-saturation及none-specific noise的問題 低表現的基因訊號會高估(因為有非專一的雜訊), 而高表現的基因訊號會低估(飽和問題) 也是有論文認為microarray是一個dynamic range相對不好的技術 (跟qPCR及RNA-seq相比, 我的工作跟NGS相關 趁機酸一下Microarray) 不過microarray的相關資源也比較多,例如GSE, bioGPS 等等db 很多分析工具也很成熟,在一般分析工具上很少人會質疑 而NGS的軟體還在蓬勃發展中........ 舉個例子來說GSEA的分析 在官方網站方面說: The GSEA team has yet to determine whether any of these ranking statistics,......., are appropriate for use with expression data derived from RNA-seq experiments. (就說不要惹統計學家,統計學家沒時間處理的軟體就成敗自負拉) 所以.....正規化就是這樣 有問題就再說吧 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.146.55.199 ※ 文章網址: http://www.ptt.cc/bbs/Biotech/M.1415216000.A.596.html ※ 編輯: lelojack (122.146.55.199), 11/06/2014 03:40:21 ※ 編輯: lelojack (122.146.55.199), 11/06/2014 03:43:06

11/06 06:11, , 1F
那NGS的誤差跟primer效率有沒有關係呢?
11/06 06:11, 1F

11/06 07:00, , 2F
NGS的normalization也還不成熟,大家各有自己的方法
11/06 07:00, 2F

11/06 07:43, , 3F
NGS 比較的前提在各 sample 的 total RNA numbers 相同..但
11/06 07:43, 3F

11/06 07:44, , 4F
這假設通常無法驗證...
11/06 07:44, 4F
我修改文章在順便題一下NGS表達量的算法 RPKM (Reads Per Kilobase per Million mapped reads) 其實這個算法真的很單純,就是用基因的長度和定序的通量進行正規化 由於NGS會讀到很多cDNA片段,最直觀的計算RNA表現的算法就是去計算cDNA片段的數量 每條cDNA片段就是代表RNA表現的證據 但是這有兩個bias: 1.基因越長,片段越多 2.定序總通量越大,所定序到的片段數量也越多 因此計算上真的很單純 Mapped reads/(基因長度[kb]*定序通量[總條數]) 至於有沒有缺點,哥在碩士念完就沒認真念論文惹 就等版上的強者來分享拉 ※ 編輯: lelojack (122.146.39.146), 11/06/2014 20:00:26

11/06 21:06, , 5F
TCGA的RNAseq是RPKM,但新的RNAseqV2則是另一個RSEM算法
11/06 21:06, 5F

11/06 21:07, , 6F
不過我只會用data,沒去管怎麼來的,細節就不清楚了
11/06 21:07, 6F

11/07 14:50, , 7F
主要是平常 wet lab 用的 housing keeping gene 表現量都不
11/07 14:50, 7F

11/07 14:51, , 8F
是最高的 1% gene.. reads 數量低..不能用來做為 NGS 的
11/07 14:51, 8F

11/07 14:52, , 9F
control.. 但現在 NGS normalization 的方式是拿 total read
11/07 14:52, 9F

11/07 14:53, , 10F
數去較正表現量.. 所以需要假設不同情況下的 total reads 差
11/07 14:53, 10F

11/07 14:54, , 11F
不多.. 事實上這是不太可能的事..但也沒有更好的方法
11/07 14:54, 11F

11/07 14:56, , 12F
(應該是 total RNA transcripts.. not totals)..
11/07 14:56, 12F

11/08 09:05, , 13F
RPKM只算是一種表示基因表現量的方法,現在有的NGS分析
11/08 09:05, 13F

11/08 09:06, , 14F
都還是用raw mapped read count來運算
11/08 09:06, 14F

11/08 09:08, , 15F
加入spike-in用來normalize是目前大家覺得比較精確的
11/08 09:08, 15F
文章代碼(AID): #1KMdk0MM (Biotech)
文章代碼(AID): #1KMdk0MM (Biotech)