植物轉錄因子分析

  • Post by Chen (Benjamin) Hsieh | 謝晨
  • Oct 29, 2019
post-thumb

TFDB

PlantTFDB 提供了一個非常快速方便的轉錄因子查詢入口,有發表基因體的植物物種都有被註解。他們提供的預測服務則可以讓使用者輕鬆註解自己手邊的序列。


前言

Transcriptome 分析的文章中,有時候會出現一個小章節用來描述總共註解到了多少轉錄因子,或是有哪些轉錄因子上調或下調。像是這篇萵苣抽薹有關的研究中,便用圓餅圖表示了各種可供未來研究參考的轉錄因子家族名稱。

https://res.cloudinary.com/rna-sick/image/upload/v1557476521/TFDB/1_etdhp9.png

paper_cover

https://res.cloudinary.com/rna-sick/image/upload/v1557476523/TFDB/2_rpmdzn.png

pie chart

在實際的分析上,因為轉錄因子序列比較短,用一般的註解軟體容易錯過,或是僅因為有特定的區段就有把酵素類的蛋白質誤解為轉錄因子的情形。

https://res.cloudinary.com/rna-sick/image/upload/v1557476525/TFDB/2.5_xe0cwr.png

TFDBhomepage

PlantTFDB 替大家解決了這個問題,網站除了可以直接查詢他們的研究團隊已經預測過的物種中的轉錄因子以外,也有提供了基於他們人為透過文獻閱讀歸納出來的轉錄因子家族指定規則進行預測的服務。

https://res.cloudinary.com/rna-sick/image/upload/v1557476539/TFDB/21_zghszl.png

assignmentRules

只要輸入胺基酸序列,稍等一下就可以得到預測結果。以下將會簡單介紹網頁以及 step by step 紀錄預測功能的使用,並且銜接到使用 excel 繪製轉錄因子比例圓餅圖的操作。

Plant TFDB 網頁基本功能

首先首頁就可以看到五十八種轉錄因子的分類以及已經註解到的數量,每次改版過程中註解方式或是說指定規則可能會因爲文獻而略有更動,像是最近一版就把參與轉錄調節但是不具有直接 DNA 結合區段的類別移除了。

https://res.cloudinary.com/rna-sick/image/upload/v1557476524/TFDB/5_dvovqk.png

all those family types

隨便選擇一個沒有聽過的 E2F/DP 點進去,有該種轉錄因子在各種物種中的家族成員數量,和簡單的文字敘述及引用文獻,讓人可以快速了解該分類,或是本身在進行該家族的基因研究的話,也可以參考不同物種中的成員數量以評估註解情形。

https://res.cloudinary.com/rna-sick/image/upload/v1557476521/TFDB/6_elncgl.png

family page

紅色的 bar chart 標出了他們所註解的基因體中含有的該家族的轉錄因子數量。只可惜是以圖片的方式呈現,所以不方便在網頁上直接用搜尋找到自己感興趣的物種資料,可能還是要回到首頁搜尋比較方便。

https://res.cloudinary.com/rna-sick/image/upload/v1557476521/TFDB/7_tjuwbe.png

page family description

轉錄因子頁面下方就有簡單的文字描述,看完就大概知道要怎樣簡單介紹這個轉錄因子,譬如基本的蛋白質功能區段 (domain)、常見的作用型態、目標基因、以及可能參與的生理調控。

使用轉錄因子預測服務

接下來終於要進入正題,如何使用TFDB提供的轉錄因子註解服務:

  1. 進入預測的頁面

    https://res.cloudinary.com/rna-sick/image/upload/v1557476522/TFDB/4_awor70.png

    prediction page

  2. 輸入 fasta 格式的序列,或是直接上傳 fasta 檔案

  3. 勾選 Best Hit in Arabidopsis Thaliana 的話會附上一筆對應的阿拉伯芥基因資訊,未來銜接其他分析也方便,然後用力地按下 Pridiction

  4. 四萬多筆資料,過兩分鐘就有結果出來了,可以在這個頁面的表格上簡單地操作瀏覽一下

    https://res.cloudinary.com/rna-sick/image/upload/v1557476521/TFDB/3_qabku9.png

    TF prediction results

  5. 在文字敘述中按 Download list,這就是輸出用以後續分析的格式,column 分別為我們所提供的胺基酸序列之 ID、轉錄因子基因家族、Best Hit in Arabidopsis Thaliana 之基因、p-value、Best Hit in Arabidopsis Thaliana 基因之註解

    https://res.cloudinary.com/rna-sick/image/upload/v1557476526/TFDB/8_urmrrx.png

    result

  6. 下載下來的是純文字檔案,雖然副檔名是 “.list”,但還是可以對著檔案點右鍵,選擇用 excel 打開以方便檢視

    https://res.cloudinary.com/rna-sick/image/upload/v1557476528/TFDB/9_mjglar.png

    opening by excel

    由這個檔案,就可以看到輸入的胺基酸序列代號,以及其所對應的轉錄因子家族。雖然這樣子全自動預測的服務很方便,最好還是要人工檢核 (manual curation) 一下,再進行下一步的分析比較保險。除了看看感興趣的基因究竟是什麼轉錄因子以外,通常會想看看各個家族的比例。如何直接使用這個輸出的預測結果檔案,不寫程式使用 excel 畫成可以呈現各個基因家族比例的圓餅圖,且待下回分曉