minimum prevalence: 意味と R での計算方法

UB3/informatics/r/min_prev

このページの最終更新日: 2025/12/11

  1. 概要: minimum prevalence とは

広告

概要: minimum prevalence とは

minimum prevalence (最小存在率) とは、マイクロバイオーム解析でよく使われる指標である。ある特定の菌種が、全被験者のうち、最低限どの程度の割合で検出されなければならないかを示す閾値である。

たとえば被験者が 1,000 人のデータで、minimum prevalence = 0.02 に設定したとする。1,000 x 0.02 = 20 なので、この場合には「少なくとも 20 人以上の被験者で検出された菌種を解析対象とする」ことになる。

R でのカットオフ方法

R でカットオフを行う場合、被験者を行名、菌種を列名にしておくと便利である。このようなデータフレーム df に対して、以下のスクリプトを実行する。

「検出される割合」なので、relative abundance のデータフレームで、0 でない数字の割合をカウントすることになる。

min_prevalence <- 0.02 #値を設定 # df > 0 となるデータ数を、nrow(df) すなわち全行数で割って prevalece を算出 # ベクターとして保存 prevalence <- colSums(df > 0) / nrow(df) # minimum prevalence 以上の菌種を取得 selected_taxa <- names(prevalence[prevalence >= min_prevalence]) # 選抜された菌種のみを元のデータフレームから抽出 df_filtered <- df %>% select(all_of(selected_taxa))


広告

「あとがき」で当サイトを参考にしたと書いてくれているラノベです。Kindle Unlimited で読めました。ストーリーと文章が良く、面白かったです。


広告

References

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。