メタゲノム プロファイリング パイプラインにより、16S アンプリコン シーケンス データの分類学的分類が向上します
Scientific Reports volume 13、記事番号: 13957 (2023) この記事を引用
8834 アクセス
122 オルトメトリック
メトリクスの詳細
細菌のマイクロバイオームを研究するほとんどの実験は、16S rRNA サブユニットの遺伝子の全部または一部の PCR 増幅に依存しており、これはマイクロバイオームサンプル中に存在するさまざまな分類群を同定および定量するためのバイオマーカーとして機能します。 16S アンプリコンの配列決定を分析するには、いくつかの計算手法が存在します。 ただし、最もよく使用されているバイオインフォマティクス ツールは、高品質の属レベルまたは種レベルの分類学的コールを生成できず、これらのコールの潜在的な精度を過小評価する可能性があります。 私たちは、模擬細菌群集からの 16S シーケンス データを使用して、マイクロバイオーム解析に使用されるいくつかのバイオインフォマティクス パイプラインとゲノム参照ライブラリーの感度と特異性を評価し、16S アンプリコン リードの種レベルの分類学的割り当ての精度の測定に重点を置きました。 私たちは、Greengenes、SILVA、Kraken 2、RefSeq の参照ライブラリと組み合わせて、DADA2、QIIME 2、Mothur、PathoScope 2、および Kraken 2 ツールを評価しました。 プロファイリング ツールは、さまざまな種の豊富さと均一性を備えた 136 個のサンプル、16S rRNA 遺伝子内のいくつかの異なる増幅領域、およびプレーティングされた細胞のコレクションからの DNA スパイクインと cDNA の両方で構成される、いくつかのソースからの公的に入手可能な模擬コミュニティ データを使用して比較されました。 全ゲノムメタゲノミクス用に設計されたツールであるPathoScope 2とKraken 2は、理論的には16S分析に特化したDADA2、DADA2プラグインを使用したQIIME 2、およびMothurを上回りました。 参照ライブラリの評価により、SILVA および RefSeq/Kraken 2 標準ライブラリが Greengenes と比較して精度が優れていることが特定されました。 これらの発見は、PathoScope と Kraken 2 が、属レベルおよび種レベルの 16S アンプリコン配列データ解析、全ゲノム配列決定、およびメタゲノミクス データ ツールに対する完全な機能を備えた競争力のあるオプションであることを裏付けています。
ハイスループットシークエンシングは、微生物群集の構成、多様性、機能、およびそれらの宿主や環境との相互作用の研究に焦点を当てた科学分野であるマイクロバイオミクスの研究を大幅に加速させました1。 微生物サンプルの組成の特性評価は、一般に、高度に保存された領域を持つ遍在遺伝子である 16S リボソーム サブユニット配列の増幅に依存しています。 このサブユニットにより、確立された PCR プライマーと超可変領域を使用して 16S rRNA を単離および増幅し、同一性と系統発生を確立する作業が簡素化されます。 16S rRNA および rDNA シーケンスは、既知の原核生物種を同定するために使用でき、マイクロバイオーム サンプル内の操作分類単位 (OTU) の相対存在量を定量化するための代用として機能します。
リボソーム RNA 遺伝子配列の分類学的プロファイリングの方法では、rRNA 配列を分類学的グループに分類することでサンプル OTU の同定が可能になります。 種レベルの同定では、利用可能なツールを使用すればかなりの精度が達成可能ですが 2、16S アンプリコン配列データ用の現在のプロファイリング ソフトウェアでは、種レベルまで同定することは困難です。 代わりに、配列の類似性に基づいてリードをクラスター化し、属またはより高いレベルの識別を割り当てて特異性と感度を高めるか、分類学的分類にエラーフィルター処理された配列を直接使用します 3,4。 最新のシーケンシングプラットフォームの機能が向上し、細菌参照ゲノムデータベースが拡張および改善されるにつれて、全ゲノムメタゲノミクスでより一般的に適用される代替方法を使用して、強化された16S分析パフォーマンスを達成できる可能性がさらに高まります。
16S アンプリコン配列データの解析で現在使用されている最も一般的なソフトウェア パッケージは、DADA24、QIIME 25、その前身である QIIME 26、および Mothur7 です。 QIIME 2 と Mothur はどちらももともと次世代シーケンシングの発明直後に開発され、QIIME 2 とともに基本的に同じワークフローに従います。通常、リードは配列類似性に基づいて操作分類単位 (OTU) またはノイズ除去された OTU に新たにクラスター化されます。 (多くは、これらをアンプリコン配列変異体または ASV と呼びます)クラスタリングに完全な配列同一性が望ましいかどうかに応じて異なります。 最初のクラスタリング ステップは、1) 参照ゲノムの大規模なセットに対するアライメントが必要な配列の数を制限することで計算効率を向上させ、2) 特定の細菌株内に存在する低レベルの遺伝的変異に対応し、それによって配列決定エラーを軽減します。 10 年近くにわたり、OTU 封入のカットオフは 97% の配列同一性でした 8,9 が、現在のカットオフの推奨値は、通常は配列エラーに対する何らかの形式のノイズ除去またはその他の補正の後、およそ 99 ~ 100% の配列同一性 3,10 になっています 4,11。