banner

Nachricht

May 17, 2024

Klassifizierung der Pflanze

Wissenschaftliche Berichte Band 12, Artikelnummer: 10857 (2022) Diesen Artikel zitieren

1857 Zugriffe

2 Zitate

4 Altmetrisch

Details zu den Metriken

Die Rhizosphäre, der Bodenbereich, der die Pflanzenwurzeln umgibt, wird von einer einzigartigen Population pflanzenwachstumsfördernder Rhizobakterien (PGPR) besiedelt. Viele wichtige PGPR sowie Pflanzenpathogene gehören zur Gattung Pseudomonas. Es besteht jedoch Unsicherheit über die Unterscheidung zwischen nützlichen und pathogenen Stämmen, da bisher davon ausgegangen wurde, dass genomische Merkmale nur eine begrenzte Fähigkeit haben, diese Stämme zu trennen. Hier verwendeten wir das Annotationssystem für allgemeine biologische Pfade der Genomeigenschaften (GP) und maschinelles Lernen (ML), um die Beziehung zwischen der genomweiten GP-Zusammensetzung und dem pflanzenassoziierten Lebensstil von 91 Pseudomonas-Stämmen zu ermitteln, die aus der Rhizosphäre und der Phyllosphäre, die beide Pflanzen repräsentieren, isoliert wurden -assoziierte Phänotypen. Die GP-Anreicherungsanalyse, die Anpassung des Random-Forest-Modells und die Merkmalsauswahl ergaben 28 Unterscheidungsmerkmale. Ein Testsatz von 75 neuen Stämmen bestätigte die Bedeutung der ausgewählten Merkmale für die Klassifizierung. Die Ergebnisse legen nahe, dass GP-Annotationen ein vielversprechendes Berechnungstool zur besseren Klassifizierung des pflanzenbezogenen Lebensstils darstellen.

Zu den von den Vereinten Nationen gesetzten Zielen zur Erreichung des Null-Hunger-Ziels gehört die Notwendigkeit, die landwirtschaftliche Nahrungsmittelproduktion zu verdoppeln1. Frühere Versuche, die Pflanzenleistung und -produktion zu verbessern, konzentrierten sich auf Pflanzenzüchtung, Schädlingsbekämpfung mit chemischen Mitteln und den Einsatz synthetischer Düngemittel, um endliche globale Reserven zu erschließen2,3. Während diese Strategien bei der Steigerung der Produktion erfolgreich waren, stellen uns die zunehmenden negativen Auswirkungen auf die Umwelt vor die Herausforderung, nachhaltige Alternativen zu finden4,5,6.

Eine Vielzahl von Studien hat gezeigt, dass kooperative Mikrobiome eine wichtige positive Rolle für das Pflanzenwachstum, die Entwicklung und die Fitness spielen können2,3,7. Ein besonderer Hotspot ist die Rhizosphäre, der Bereich des Bodens, der Pflanzenwurzeln umgibt und von pflanzenwachstumsfördernden Rhizobakterien (PGPR)8 besiedelt wird. Eine stabile PGPR-Population kann die Stresstoleranz, das Wachstum und den Ertrag von Nutzpflanzen erhöhen, indem sie die Nährstoffaufnahme aus dem Boden verbessert und den Phytohormonstatus und Stoffwechsel der Pflanzen moduliert7,9,10,11,12,13,14,15. Die am häufigsten untersuchten PGPR sind Pseudomonas spp., eine funktionell vielfältige Gruppe, die sowohl pflanzennützliche als auch (opportunistische) pathogene Arten wie P. syringae umfasst, die als Epiphyt auf der Pflanzenoberfläche leben können. Unter geeigneten Bedingungen kann P. syringae auch das innere Gewebe der Pflanze besiedeln und Krankheiten verursachen16,17,18.

Der pflanzenassoziierte Lebensstil eines Pseudomonas-Stammes ist das Ergebnis eines vielfältigen Spektrums von Interaktionswegen zwischen Pflanze und Wirt. Genombasierte Korrelationsansätze haben eine Reihe von Markergenen identifiziert, die zum Phänotyp beitragen19,20,21. Diese Markergene werden jedoch bis zu einem gewissen Grad von beiden Gruppen geteilt22 und folglich nimmt die Unsicherheit über die Kluft mit jedem neuen hinzugefügten Genom zu. Bisher fehlt eine allgemeine Beschreibung des Vorhandenseins und der Vollständigkeit biologischer Funktionen und Wege, die zum pflanzenassoziierten Lebensstil eines Pseudomonas-Stammes beitragen. Dieses Wissen würde grundlegende Erkenntnisse über ihr Potenzial zur Verbesserung der Pflanzenleistung und -belastbarkeit liefern.

Eine vergleichende funktionelle Genomik ist möglich, wenn Gene in einen biologischen Kontext gestellt werden. Genome Properties (GP) ist ein domänenbasiertes funktionelles Annotationssystem, mit dem funktionelle Attribute einem Genom zugewiesen werden können23. Die Ressource stellt eine Sammlung von 1286 gemeinsamen biologischen Pfaden dar, die durch unterschiedliche Sätze von Proteindomänen nachgewiesen werden. Für einen Funktionsvergleich in größerem Maßstab sind Proteindomänen besser skalierbar und weniger empfindlich gegenüber Sequenzvariationen als Techniken, die auf Sequenzähnlichkeit basieren 24,25. Hier haben wir GP-basierte funktionelle Genomik unter Verwendung von insgesamt 1286 Merkmalen und Techniken des maschinellen Lernens angewendet, um 91 vollständig sequenzierte Pseudomonas-Stämme mit einem dokumentierten Lebensstil zu vergleichen: 58 bodenbewohnende Pseudomonas-Stämme, die als PGPR klassifiziert sind, und 33 bekannte Pflanzenpathogene, hauptsächlich epiphytische P. Syringae-Stämme (EPP). Da Stämme mit unterschiedlichen Lebensstilen häufig zu einer einzigen Art gehören, wurde vermutet, dass durch homologe Rekombination gewonnene und verlorene Genominseln wichtige Determinanten des pflanzenassoziierten Lebensstils kodieren könnten26. Eine systemweite Analyse der von diesen variablen Regionen kodierten Genomeigenschaften ermöglichte es uns, Pseudomonas-Stämme genau zu klassifizieren und neue unterscheidende Funktionsmerkmale zu identifizieren, die zum pflanzenassoziierten Lebensstil beitragen könnten. Im Diskussionsteil werden diese Unterscheidungsmerkmale in einen biologischen Kontext gestellt.

Basierend auf einer Literaturrecherche wurden die vollständigen Genome von 84 Pseudomonas-Stämmen aus der Pseudomonas Genome DB (Version 17.2)27 abgerufen und als kodierend entweder für einen „PGPR“-Stamm (51 Stämme) oder einen „EPP“-Stamm (33 Stämme) kategorisiert (siehe Einzelheiten finden Sie in der Ergänzungstabelle S1). Diese Auswahl wurde durch die vollständigen Genome von sieben neuen oder neu sequenzierten PGPR-Stämmen ergänzt; P. putida P9, P. corrugata IDV1, P. fluorescens R1 und WCS374, P. protegens Pf-5, P. chlororaphis Phz24 und P. jessenii RU47. Um Ungleichheiten bei der Annotation von Genen und Proteindomänen zu vermeiden, wurden alle 91 Stämme de novo annotiert. Anschließend wurden die beiden Gruppen hinsichtlich der Ähnlichkeit der Nukleotidsequenzen, des Vorhandenseins der Proteindomäne sowie des Vorhandenseins und der Vollständigkeit domänenbasierter GPs verglichen (Abb. 1). Der Domäneninhalt wurde einer Anreicherungsanalyse unterzogen und der domänenbasierte GP-Inhalt wurde verwendet, um ein Random Forest (RF)-Modell für Klassifizierungszwecke und Merkmalsauswahl zu trainieren und zu validieren28. Die Leistung der Klassifizierungsmethoden wurde anhand eines Satzes von 75 pflanzenassoziierten Pseudomonas-Genomen getestet, die aus einer neueren Version (V20.2) der Pseudomonas Genome DB stammen.

Arbeitsablauf für hausarztbasierte funktionelle Genomik und Klassifizierung. Genomsequenzen werden anhand der Sequenzähnlichkeit und des Proteindomänengehalts analysiert. Der (kolokalisierte) Proteindomäneninhalt wird verwendet, um auf Genomeigenschaften zu schließen. Anreicherungsanalyse und Random-Forest-Merkmalsauswahl wurden verwendet, um genomische Merkmale zu erhalten. Die Klassifizierungsleistung wurde anhand eines Testsatzes von 75 neu verfügbaren Genomen bewertet.

Wir untersuchten zunächst die globale genomische Verwandtschaft zwischen der PGPR- und der EPP-Gruppe, indem wir die durchschnittlichen Nukleotididentitätswerte (ANI) zwischen allen möglichen Paaren berechneten (Abb. 2). Die ANI-Scores zeigten, dass die Genomsequenzen entsprechend ihrer phänotypischen Klassifizierung in zwei Gruppen mit Pseudomonas sp. eingeteilt werden konnten. M30-35 sind dem Rest der PGPR-Gruppe weniger ähnlich. Die durchschnittliche Sequenzähnlichkeit innerhalb der PGPR- und EPP-Gruppe betrug 79,57 ± 4,27 bzw. 90,01 ± 5,53. Der ANI-Score misst die globale Ähnlichkeit zwischen den kodierenden Regionen zweier Genome auf Nukleotidebene und berücksichtigt dabei Treffer, die 70 % oder mehr Identität und mindestens 70 % Abdeckung des kürzeren Gens aufweisen. Der ANI-Score berücksichtigt nicht den Anteil der Kodierungssequenzen, die zu diesem Score beitragen, und bietet daher keinen Einblick in stammspezifische funktionelle Anpassungen. Um die Auswirkungen stammspezifischer funktioneller Anpassungen zu untersuchen, wurde der Proteindomänengehalt jedes Stammes berücksichtigt.

Paarweise durchschnittliche Nukleotididentitätswerte (ANI) zwischen kodierenden Regionen. Die Scores wurden aus Alignments berechnet, die 70 % oder mehr Identität und mindestens 70 % Abdeckung des kürzeren Gens aufweisen.

Die 91 de novo annotierten vollständigen Pseudomonas-Genome kodieren im Durchschnitt für 5640 ± 643 proteinkodierende Gene. Da viele Proteine ​​​​aus mehreren Domänen bestehen, konnten für jedes Genom 9342 ± 709 Domänen mit einer durchschnittlichen Domänenkopienzahl von 2, 35 ± 0, 12 identifiziert werden (Ergänzungstabelle S1).

Unter Verwendung der Anwesenheit/Abwesenheit von Domänen als Eingabe wurde eine gruppenweise Anreicherungsanalyse durchgeführt und es wurde festgestellt, dass insgesamt 410 und 329 Proteindomänen in PGPR- bzw. EPP-Stämmen signifikant angereichert waren (Ergänzungstabelle S2). PGPR-Stämme wurden hinsichtlich fünf Domänen angereichert, die mit Sekretionssystemen vom Typ II (T2SS) verknüpft sind, zehn Domänen, die mit dem Begriff „Cytochrom“, acht Domänen, die mit „Chinohämoprotein“ verknüpft sind, und sechs Domänen, die mit „Biofilm“ verknüpft sind (Poly-beta-1, Biosynthese vom 6-N-Acetyl-D-glucosamin-Typ. Interessanterweise wurden Domänen im Zusammenhang mit „Chinohämoprotein“ und „Biofilm“ nicht nur angereichert, sondern auch ausschließlich in PGPR-Stämmen gefunden. EPP-Stämme wurden mit Domänen angereichert, die an verschiedenen Arten anderer Sekretionssysteme beteiligt sind. Darüber hinaus waren einige dieser Domänen in keinem der PGPR-Stämme vorhanden. Es wird berichtet, dass achtzehn davon in EPP-angereicherten Domänen am Typ-III-Sekretionssystem und fünf am Typ-IV-Sekretionssystem beteiligt sind. Darüber hinaus zeigte die EPP-Liste eine Anreicherung von neun verschiedenen Domänen, die am Phosphonatstoffwechsel beteiligt sind. Gemeinsame Syntenie und funktionelle Clusterbildung angereicherter Domänen wurden anhand von Genomeigenschaften weiter untersucht.

Genomeigenschaften (GP) stellen eine Sammlung von derzeit 1286 gängigen biologischen Signalwegen dar. Jeder GP besteht aus einem vorberechneten Cluster essentieller Kernproteindomänen, die als Beweis für das Vorhandensein des biologischen Signalwegs dienen23. Aus dem Genom abgeleitete Proteindomänen wurden verwendet, um für jeden Stamm eine Liste von GPs mit zwei möglichen Beweiswerten zu erstellen: „VOLLSTÄNDIG“, was darauf hinweist, dass der vollständige Satz vorberechneter Beweise erkannt wurde, und „TEILWEISE“, was darauf hinweist, dass der entsprechende GP wahrscheinlich vorhanden ist das Vorhandensein eines unvollständigen Satzes von Beweisen über einem vom Hausarzt festgelegten Mindestschwellenwert. Darüber hinaus gingen wir davon aus, dass die bakteriellen Gene, die Domänen codieren, die auf demselben biologischen Weg funktionieren, häufig in operonischen Strukturen angeordnet sind, die syntenischen Blöcken entsprechen. Für jeden Stamm wurden GPs daher nicht nur basierend auf der Anwesenheit von Proteindomänen (GP-PA), sondern auch auf der Kolokalisierung von Proteindomänen (GP-SND; ungerichtet) und auf der Kolokalisierung von Domänen rekonstruiert und auf demselben Strang kodiert (GP-SD; gerichtet). Um die Domänen-Kolokalisation zu untersuchen, wurde ein Nearest-Neighbor-Ansatz unter Verwendung eines Schiebefensters von 20 Proteindomänen angewendet. Tabelle 1 fasst die erhaltenen Ergebnisse zusammen. Insgesamt 438 GPs waren in keinem der untersuchten Pseudomonas-Stämme vorhanden. Die meisten dieser GPs repräsentieren Funktionen und Prozesse, die typischerweise bei eukaryotischen Arten vorkommen (Ergänzungstabelle S3). Umgekehrt war bei Verwendung der GP-PA-Methode in allen Stämmen ein funktioneller GP-Kern aus 154 vollständigen GPs vorhanden. Als die Domänen-Kolokalisation als zusätzliche Einschränkung verwendet wurde, wurde mit beiden Domänen-Kolokalisationsmethoden ein funktioneller Kern von 37 vollständigen, wahrscheinlich operonischen GPs gefunden. Beachten Sie, dass GP-SND und GP-SD insgesamt eine sehr ähnliche Ausgabe erzeugten, was eine starke Verbindung zwischen operonischen Strukturen und funktionellen Genomeigenschaften in Bakterienarten untermauert (Tabelle 1). Beide Ansätze erfordern eine Domänenkolokalisierung, was die Sicherheit bei der Annotation des entsprechenden GP erhöht. Wir empfehlen die Verwendung von GP-SND als Annotationsmethode, da die erzielten Ergebnisse der GP-SD-Methode ähneln, jedoch keine strangspezifischen Informationen erfordern.

Als nächstes wurde eine Hauptkomponentenanalyse (PCA) auf die GP-Daten angewendet. Für alle drei Datensätze wurde eine klare Trennung zwischen den beiden Gruppen erhalten (Ergänzende Abbildung S1). Abbildung 3 zeigt die mit dem GP-SND-Ansatz erzielten Ergebnisse. Um den Beitrag jedes GP zur Trennung besser zu verstehen, führten wir eine Anreicherungsanalyse der mit den drei Clustering-Ansätzen erzielten Ergebnisse durch (Ergänzungstabelle S3). Die Anreicherungsanalyse wurde an den binären Daten des Vorhandenseins und Fehlens der Eigenschaften durchgeführt, indem „PARTIAL“ separat als Vorhandensein oder Fehlen betrachtet wurde, wodurch zwei angereicherte Sätze pro Ansatz erstellt wurden. Anschließend wurden die beiden angereicherten Mengen gekreuzt, um die angereicherte Menge für diesen Ansatz zu erstellen. Schließlich wurde ein angereicherter Gesamtsatz erstellt, indem nur die GPs berücksichtigt wurden, die in den GP-SD- und GP-SND-Ansätzen angereichert wurden (Tabelle 2).

Hauptkomponentenanalyse basierend auf GP-SND-Inhalten als Variablen. Der Anteil der Varianz ist in Klammern angegeben. P. cichorii JBC1 und zwei Stämme von P. cerasi liegen außerhalb der 95 %-Konfidenzellipse der EPP-Gruppe.

Um unsere Analyse unter Nutzung der vollständigen Informationen der Klassen zu erweitern und die Bedeutung von Merkmalen zu erfassen, wurde ein Random Forest (RF)-Klassifikator erstellt, der die Annotationsergebnisse von GP-SND als Trainingsvalidierungssatz verwendet. Für 99 % der Stämme hat der RF-Klassifikator den Lebensstil (EPP oder PGPR) korrekt vorhergesagt. Die einzige Ausnahme war Pseudomonas cichorii JBC1, ein Erreger der Blattfleckenkrankheit bei Sojabohnen, der jedoch vom RF-Klassifizierer als PGPR klassifiziert wurde. Die Leistung des RF-Modells wurde anhand von 90 % der Daten über 100 Iterationen validiert. Zunächst wurde die ROC-Kurve zwischen der besten und der schlechtesten Vorhersage der Standard-RF-Modelleinstellungen (ntree = 500 und mtry = 20) verglichen. Die AUC zeigt die identischen Ergebnisse von 0,985. Als nächstes haben wir den ntree-Parameter mit dem Parameterbereich von 500 bis 5000 in 500 Schritten optimiert. Der Mittelwert der Fehlerrate stabilisierte sich über alle ntree hinweg bei 1,09 ± 0,01 %. Allerdings sind die Schwankungen mit zunehmender Anzahl an Bäumen geringer. Zuletzt haben wir den mtry-Parameter mit einem Parameterbereich von 1 bis 50 optimiert. Die Fehlerrate sank drastisch von mtry = 1 auf mtry = 2 und stabilisierte sich nach mtry = 10. Die Ergebnisse zeigen die Robustheit der Standard-RF-Einstellungen und zeigten, dass die Modelle sind nicht überangepasst (Ergänzende Abbildung S2).

Um die diskriminierenden Variablen weiter zu untersuchen, wurde eine Variablenauswahl aus RF implementiert (Tabelle 3 und Ergänzungstabelle S3). Diese Variablen wurden in die Liste der angereicherten Hausärzte integriert, um eine umfassende Liste der wichtigsten genomischen Merkmale zu erstellen, die mit dem pflanzenassoziierten Lebensstil verbunden sind (Abb. 4). Durch die Methodenkombination wurden insgesamt 28 variable Hausärzte (Tabellen 2 und 3) als Unterscheidungsmerkmale ausgewählt. Anschließend wurde die Vorhersagekraft der Auswahl erneut validiert, indem ein RF-Klassifikator nur mit diesen Merkmalen trainiert wurde. Die Klassifizierungsergebnisse stimmten mit den zuvor beobachteten Gruppierungen überein.

Repräsentative Liste diskriminierender Genomeigenschaften, die mit dem GP-SND-Ansatz erhalten wurden. Linkes Feld: Anreicherungsanalyse, rechtes Feld: Auswahl von Random Forest-Funktionen. Rote Linien zeigen die PGPR-Stämme (vertikal) und angereicherte Merkmale (horizontal). Blaue Linien zeigen die EPP-Stämme (vertikal) und angereicherten Merkmale (horizontal). Neu sequenzierte Stämme werden gelb hervorgehoben. Angereicherte GPs, die auch in der RF-Feature-Wichtigkeitsanalyse hervorgehoben wurden, werden grün angezeigt.

Zwei Testsätze neu gewonnener Pseudomonas-Genomsequenzen wurden mithilfe des GP-SND-Ansatzes auf das Vorhandensein von GPs analysiert und zur RF-Leistungsbewertung verwendet (Ergänzungstabelle S1). Der erste Testsatz bestand aus 25 neuen Stämmen und war eine Kombination aus bekannten nützlichen und saprobischen Stämmen und einem starken Krankheitserreger. Die Ergebnisse bestätigten die Fähigkeit des GP-Inhalts, den pflanzenassoziierten Lebensstil vorherzusagen. Eine PCA des gesamten Datensatzes (Trainingsvalidierung und Testsatz1) zeigte, dass die Trennung zwischen zwei Lebensstilen beibehalten wurde (Abb. 5a). Darüber hinaus konnten wir den stark pathogenen P. marginalis ICMP 11.289, der kürzlich als P. viridiflava-Stamm29 neu klassifiziert wurde, von den anderen P. marginalis-Stämmen unterscheiden, die als saprotrophe Stämme klassifiziert wurden (Abb. 5a)29. Der zweite Satz von 50 Stämmen bestand aus phänotypisch nicht klassifizierten Stämmen und Stämmen zur biologischen Sanierung. Wir beobachteten eine Häufung von Bioremediations- und bekannten PGPR-Stämmen (Abb. 5b). Nicht klassifizierter Stamm Pseudomonas sp. KBS0707 wurde innerhalb der EVP-Fraktion positioniert. Da alle P. syringae als EPP gelten, war das nicht klassifizierte P. syringae-Isolat inb918 von Interesse, da es sich offenbar um einen für Pflanzen nützlichen Stamm handelte. Der ANI-Score legt nahe, dass der Stamm inb918 taxonomisch falsch klassifiziert worden sein könnte, da bei den P. syringae-Stämmen der paarweise Score zwischen diesem Stamm und den anderen unter 79 % blieb (Abb. 5c). Schließlich wurde der RF-Klassifikator auf den Testsatz angewendet, der die gleichen Vorhersagen wie die PCA lieferte.

Analyse des Validierungssatzes. (a) Hauptkomponentenanalyse des Testsatzes 1, bestehend aus PGPR-Stämmen (rote Quadrate), saprotrophen Stämmen (grüne Quadrate) und EPP (oranges Quadrat). (b) Hauptkomponentenanalyse des Testsatzes 2, bestehend aus Bioremediationsstämmen (orangefarbene Quadrate) und nicht klassifizierten Stämmen (violette Quadrate). Die Abweichung ist in Klammern angegeben. Zuvor analysierte Pseudomonas-Stämme und zuvor erhaltene 95 %-Konfidenzellipsen sind grau. (c) Durchschnittlicher Nucleotide Identity (ANI)-Score unter P. syringae-Stämmen. Das P. syringae-Isolat inb918 befindet sich oben links.

Pflanzen leben in symbiotischer Interaktion mit mikrobiellen Gemeinschaften, bei denen es sich um komplexe Netzwerke interagierender Knoten handelt. Die Summe dieser Wechselwirkungen kann für das Pflanzenwachstum und die Pflanzenentwicklung vorteilhaft, schädlich oder neutral sein. Viele wichtige Pflanzenwachstum fördernde Bakterien sowie Pflanzenpathogene gehören zur Gattung Pseudomonas. Die auf Arten- und Stammebene beobachtete genomische Vielfalt legt nahe, dass Pseudomonas spp. verfügen über ein breites Potenzial zur evolutionären Anpassung an verschiedene Umgebungen. Folglich ist der pflanzenassoziierte Lebensstil eines Pseudomonas-Stammes wahrscheinlich das Ergebnis einer kombinatorischen Anhäufung und Entstehung einer Vielzahl von beitragenden Merkmalen.

Unterschiede zwischen PGPR- und EPP-Stämmen zeigten sich auf allen Analyseebenen. Auf der Ebene der Ähnlichkeit der Genomsequenzen war eine Trennung zwischen den beiden Gruppen deutlich erkennbar. Da die meisten der in der wissenschaftlichen Literatur beschriebenen phytopathogenen Genome aus P. syringae-Stämmen stammen, die aus oberirdischem Pflanzengewebe isoliert wurden, wurde innerhalb der EPP-Gruppe ein hohes Maß an Sequenzähnlichkeit beobachtet. Der ANI-Score berücksichtigt jedoch nicht die stammspezifische genetische Vielfalt, die bei vielen Bakterienarten beobachtet wird. Die Diversität auf Stammebene wurde mit Techniken des maschinellen Lernens untersucht, um neuartige bakterielle Virulenzfaktoren sowohl auf DNA- als auch auf Proteindomänenebene zu identifizieren25,30. In dieser Studie wurde maschinelles Lernen eingesetzt, um genomweite funktionelle Unterschiede zwischen Pseudomonas PGPR- und EPP-Stämmen zu identifizieren.

Die Haupteinschränkung dieser Studie ist der Mangel an phänotypischen Informationen. Um die Unterschiede zwischen den Lebensstilen zu beschreiben, müssen die erforderlichen stammspezifischen phänotypischen Informationen so vollständig wie möglich sein. Die verfügbaren phänotypischen Daten sind jedoch häufig unausgewogen und in mehreren unstrukturierten Textquellen verborgen, was die Zugänglichkeit der Informationen erheblich erschwert. Darüber hinaus haben wir nach pflanzenassoziierten Pseudomonas-Stämmen mit einem „vollständigen“ Genom gescreent. Als Ergebnis wurden die nach diesen Kriterien ausgewählten Stämme aus zwei Hauptstandorten isoliert: PGPR aus dem Boden und EPP aus oberirdischen Pflanzengeweben. Es wird daher angenommen, dass die in dieser Studie beobachteten funktionellen Unterschiede sowohl auf Umweltanpassungen als auch auf Virulenzfaktoren zurückzuführen sind. Die Entkopplung dieser Faktoren ist schwierig, da viele Virulenzfaktoren in erster Linie allgemeinen Anpassungszwecken dienen und ihre Assoziation die Pathogenese anfälliger Wirte fördert. Darüber hinaus wurden auch Stämme von P. syringae aus Boden, Wasser und Schnee isoliert31,32.

Durch die Konzentration auf die Rekonstruktion domänenbasierter GPs wird die Unabhängigkeit zufälliger Waldmerkmale gefördert und die Komplexität des RF-Modells verringert. Insgesamt wurde festgestellt, dass 848 verschiedene domänenbasierte Allgemeinmediziner (wahrscheinlich) in einem oder mehreren der hier untersuchten Pseudomonas-Stämme vorhanden sind. Untermauerung der genomischen Vielfalt der Pseudomonas spp. Im Gegensatz dazu wurde in dieser Studie ein funktioneller Kern von nur 154 vollständigen und dauerhaft vorhandenen Hausärzten ermittelt. Während aus offensichtlichen Gründen bei weitem die meisten typischen eukaryotischen GPs nicht entdeckt wurden, weist eine begrenzte Anzahl der Pseudomonas-GPs Domänenüberlappungen mit GPs ähnlicher Funktion auf, die typischerweise in eukaryotischen Arten vorkommen. Ein Beispiel ist die Domänenüberlappung zwischen GenProp1717 und den „peroxisomalen“ GPs GenProp1308, GenProp1510 und GenProp1544, die alle an der Betaoxidation von Fettsäuren beteiligt sind und die wir als eine Einheit behandelt haben.

Zur Bestimmung des domänenbasierten GP-Gehalts jedes Stammes wurden drei verschiedene Ansätze verwendet. Die Implementierung der Domänen-Kolokalisation als Einschränkung spiegelt die operonischen Strukturen wider, die in Bakteriengenomen üblich sind33. Für die Domänenkolokalisierungsmethoden wurde ein Schiebefenster mit 20 Domänen gewählt, da es 1255 der 1286 Allgemeinmediziner (98 %) abdeckt, wobei die am häufigsten vorkommende Gruppe von Allgemeinmedizinern Allgemeinmediziner sind, die zwei Nachweise benötigen (396 Allgemeinmediziner) (ergänzende Abbildung S3). Die durchschnittliche Kopienzahl einer einzelnen Domäne beträgt 2,3, was darauf hinweist, dass dieselbe Domäne im gesamten Genom mehreren Funktionen zugeordnet werden kann. Die Einbeziehung der Proteindomänen-Kolokalisation in die GP-Rekonstruktion erhöht daher auch die Vorhersagesicherheit dieser GPs und fördert weiter die Auswahl akzessorischer Merkmale, von denen einige durch laterale Übertragung erworben werden können, als RF-Variablen im RF-Training. Mit GP-SND und der stammspezifischen GP-SD-Methode wurden sehr ähnliche Ergebnisse erzielt, was darauf hindeutet, dass die Domänenclusterung höchstwahrscheinlich operonische Strukturen freilegt.

Da verschiedene Pseudomonas-Arten in unserer Liste sowohl durch pathogene als auch durch nicht-pathogene Stämme vertreten sind, gingen wir davon aus, dass die variablen Genomregionen, die zu diesen Phänotypen beitragen, auch zwischen den Stämmen dieser Arten unterschiedlich vorhanden sein werden. Andere variable Regionen können für die spezifische Wachstumsumgebung (Boden oder epiphytisch) oder aufgrund phylogenetischer Unterschiede zwischen den verschiedenen Gruppen wichtig sein. Um die von solchen variablen Genomregionen kodierten Funktionen zu erfassen, haben wir uns speziell auf operonische GPs konzentriert, bei denen alle erforderlichen Nachweise innerhalb einer definierten Genomregion geclustert sind. Wir gingen davon aus, dass eine Reihe der variablen operonischen Funktionen mit dem pflanzenassoziierten Lebensstil (EPP oder PGPR) korrelieren würden. Insgesamt haben wir einen gemeinsamen Kern von nur 37 operonischen GPs und einen Satz von mehr als 640 variablen operonischen GPs entdeckt (Tabelle 1). Erste Analysen ergaben, dass keiner dieser variablen operonischen GPs im Alleingang zur Trennung zwischen den beiden Gruppen verwendet werden kann. Anschließend verwendeten wir einen RF-Klassifikator, um innerhalb dieses großen Pools variabler Hausärzte Unterscheidungsmerkmale zu identifizieren, die möglicherweise zum pflanzenassoziierten Lebensstil beitragen.

Um die Leistung des RF-Klassifikators zu untersuchen, wurden 75 neue aus dem Boden stammende Pseudomonas-Genome zum Testen ausgewählt. Für die meisten unterstützte der RF-Klassifikator eindeutig die Unterscheidung zwischen nützlichen und pathogenen Stämmen. P. cichorii JBC1 wurde als nicht pathogen eingestuft. Dies bedeutet jedoch nicht direkt, dass es vorteilhaft ist. Abbildung 4 zeigt, dass P. cichorii JBC1 immer noch drei mit Pathogenität assoziierte GPs enthält: „2,3-Diaminopropionsäure-Biosynthese“ (GenProp0908), „RelBE-Toxin-Antitoxin-Komplex“ (GenProp1193) und „D-Galactonat-Abbau“ (GenProp1566). Es wurde bereits berichtet, dass sich P. cichorii JBC1 auf Genomebene deutlich von anderen pathogenen Pseudomonas unterscheidet34 und unsere Ergebnisse bestätigen diesen Befund und legen nahe, dass mit diesem Stamm möglicherweise andere Mechanismen für die Pathogenität verbunden sind.

Mittels RF-Rekursionsmerkmalseliminierung und GP-Anreicherungsanalyse wurde ein minimaler Satz von GP-Variablen ausgewählt, die für eine gute Vorhersage des vordefinierten pflanzenassoziierten Lebensstils (PGPR oder EPP) erforderlich sind. GenProp0238 und GenProp0721 sind zwei dieser wichtigen RF-Variablen (Tabelle 3) und werden nachweislich in PGPR-Stämmen angereichert (Tabelle 2). Die beiden GPs hängen mit Mechanismen der Phosphonatverwertung zusammen, die nachweislich bei Pseudomonas und auch bei anderen Mikroorganismen auftreten35. Phosphonat ist eine Form von Phosphor, die für biologische Prozesse, beispielsweise die Synthese von Nukleinsäuren und Phospholipiden, essentiell ist36. Allerdings zeigen beide Gruppen Unterschiede in der nutzbaren Form des Phosphonats. Die meisten PGPR-Stämme scheinen nur 2-Aminoethylphosphonat (AEP) über die Genomeigenschaften nutzen zu können: „2-Aminoethylphosphonat-Katabolismus zu Acetaldehyd“ (GenProp0238) und „2-Aminoethylphosphonat (AEP) ABC-Transporter, Typ II“ (GenProp0721). wohingegen die EPP-Stämme in der Lage zu sein scheinen, über „Phosphonat-ABC-Transport“ (GenProp0236), „generische Phosphonatnutzung“ (GenProp0710) und „PhnGHIJKL-Komplex“ (GenProp1165) auf breitere Formen von Phosphonaten zuzugreifen, wie auch die angereicherte Proteindomäne zeigt. und „Methylphosphonatabbau I“ (GenProp1381)37. AEP ist die am häufigsten vorkommende CP-Verbindung in der Natur, während andere Phosphonate und ihre Derivate Substanzen sind, die in der Landwirtschaft (Herbizide, Fungizide und Insektizide) und in der Pharmazie (Antibiotika) verwendet werden38. Es wurde berichtet, dass die Virulenz pathogener Spezies unter Bedingungen der Orthophosphat-Limitierung erhöht wurde39. Daher gehen wir davon aus, dass dies auf das Vorhandensein von Genommerkmalen zurückzuführen sein könnte, die ihnen den Zugang zu einem breiteren Spektrum an Phosphatquellen ermöglichen.

GenProp0908 ist eine weitere wichtige RF-Variable. Es wurde festgestellt, dass dieses GP in EPP-Stämmen angereichert ist und an der 2,3-Diaminopropionsäure-Biosynthese (DAP) beteiligt ist. DAP ist ein Vorläufer mehrerer sekundärer Metaboliten wie Siderophoren, Neurotoxinen und Antibiotika40. Es wurde berichtet, dass Pyoverdin, die Hauptsiderophore des nützlichen P. fluorescens C7R12, die Immunität von Arabidopsis im Austausch mit dem Wachstum unter Eisenmangelbedingungen verringern41. Die verursachte Anfälligkeit kann einer der Angriffsmechanismen für andere Pyoverdin produzierende pathogene Pseudomonas sein, wie z. B. P. syringae und P. cichorii42. Siderophore sind wichtige Metaboliten, die an der Eisenaufnahme beteiligt sind43. Eisen ist für viele Stoffwechselprozesse von entscheidender Bedeutung und wird daher benötigt, um die Zellen in einem gesunden Zustand zu halten44. Die stärkere Fähigkeit, Eisen und das bereits erwähnte Phosphonat abzufangen, erhöht die Fitness der Krankheitserreger.

Zwei unter den PGPR-Stämmen stark angereicherte GPs sind GenProp0907 und GenProp0902 (Tabelle 2). GenProp0907 stellt einen Cluster von vier Genen dar, die an der Synthese, Modifikation und dem Export des Biofilm-Adhäsins Poly-Beta-1,6-N-Acetyl-D-Glucosamin beteiligt sind, und die vier Domänennachweise repräsentieren die vier erforderlichen Gene. Der GP ist in der EPP-Gruppe nicht vorhanden und wurde als wahrscheinliche operonische Struktur in 39 PGPR-Stämmen vollständig gefunden. Biofilme vom Typ PgaABCD wurden in Escherichia coli45, jedoch nicht in Pseudomonas-Arten untersucht. GenProp0902 steht für Chinohämoprotein-Amin-Dehydrogenase (QHNDH). QHNDH ist ein aus drei Untereinheiten bestehendes Enzym, das sich im periplasmatischen Raum von P. putida befindet und Teil der Atmungskette der Aminoxidation ist. QHNDH katalysiert die oxidative Desaminierung primärer Amine, wenn es als einzige Kohlenstoff- und Energiequelle verwendet wird46. Der GP besteht aus vier Beweisen, drei Domänen, die die Alpha-, Beta- und Gamma-Untereinheit des Enzyms repräsentieren, und eine, die das QHNDH-Reifungsprotein repräsentiert. Dieser wahrscheinliche operonische GP erwies sich als vollständig in 24 Biokontrollstämmen und ist in der EPP-Gruppe nicht vorhanden. Da diese GPs nur in einer Teilmenge der PGPR-Stämme vorhanden sind, erwiesen sie sich nicht als wichtige RF-Variablen bei der Eliminierung rekursiver Merkmale.

Es wurde festgestellt, dass Proteindomänen, die mit dem Typ-II-Sekretionssystem (T2SS) assoziiert sind, bei den PGPR-Stämmen angereichert sind, während Domänen, die am Typ-III-Sekretionssystem (T3SS) beteiligt sind, bei den EPP-Stämmen angereichert waren. T2SS wird von GenProp0053 erfasst und besteht aus 10 nicht optionalen Beweisen und 3 optionalen Domänen. Die GP-Ergebnisse zeigten jedoch für beide Gruppen den Status „TEILWEISE“ für diesen GP an. Ebenso gilt das Typ-III-Sekretionssystem, repräsentiert durch GenProp0052, als wichtiger Virulenzfaktor und wurde in vielen Genomstudien als Beweis für Pathogenität angesehen19,47,48. GenProp0052 ist ein komplexer GP, der aus 14 Beweisen und 28 optionalen Domänen besteht. Aufgrund des festgelegten Nullschwellenwerts für „TEILWEISE“ für diesen spezifischen GP führt eine einzelne Evidenzdomäne bereits zu einem „TEILWEISE“-Status. Es wird beschrieben, dass achtzehn mit EPP angereicherte Proteindomänen an Sekretionssystemen vom Typ III beteiligt sind. Elf dieser angereicherten Domänen werden als Beweis für GenProp0052 verwendet. Ein weiterer, TIGR02551, kam ebenfalls im Pathogensatz vor, wurde jedoch nach der Bonferroni-Anpassung als nicht angereichert angesehen. Im Gegensatz dazu sind die beiden fehlenden Beweise, TIGR02105 und TIGR02546, nur in fünf PGPR-Genomen vorhanden. Somit sind unter den getesteten 91 Pseudomonas-Stämmen alle 14 erforderlichen Nachweise vorhanden, aber keiner der in dieser Studie verwendeten Stämme verfügt über den vollständigen Satz.

Aufgrund des „partiellen“ Status von GenProp0053 (T2SS) und GenProp0052 (T3SS) für beide Lebensstile wurden diese Hausärzte weder angereichert noch als diskriminierende Variablen in der RF-Klassifizierung ausgewählt. Wir haben die Verteilung der GenProp0053- und GenProp0052-Nachweise über alle Stämme weiter untersucht (ergänzende Abbildung S4). Die Verteilung zeigte, dass mit GenProp0052 verknüpfte Proteindomänen in der EPP-Gruppe konsistenter auftraten und in der PGPR-Gruppe stärker variierten. Das Ergebnis legt nahe, dass die Häufigkeit des T3SS-bezogenen Domäneninhalts für einen Hinweis auf die Pathogenität ausreichend sein könnte. Aufgrund der fehlenden Nachweise kann jedoch nicht garantiert werden, dass das Feature funktionsfähig ist. Darüber hinaus kann P. syringae, dem das kanonische T3SS von Natur aus fehlt, immer noch pathogen sein49,50, während einige Stämme mehrere T3SSs enthalten, deren Rolle noch unbekannt ist51.

Insbesondere für die PGPR-Gruppe schlugen einige angereicherte Hausärzte eine Rolle für Wege vor, die am Abbau und der Nutzung von Trehalose (GenProp0271), Tryptophan (GenProp0659) (Tabelle 2), Tyrosin (GenProp1251) und Carnitin (GenProp1572) (Tabelle 3) beteiligt sind. . Andererseits scheinen EPP-Stämme stärker auf den Abbau von Galactonat (GenProp1566) und Cystein (GenProp1681) spezialisiert zu sein. Kohlenstoffquellen, von denen vorhergesagt wurde, dass sie vorzugsweise von der PGPR-Gruppe abbaubar sind, könnten einen Beitrag zur Agrarindustrie leisten. Diese Substrate könnten als Düngemittel, Wachstumsförderer oder als Zusatzstoffe zur Abwechslung der mikrobiellen Zusammensetzung verwendet werden52. Ähnlich wie Auslöser, die die Pflanzenabwehr und -resistenz direkt verbessern, könnte dieser indirekte Ansatz auf die bestehende mikrobielle Gemeinschaft angewendet werden, um nützliche Stämme auszuwählen und möglicherweise die Produktivität der Kulturpflanze zu steigern53. Andererseits sollten Kohlenstoffquellen vermieden werden, die das saprobe Wachstum und das Überleben von Krankheitserregern verlängern könnten.

Andere in der PGPR-Gruppe gefundene GPs sind mit vier „menschlichen Hormonen“ verbunden, nämlich „Mineralocorticoid-Biosynthese“ (GenProp1644), „Östradiol-Biosynthese II“ (GenProp1417), „Glucocorticoid-Biosynthese“ (GenProp1666) und „Pregnenolon-Biosynthese“ (GenProp1740). . Der für diese Hormone, Domäne PF00067 (Cytochrom P450), gemeinsame Nachweis ist derselbe wie für die „GA12-Biosynthese“ (GenProp1745). Daher wird nur GA weiter diskutiert. Gibberellin 12 (GA12) ist der gemeinsame Vorläufer aller Gibberelline (GA)54. GA-Phytohormone spielen eine wichtige Rolle bei der Beeinflussung des Wachstums und der Entwicklung der Wirtspflanzen55 und GA von Pseudomonas könnte die Samenkeimung steigern56.

Nicht alle bekannten Virulenzmerkmale werden durch einen Hausarzt repräsentiert. Viele davon finden sich in Pflanzenpathogenen wie Coronatin, Cytokinin und Auxin, dem konservierten Effektorlocus (CEL) und dem austauschbaren Effektorlocus (EEL)57,58,59. Wir haben das Vorhandensein der mit diesen Merkmalen verbundenen Proteindomänen in unserem Datensatz untersucht (ergänzende Abbildung S5). Die Ergebnisse zeigten, dass die zugehörigen Proteindomänen im Allgemeinen in beiden Gruppen vorhanden sind. Von diesen Domänen wurden nur PF08659 und PF16197 in der EPP-Gruppe angereichert. Dies deutet darauf hin, dass das Auftreten dieser bekanntermaßen pflanzenpathogenen Merkmale als genetischer Marker möglicherweise nicht ausreicht, um die Pathogenität eines Stammes zu identifizieren.

Zusammenfassend lässt sich sagen, dass domänenbasierte Genomeigenschaften robuste Rechenmerkmale zur Unterscheidung zwischen PGPR- und EPP-Pseudomonas-Stämmen zu sein scheinen, und unsere Analyse zeigt, dass die Einbeziehung der Domänenkolokation ihre Relevanz weiter erhöht. Durch die Kombination traditioneller statistischer Analysen (Anreicherungsanalyse) und Methoden des maschinellen Lernens (Random Forest) konnten wir neue diskriminierende Genomeigenschaften identifizieren, die zur Identifizierung von Arten verwendet werden können, die das Pflanzenwachstum fördern. Diese könnten in Strategien zur Entwicklung synthetischer PGPR-Gemeinschaften und zur Formulierung von Bodenzusätzen zur Verbesserung der Pflanzengesundheit und -leistung eingesetzt werden.

Pseudomonas-Genome wurden von Pseudomonas Genome DB Version 17.2 heruntergeladen. Der Testsatz wurde aus der Datenbankversion 20.2 (https://www.pseudomonas.com)27 bezogen. Die Genome wurden anhand von Literaturdaten manuell nach ihrem Lebensstil kategorisiert (Ergänzungstabelle S1). Zusätzlich wurden 7 Genomsequenzen aus den phytovorteilhaften Stämmen P. putida P9 (Zugang ERS6670306), P. Corrugata IDV1 (Zugang ERS6652532), P. fluorescens R1 (Zugang ERS6670181) und P. protegens Pf-5 (Zugang ERS6652530) (neu) sequenziert. , P. chlororaphis Phz24 (Zugang ERS6670416), P. jessenii RU47 (Zugang ERS6670307) und P. fluorescens WCS374 (Zugang ERS6652531). Die DNA wurde mit dem Epicenter Masterpure Kit (Epicentre Technologies, USA) gemäß dem Protokoll des Herstellers extrahiert und mit dem Infinite® 200 PRO (Tecan, Männedorf, Schweiz) unter Verwendung des Quant-iT™ PicoGreen™ dsDNA Assay Kit (ThermoFisher, Waltham, USA) gemäß dem Protokoll des Herstellers. Die Stämme wurden auf der PacBio-Plattform (Pacific BioSciences, Menlo Park, USA) sequenziert. Insgesamt wurden 4 µg DNA auf 7 Kb geschert und zwei SMRT-Bell-Bibliotheken mit dem Kit Barcoded Adapters for Multiplex SMRT Sequencing in Kombination mit dem Sequel Binding Kit V2.0 und dem Sequel Polymerase 2.0 Kit hergestellt. Pro Bibliothek wurde ein Pool mit gescherter DNA aller Stämme gemäß dem Protokoll des Herstellers als Input verwendet. Die Sequenzierung wurde auf einem Sequel-System durchgeführt, das von der Business Unit Bioscience, Wageningen Plant Research (Wageningen, Niederlande) betrieben wurde. Anschließend wurde ein Demultiplexing durchgeführt, indem die Barcodes an den Unterlesevorgängen mit pyPaSWAS Version 3.060 ausgerichtet wurden. Canu Version 1.661 wurde zum Zusammenstellen der PacBio-Lesevorgänge verwendet.

Das SAPP-Framework für semantische Annotationen62 wurde verwendet, um die Genome systematisch (neu) zu annotieren. Kurz gesagt, Protein-kodierende Gene wurden mit Prodigal 2.6.363 unter Verwendung des Gen-Caller.jar-Moduls mit den folgenden Argumenten de novo vorhergesagt: -prodigal und -codon 11. Die Proteindomänen wurden mit InterProScan 5.36–75.0 unter Verwendung der Pfam- und TIGRFAMs-Datenbanken64 charakterisiert. 65,66 unter Verwendung des InterProScan.jar-Moduls mit den folgenden Argumenten: -a PFAM,TIGRFAM. Anmerkungsdaten und Metadaten wurden in einer semantischen Datenbank unter Verwendung der GBOL-Ontologie67,68 gespeichert. SPARQL-Abfragen wurden verwendet, um Proteindomänen-Identifikatoren sowie die Position und Richtung des entsprechenden Gens zu extrahieren.

OrthoANI Version 1.40 wurde verwendet, um den Average Nucleotide Identity (ANI)-Score für alle Genome zu berechnen69. PygenProp wurde verwendet, um aus jedem Genom domänenbasierte GPs70 abzuleiten. Es wurden drei Kriterien angewendet; „PA“, das nur das Vorhandensein von Domänen als Beweis berücksichtigt, „SND“, syntenie-ungerichtet, erfordert, dass die Genomposition der entsprechenden Domänen in unmittelbarer Nähe liegt, und „SD“, das zusätzlich zur Genposition auch die Strandheit berücksichtigt. Für SND und SD wurde ein Nearest-Neighbor-Ansatz und ein Schiebefenster von 20 Proteindomänen angewendet. Jeder Hausarzt wurde entsprechend der Vollständigkeit der Beweise entweder als „JA“ oder als „TEILWEISE“ eingestuft.

Die natürliche Gruppierung der Daten wurde mithilfe der Hauptkomponentenanalyse (Paket prcomp) visualisiert. Dann mit R-Paketen; Fisher.test und p.adjust, Fisher Exact Test mit Bonferroni-Korrektur, wurde auf Proteindomänen und die Genomeigenschaften angewendet, um eine Anreicherung zu testen. Diese Analyse identifizierte die über- und unterrepräsentierten Merkmale. Die GP-Daten wurden zweimal neu bewertet, indem „TEILWEISE“ entweder als „JA“ oder „NEIN“ bewertet wurde. Die angereicherte Liste wurde durch die Überschneidung der beiden Fälle von „PARTIAL“ erstellt. Anreicherungen wurden als signifikant angesehen, wenn der angepasste p-Wert nach Bonferroni-Korrektur des GP unter 0,05 liegt.

Der Random Forest-Klassifikator wurde mit dem R-Paket randomForest v4.6-1471 unter Verwendung der Standardeinstellungen erstellt. Die markierten Daten wurden in Trainings-, Validierungs- und Testsätze unterteilt. Der Trainingsvalidierungssatz wurde verwendet, um auf die Leistung des Modells zuzugreifen, indem 90 % der Daten mit 100 Iterationen verwendet wurden. Die Leistungen wurden anhand der ROC-Kurve der Standardparameter und der Parameteroptimierung mit ntree bzw. mtry gemessen. Es wurde eine zehnfache Kreuzvalidierung verwendet. Der unvoreingenommene Trainingssatz wurde mit gleichen Zahlen pro Gruppe erstellt, die unter Verwendung von 75 % der kleineren Gruppe, der EPP-Gruppe, bestimmt wurden, was zu 25 zufällig ausgewählten Stämmen pro Gruppe führte. Daher bleibt der Validierungssatz bei 33 PGPRs und 8 EPPs. Zur Bestimmung der Variablenbedeutung wurde das Paket „Variable Selection from Random Forests v 0.7-8“ (varSelRF) in R verwendet. Wir haben während der Iteration 5.000 Bäume für den ersten Wald und 2.000 Bäume für alle weiteren Wälder verwendet. Vars.drop.frac, der Teil der Variablen, der bei jeder Iteration ausgeschlossen wird, wurde auf 0,2 gesetzt. Zu Testzwecken wurden zwei Stammsätze verwendet, einer bestand aus 17 PGPR-Stämmen, 7 saprotrophen Stämmen und 1 Pflanzenpathogen. Der zweite Satz bestand aus 34 Bioremediationsstämmen und 16 nicht klassifizierten Stämmen.

Die Eingabedateien und der Code sind verfügbar unter: https://gitlab.com/wurssb/pseudomonas-genome-properties.

Martin. Ziel 2: Kein Hunger. Nachhaltige Entwicklung der Vereinten Nationen https://www.un.org/sustainabledevelopment/hunger/. Zugriff am 31. August 2021.

Zhang, J. et al. Nutzung des pflanzlichen Mikrobioms zur Förderung des Wachstums landwirtschaftlicher Nutzpflanzen. Mikrobiol. Res. 245, 126690 (2021).

CAS PubMed Google Scholar

Fasusi, OA, Cruz, C. & Babalola, OO Landwirtschaftliche Nachhaltigkeit: Mikrobielle Biodünger im Rhizosphärenmanagement. Landwirtschaft 11, (2021).

Arif, I., Batool, M. & Schenk, PM Pflanzen-Mikrobiom-Engineering: Erwartete Vorteile für verbessertes Pflanzenwachstum und bessere Widerstandsfähigkeit. Trends Biotechnologie. 38, 1385–1396 (2020).

CAS PubMed Google Scholar

Timmusk, S., Behers, L., Muthoni, J., Muraya, A. & Aronsson, A.-C. Perspektiven und Herausforderungen der mikrobiellen Anwendung zur Pflanzenverbesserung. Front Plant Sci 8, 49–49 (2017).

PubMed PubMed Central Google Scholar

Vejan, P., Abdullah, R., Khadiran, T., Ismail, S. & Nasrulhaq Boyce, A. Rolle des Pflanzenwachstums, das Rhizobakterien in der landwirtschaftlichen Nachhaltigkeit fördert – Eine Übersicht. Molecules 21, 573 (2016).

PubMed Central Google Scholar

Backer, R. et al. Pflanzenwachstumsfördernde Rhizobakterien: Kontext, Wirkmechanismen und Fahrplan zur Kommerzialisierung von Biostimulanzien für eine nachhaltige Landwirtschaft. Vorderseite. Pflanzenwissenschaft. 9, 1473 (2018).

PubMed PubMed Central Google Scholar

Bakker, PAHM, Berendsen, RL, Doornbos, RF, Wintermans, PCA & Pieterse, CMJ Die Rhizosphäre neu interpretiert: Wurzelmikrobiomik. Vorderseite. Pflanzenwissenschaft. 4, 165–165 (2013).

PubMed PubMed Central Google Scholar

Lugtenberg, BJJ, Malfanova, N., Kamilova, F. & Berg, G. Mikrobielle Bekämpfung von Pflanzenwurzelkrankheiten. in Molecular Microbial Ecology of the Rhizosphere 575–586 (Wiley, 2013). https://doi.org/10.1002/9781118297674.ch54.

Vacheron, J. et al. Pflanzenwachstum fördernde Rhizobakterien und Funktion des Wurzelsystems. Vorderseite. Pflanzenwissenschaft. 4, 356 (2013).

PubMed PubMed Central Google Scholar

Köhl, L., Oehl, F. & van der Heijden, MGA Landwirtschaftliche Praktiken beeinflussen indirekt die Pflanzenproduktivität und Ökosystemleistungen durch Auswirkungen auf die Bodenbiota. Ökologisch. Appl. 24, 1842–1853 (2014).

PubMed Google Scholar

Gupta, G., Parihar, SS, Ahirwar, NK, Snehi, SK & Singh, V. Pflanzenwachstumsfördernde Rhizobakterien (PGPR): Aktuelle und zukünftige Aussichten für die Entwicklung einer nachhaltigen Landwirtschaft. J. Mikrob. Biochem. Technol. 7, 096–102 (2015).

CAS Google Scholar

Finkel, OM, Castrillo, G., Herrera Paredes, S., Salas González, I. & Dangl, JL Verständnis und Nutzung pflanzennützlicher Mikroben. Curr. Meinung. Pflanzenbiol. 38, 155–163 (2017).

PubMed PubMed Central Google Scholar

Ilangumaran, G. & Smith, DL Pflanzenwachstum fördernde Rhizobakterien zur Linderung von Salzstress: Eine systembiologische Perspektive. Vorderseite. Pflanzenwissenschaft. 8, 1768 (2017).

PubMed PubMed Central Google Scholar

Kumar, A., Patel, JS, Meena, VS & Srivastava, R. Jüngste Fortschritte bei PGPR-basierten Ansätzen für Stresstoleranz bei Pflanzen für eine nachhaltige Landwirtschaft. Biokatalysator. Landwirtschaft. Biotechnologie. 20, 101271 (2019).

Google Scholar

Qessaoui, R. et al. Anwendungen neuer Isolate von Rhizobakterien pseudomonas in der Agrarökologie über grundlegende Prozesse, die das Pflanzenwachstum ergänzen. Wissenschaft. Rep. 9, 12832 (2019).

ADS CAS PubMed PubMed Central Google Scholar

Shaikh, S., Yadav, N. & Markande, AR Interaktives Potenzial von Pseudomonas-Arten mit Pflanzen. J. Appl. Biol. Biotechnologie. 8, 101–111 (2020).

CAS Google Scholar

Sitaraman, R. Pseudomonas spp. als Modelle für Pflanzen-Mikroben-Interaktionen. Vorderseite. Pflanzenwissenschaft. 6, 787–787 (2015).

PubMed PubMed Central Google Scholar

Baltrus, DA et al. Dynamische Entwicklung der Pathogenität, aufgezeigt durch Sequenzierung und vergleichende Genomik von 19 Pseudomonas syringae-Isolaten. PLoS Pathog. 7, e1002132 (2011).

CAS PubMed PubMed Central Google Scholar

Liu, B., Zheng, D., Jin, Q., Chen, L. & Yang, J. VFDB 2019: Eine vergleichende pathogenomische Plattform mit einer interaktiven Weboberfläche. Nukleinsäuren Res. 47, D687–D692 (2019).

CAS PubMed Google Scholar

Loper, JE et al. Vergleichende Genomik pflanzenassoziierter Pseudomonas-Arten: Einblicke in die Vielfalt und Vererbung von Merkmalen, die an multitrophen Interaktionen beteiligt sind. PLUS Genet. 8, e1002784 (2012).

CAS PubMed PubMed Central Google Scholar

Passera, A. et al. Nicht nur ein Krankheitserreger? Beschreibung eines pflanzennutzenden Pseudomonas syringae-Stammes. Vorderseite. Mikrobiol. 10, 1409–1409 (2019).

PubMed PubMed Central Google Scholar

Richardson, LJ et al. Genomeigenschaften im Jahr 2019: Eine neue Begleitdatenbank zu InterPro zur Ableitung vollständiger Funktionsattribute. Nukleinsäuren Res. 47, D564–D572 (2018).

PubMed Central Google Scholar

Koehorst, JJ et al. Vergleich von 432 Pseudomonas-Stämmen durch Integration genomischer, funktioneller, metabolischer und Expressionsdaten. Wissenschaft. Rep. 6, 38699 (2016).

ADS CAS PubMed PubMed Central Google Scholar

te Molder, D., Poncheewin, W., Schaap, PJ & Koehorst, JJ Ansätze des maschinellen Lernens zur Vorhersage des pflanzenassoziierten Phänotyps von Xanthomonas-Stämmen. BMC-Genom. 22, 848 (2021).

Google Scholar

Melnyk, RA, Hossain, SS & Haney, CH Konvergente Gewinne und Verluste genomischer Inseln führen zu Lebensstiländerungen bei pflanzenassoziierten Pseudomonas. ISME J. 13, 1575–1588 (2019).

PubMed PubMed Central Google Scholar

Winsor, GL et al. Erweiterte Anmerkungen und Funktionen zum Vergleich Tausender Pseudomonas-Genome in der Pseudomonas-Genomdatenbank. Nukleinsäuren Res. 44, D646–D653 (2016).

CAS PubMed Google Scholar

Breiman, L. Zufällige Wälder. Mach. Lernen. 45, 5–32 (2001).

MATH Google Scholar

Visnovsky, SB et al. Verwendung einer Multilocus-Sequenzanalyse zur Unterscheidung pathogener von saprotrophen Pseudomonas-Stämmen aus Steinobst und Kiwis. EUR. J. Plant Pathol. 155, 643–658 (2019).

CAS Google Scholar

Allen, JP, Snitkin, E., Pincus, NB & Hauser, AR Wald und Bäume: Erforschung der bakteriellen Virulenz mit genomweiten Assoziationsstudien und maschinellem Lernen. Trends Mikrobiol. 29, 621–633 (2021).

CAS PubMed Google Scholar

Monteil, CL et al. Der Bodenwasserfluss ist eine Quelle des Pflanzenpathogens Pseudomonas syringae in subalpinen Quellgebieten. Umgebung. Mikrobiol. 16, 2038–2052 (2014).

PubMed Google Scholar

Hassan, JA, de la Torre-Roche, R., White, JC & Lewis, JD Die Zusammensetzung der Bodenmischung verändert die Anfälligkeit von Arabidopsis für eine Pseudomonas syringae-Infektion. Plant Direct 2, e00044–e00044 (2018).

PubMed PubMed Central Google Scholar

Bergman, NH, Passalacqua, KD, Hanna, PC & Qin, ZS Operonvorhersage für sequenzierte Bakteriengenome ohne experimentelle Informationen. Appl. Umgebung. Mikrobiol. 73, 846 (2007).

ADS CAS PubMed Google Scholar

Ramkumar, G., Lee, SW, Weon, H.-Y., Kim, B.-Y. & Lee, YH Erster Bericht über die gesamte Genomsequenz des Pseudomonas cichorii-Stammes JBC1 und Vergleich mit anderen Pseudomonas-Arten. Anlage. Pathol. 64, 63–70 (2015).

CAS Google Scholar

Villarreal-Chiu, JF, Quinn, JP & McGrath, JW Die Gene und Enzyme des Phosphonatstoffwechsels durch Bakterien und ihre Verteilung in der Meeresumwelt. Vorderseite. Mikrobiol. 3, 19–19 (2012).

CAS PubMed PubMed Central Google Scholar

Yu, X. et al. Vielfalt und Häufigkeit von Phosphonat-Biosynthesegenen in der Natur. Proz. Natl. Acad. Wissenschaft. USA 110, 20759–20764 (2013).

ADS CAS PubMed PubMed Central Google Scholar

White, AK & Metcalf, WW Mikrobieller Metabolismus reduzierter Phosphorverbindungen. Annu. Rev. Microbiol. 61, 379–400 (2007).

CAS PubMed Google Scholar

Shiraishi, T. & Kuzuyama, T. Biosynthesewege und Enzyme, die an der Produktion von Phosphonsäure-Naturstoffen beteiligt sind. Biowissenschaften. Biotechnologie. Biochem. 85, 42–52 (2021).

PubMed Google Scholar

Lamarche, MG, Wanner, BL, Crépin, S. & Harel, J. Das Phosphat-Regulon und die bakterielle Virulenz: Ein regulatorisches Netzwerk, das Phosphathomöostase und Pathogenese verbindet. FEMS Mikrobiol. Rev. 32, 461–473 (2008).

CAS PubMed Google Scholar

Ernst, DC, Anderson, ME & Downs, DM l-2,3-Diaminopropionat erzeugt bei Salmonella enterica verschiedene metabolische Belastungen. Mol. Mikrobiol. 101, 210–223 (2016).

CAS PubMed PubMed Central Google Scholar

Trapet, P. et al. Das Pseudomonas fluorescens-Siderophor Pyoverdin schwächt die Abwehr von Arabidopsis thaliana zugunsten des Wachstums unter Eisenmangelbedingungen. Pflanzenphysiologie. 171, 675–693 (2016).

CAS PubMed PubMed Central Google Scholar

Bultreys, A. & Gheysen, I. Siderophor verwendet bei der Identifizierung von Pseudomonas syringae. In Pseudomonas syringae Pathovars and Related Pathogens – Identification, Epidemiology and Genomics (Hrsg. Fatmi, M. et al.) 21–35 (Springer Niederlande, 2008). https://doi.org/10.1007/978-1-4020-6901-7_2.

Kapitel Google Scholar

Kobylarz, MJ et al. Synthese von L-2, 3-Diaminopropionsäure, einem Siderophor und Antibiotika-Vorläufer. Chem. Biol. 21, 379–388 (2014).

CAS PubMed Google Scholar

Aznar, A. & Dellagi, A. Neue Erkenntnisse über die Rolle von Siderophoren als Auslöser der Pflanzenimmunität: Was können wir von Tieren lernen?. J. Exp. Bot. 66, 3001–3010 (2015).

CAS PubMed Google Scholar

Wang, X., Preston, JF 3rd. & Romeo, T. Der pgaABCD-Locus von Escherichia coli fördert die Synthese eines Polysaccharid-Adhäsins, das für die Biofilmbildung erforderlich ist. J. Bakteriol. 186, 2724–2734 (2004).

CAS PubMed PubMed Central Google Scholar

Adachi, O. et al. Charakterisierung der Chinohämoprotein-Amin-Dehydrogenase aus Pseudomonas putida. Biowissenschaften. Biotechnologie. Biochem. 62, 469–478 (1998).

CAS PubMed Google Scholar

Büttner, D. Proteinexport nach Plan: Architektur, Aufbau und Regulation von Typ-III-Sekretionssystemen pflanzen- und tierpathogener Bakterien. Mikrobiol. Mol. Biol. Rev. 76, 262 (2012).

PubMed PubMed Central Google Scholar

Lombardi, C. et al. Strukturelle und funktionelle Charakterisierung der Nadel des Typ-3-Sekretionssystems (T3SS) von Pseudomonas aeruginosa. Vorderseite. Mikrobiol. 10, 573 (2019).

PubMed PubMed Central Google Scholar

Trantas, E. et al. Vergleichende Genomanalyse mehrerer Stämme zweier ungewöhnlicher Pflanzenpathogene: Pseudomonas corrugata und Pseudomonas mediterranea. Vorderseite. Mikrobiol. 6, (2015).

Diallo, MD et al. Pseudomonas syringae, denen das kanonische Typ-III-Sekretionssystem von Natur aus fehlt, kommen in nichtlandwirtschaftlichen Lebensräumen allgegenwärtig vor, sind phylogenetisch vielfältig und können pathogen sein. ISME J. 6, 1325–1335 (2012).

MathSciNet CAS PubMed Central Google Scholar

Gazi, AD et al. Phylogenetische Analyse eines Genclusters, der ein zusätzliches, rhizobienähnliches Typ-III-Sekretionssystem kodiert, das unter Pseudomonas syringae-Stämmen eng verbreitet ist. BMC Mikrobiol. 12, 188 (2012).

CAS PubMed PubMed Central Google Scholar

Wawrik, B., Kerkhof, L., Kukor, J. & Zylstra, G. Einfluss verschiedener Kohlenstoffquellen auf die Gemeinschaftszusammensetzung von Bakterienanreicherungen aus dem Boden. Appl. Umgebung. Mikrobiol. 71, 6776–6783 (2005).

ADS CAS PubMed PubMed Central Google Scholar

Thakur, M. & Sohal, BS Rolle von Auslösern bei der Induktion von Resistenz in Pflanzen gegen Pathogeninfektionen: Eine Übersicht. ISRN Biochem. 2013, 762412–762412 (2013).

PubMed PubMed Central Google Scholar

Regnault, T. et al. Der Gibberellin-Vorläufer GA12 fungiert bei Arabidopsis als Fernwachstumssignal. Nat. Pflanzen 1, 15073 (2015).

CAS PubMed Google Scholar

Morrone, D. et al. Gibberellin-Biosynthese in Bakterien: Separate Ent-Copalyl-Diphosphat- und Ent-Kauren-Synthasen in Bradyrhizobium japonicum. FEBS Lett. 583, 475–480 (2009).

CAS PubMed Google Scholar

Bharathi, R., Vivekananthan, R., Harish, S., Ramanathan, A. & Samiyappan, R. Rhizobakterienbasierte Bioformulierungen zur Behandlung von Fruchtfäuleinfektionen bei Chilis. Pflanzenschutz. 23, 835–843 (2004).

Google Scholar

Ruinelli, M., Blom, J., Smits, THM & Pothier, JF Vergleichende Genomik und Pathogenitätspotenzial von Mitgliedern des Pseudomonas syringae-Artenkomplexes auf Prunus spp. BMC-Genom. 20, 172 (2019).

Google Scholar

Alfano, JR et al. Die Pathogenitätsinsel Pseudomonas syringae Hrp weist eine dreiteilige Mosaikstruktur auf, die aus einem Cluster von Typ-III-Sekretionsgenen besteht, die durch austauschbare Effektor- und konservierte Effektor-Loci begrenzt sind, die zur parasitären Fitness und Pathogenität in Pflanzen beitragen. Proz. Natl. Acad. Wissenschaft. USA 97, 4856–4861 (2000).

ADS CAS PubMed PubMed Central Google Scholar

Wen-Ling, D., Rehm Amos, H., Charkowski, AO, Rojas, CM & Collmer, A. Austauschbare Effektororte von Pseudomonas syringae: Sequenzvielfalt in repräsentativen Pathovaren und Virulenzfunktion in P. syringae pv. Spritzen B728a. J. Bakteriol. 185, 2592–2602 (2003).

Google Scholar

Warris, S. et al. pyPaSWAS: Python-basierte Multi-Core-CPU- und GPU-Sequenzausrichtung. PLoS ONE 13, e0190279 (2018).

PubMed PubMed Central Google Scholar

Koren, S. et al. Canu: Skalierbare und genaue Long-Read-Assemblierung durch adaptive K-Mer-Gewichtung und Wiederholungstrennung. Genome Res 27, 722–736 (2017).

CAS PubMed PubMed Central Google Scholar

Koehorst, JJ et al. SAPP: Funktionelle Annotation und Analyse des Genoms durch ein semantisches Framework unter Verwendung von FAIR-Prinzipien. Bioinformatik 34, 1401–1403 (2017).

PubMed Central Google Scholar

Hyatt, D. et al. Prodigal: Prokaryotische Generkennung und Identifizierung der Translationsinitiationsstelle. BMC Bioinform. 11, 119 (2010).

Google Scholar

Haft, DH et al. TIGRFAMs: Eine Ressource der Proteinfamilie zur funktionellen Identifizierung von Proteinen. Nukleinsäuren Res. 29, 41–43 (2001).

CAS PubMed PubMed Central Google Scholar

Jones, P. et al. InterProScan 5: Proteinfunktionsklassifizierung im Genommaßstab. Bioinformatik 30, 1236–1240 (2014).

CAS PubMed PubMed Central Google Scholar

El-Gebali, S. et al. Die Datenbank der Pfam-Proteinfamilien im Jahr 2019. Nucleic Acids Res. 47, D427–D432 (2018).

PubMed Central Google Scholar

van Dam, JCJ, Koehorst, JJJ, Vik, JO, Schaap, PJ & Suarez-Diez, M. Interoperable Genomannotation mit GBOL, einer erweiterbaren Infrastruktur für funktionelles Data Mining. bioRxiv 184747 (2017).

van Dam, JCJ et al. Der Empusa-Codegenerator und seine Anwendung auf GBOL, eine erweiterbare Ontologie zur Genomannotation. Wissenschaft. Daten 6, 254 (2019).

PubMed PubMed Central Google Scholar

Lee, I., Kim, YO, Park, S.-C. & Chun, J. OrthoANI: Ein verbesserter Algorithmus und eine verbesserte Software zur Berechnung der durchschnittlichen Nukleotididentität. Int. J. Syst. Entwicklung Mikrobiol. 66, 1100–1103 (2016).

CAS PubMed Google Scholar

Bergstrand, LH, Neufeld, JD & Doxey, AC Pygenprop: Eine Python-Bibliothek für die programmatische Erforschung und den Vergleich der Genomeigenschaften von Organismen. Bioinformatik (2019).

Liaw, A. & Wiener, M. Klassifizierung und Regression durch randomForest. R News 2, 18–22 (2002).

Google Scholar

Referenzen herunterladen

WP wird finanziell durch ein Royal Thai Government Scholarship, Thailand, unterstützt. TL dankt dem niederländischen Wirtschaftsministerium für die Unterstützung im Topsector-Programm „Gartenbau und Ausgangsmaterialien“ unter dem Thema „Pflanzengesundheit“ (Projektnummer: TU 16022) und seinen Partnern (NAK, Naktuinbouw und BKD). PS und MSD danken der niederländischen nationalen Förderagentur NWO und der Wageningen University and Research für ihren finanziellen Beitrag zur Unlock-Initiative (NWO: 184.035.007).

Labor für System- und Synthetische Biologie, Wageningen University & Research, Wageningen, Niederlande

Wasin Poncheewin, Maria Suarez-Diez & Peter J. Schaap

BU Biointeractions and Plant Health, Wageningen Plant Research, Wageningen University & Research, Wageningen, Niederlande

Anne D. van Diepeningen & Theo AJ van der Lee

UNLOCK Large Scale Infrastructure for Microbial Communities, Wageningen University and Research, Wageningen, Niederlande

Peter J. Schaap

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

WP, ADD, TAJL, MS-D. und PJS waren an der Konzeption und Gestaltung der Studie beteiligt. ADvD und TAJL lieferten die (Re-)Sequenzdaten und die phänotypische Klassifizierung der Stämme. WP führte die rechnerischen Analysen durch. WP hat den ursprünglichen Entwurf des Manuskripts geschrieben. WP, ADD, TAJL, MS-D. und PJS trugen zum Verfassen, Überprüfen und Bearbeiten des Manuskripts bei.

Korrespondenz mit Peter J. Schaap.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Poncheewin, W., van Diepeningen, AD, van der Lee, TAJ et al. Klassifizierung des pflanzenassoziierten Lebensstils von Pseudomonas-Stämmen mithilfe von Genomeigenschaften und maschinellem Lernen. Sci Rep 12, 10857 (2022). https://doi.org/10.1038/s41598-022-14913-4

Zitat herunterladen

Eingegangen: 04. Oktober 2021

Angenommen: 15. Juni 2022

Veröffentlicht: 27. Juni 2022

DOI: https://doi.org/10.1038/s41598-022-14913-4

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

AKTIE