Neue computational tool Kabelbäume big data, deep learning zu enthüllen dunkle Materie der Transkriptom: Forscher erstellen ein neues Werkzeug für die Wissenschaftler Voraus-Borreliose-Diagnose und Behandlung

Ein Forscher-team am Children ‚ s Hospital of Philadelphia (CHOP) entwickelte eine innovative computational tool, das Forschern eine effiziente Methode für die Erkennung der verschiedenen Arten von RNA ist, zusammengebastelt (gespleißt) beim kopieren von DNA. Da Variationen, wie RNA wird gespleißt spielen eine entscheidende Rolle bei vielen Krankheiten, diese neue analytische Tools bieten mehr Funktionen für die Entdeckung der Erkrankung Biomarker und therapeutische Ziele auch von der RNA-Sequenzierungs-Daten-sets mit bescheidenen Berichterstattung.

Studienleiter Yi Xing, PhD, Direktor des Center for Computational und Genomische Medizin am HACKEN, und der erste Autoren-und PhD-Studenten Zijun Zhang und Zhicheng Pan und berichten über Ihre DARTS Rahmen dieser Woche in Nature Methods. DARTS (Deep-learning-Augmented-RNA-seq-Analyse von Transkript Spleißen) verwendet deep-learning-basierte Vorhersagen zu nutzen, die fülle an verfügbaren Informationen in öffentlichen Datensätzen aus RNA-Sequenzierung (RNA-seq), so dass neue Einblicke in das alternative Spleißen.

„Die konzeptionelle innovation der DART ist, es bietet eine Brücke von big data in der öffentlichen Domäne zu kleineren Datensätzen in fokussierten Studien mit einzelnen Ermittler,“ sagte Xing. „DARTS bietet die Möglichkeit zu verwandeln, riesige Mengen an öffentlichen RNA-seq-Daten in eine knowledge base, dargestellt als ein tiefes neuronales Netzwerk, wie das Spleißen reguliert wird. Mit dieser computational framework, die wir drücken können, dass in jedem einzelnen Labor. Das könnte wirklich nützlich und erhöhen die Effizienz des Experiments und ermöglichen neue Entdeckungen. Mit nur 20 oder 30 Millionen RNA-seq liest, Sie können Vermutungen und Rückschlüsse auf Dinge, die Sie nie in der Lage, um zu sehen, in der Vergangenheit.“

Xing hat ein langjähriger Forschungsschwerpunkt auf alternative Spleißen — der Prozess, durch den Informationen in der DNA eines einzigen Gens ist zusammengesetzt, in unterschiedlicher Weise, erzeugen Sie verschiedene boten-RNA-und protein-Produkte, die nach der gen-Transkription. Gene, die jeder erzeugen einen Durchschnitt von 10 oder mehr solcher Produkte, und manchmal so viele wie 38,000. Jene Variationen in alternative Spleißen kann die Krankheit verursachen, verändern das Krankheitsrisiko oder eine Krankheit milder oder noch schlimmer.

Massiv-parallele RNA-Sequenzierung ist nun der standard-Technologie nutzen die Forscher untersuchen alternative Spleißen. Jedoch, genau zu Messen, alternative splicing, dem RNA-sequencing-Experimente haben sehr in die Tiefe gehen. Der Konsens ist, dass über 100 Millionen Sequenzen notwendig, für die Analyse von alternativen Spleißen, aber aufgrund der hohen Kosten, die meisten Forscher nicht leisten, uns diese Tiefe, die mit Ihrer RNA-sequencing-Experimente. Darüber hinaus sind viele medizinisch wichtige Gene werden nicht exprimiert auf einem hohen Niveau. Sogar einen deep RNA sequencing experiment nicht erzeugen kann genug Deckung auf solche Gene, wodurch es praktisch unmöglich, zu Messen, die Gene “ alternative splicing-Muster.

In der aktuellen Studie, die Xing-team zog erste große public-domain-RNA-Sequenzierungs-Daten aus Quellen wie das ENCODE-Konsortium, das internationale Programm wurde von der National Human Genome Research Institute, zu denen alle funktionellen Elemente des Genoms, einschließlich derjenigen, die handeln auf der Ebene der RNA. Mit diesen massiven Daten-sets, DARTS Züge eines tiefen neuronalen Netzes zur Vorhersage von änderungen in alternative Spleißen. Das Modell enthält die messenger-RNA (mRNA) Ebenen von 1.500 RNA-bindende Proteine und 3.000 Sequenz-Funktionen.

Um es den Forschern erlauben, die Verwendung der deep-learning-Modell in Ihre eigenen Studien, das deep neural network-Vorhersage, kombiniert mit den tatsächlichen RNA-Sequenzierung erzeugten Daten auf bestimmte biologische Proben mit einer Statistik-framework namens Bayes-Hypothese zu testen. Forscher können diese Informationen in Ihre einzelnen Labors besser zu charakterisieren, die durch Alternatives Spleißen in verschiedenen biologischen Bedingungen.

Die Forscher angewendet, DARTS, Lungen-und Prostata-Krebs-Zelllinien zu testen, Ihre Fähigkeit zur Vorhersage Spleißen Muster in den Zellen. Diese Zell-Linien sind Modelle für den übergang vom epithelialen zum mesenchymalen Zellen — ein wichtiger Prozess sowohl in der embryonalen Entwicklung und der Metastasierung von Krebs. Durch die Nutzung der deep-learning-Vorhersagen, DARTS Veränderungen im splicing-Muster in zahlreichen Genen, die entkommen Erkennung durch herkömmliche computational tools, weil diese Gene wurden exprimiert in geringen Konzentrationen in den Zellen. Die Studie team dann Experimente durchgeführt, um die Validierung dieser Roman Vorhersagen. Diese neuen Entdeckungen können die Wissenschaftler besser identifizieren Biomarker und therapeutische targets der Krankheiten.

„DARTS bietet eine spannende konzeptionelle Rahmen, die wir anpassen konnten, um andere Verwendungen“, fügte Xing. „Wir könnten zum Beispiel, erstellen Sie eine version, die vorhersagt, das alternative Spleißen in bestimmten Patienten Gewebe.“ Könnte dies möglicherweise zu einer Verbesserung der Diagnostik von seltenen Krankheiten, die aus einer Gewebe-Biopsie, eine nützliche Technik für Pädiatrische Zentren wie HACKEN, die oft bewerten Kinder mit rätselhaften, nicht diagnostizierten Erkrankungen.

DARTS, Xing, Schloss, konnte, können die Wissenschaftler mehr über die Beiträge der unerforschte Gene, die möglicherweise nicht zum Ausdruck gebracht werden auf einem hohen Niveau, haben aber wichtige Auswirkungen auf die Gesundheit und Krankheit. „DARTS bietet sich ein neues Fenster in die dunkle Materie des transkriptoms“, sagte er.