Serveur d'impression

Regroupement de séquences – Wikipedia – Serveur d’impression

Le 4 mai 2019 - 6 minutes de lecture

En bioinformatique, regroupement de séquences les algorithmes tentent de regrouper des séquences biologiques qui sont en quelque sorte liées. Les séquences peuvent être d'origine génomique, "transcriptomique" (EST) ou protéique.
Pour les protéines, les séquences homologues sont généralement regroupées dans des familles. Pour les données EST, le regroupement est important pour regrouper les séquences provenant du même gène avant que les EST ne soient assemblées pour reconstruire l'ARNm d'origine.

Certains algorithmes de clustering utilisent un clustering à liaison simple, construisant une fermeture transitive de séquences avec une similarité sur un seuil particulier. UCLUST[1] et CD-HIT[2] utilise un algorithme glouton qui identifie une séquence représentative pour chaque groupe et affecte une nouvelle séquence à ce groupe si elle est suffisamment similaire au représentant; si une séquence ne correspond pas, elle devient la séquence représentative d'un nouveau cluster. Le score de similarité est souvent basé sur un alignement de séquence. Le regroupement de séquences est souvent utilisé pour créer un ensemble non redondant de séquences représentatives.

Les groupes de séquences sont souvent synonymes (mais pas identiques) de familles de protéines. La détermination d'une structure tertiaire représentative pour chaque groupe de séquences est l'objectif de nombreuses initiatives de génomique structurelle.

Algorithmes et packages de clustering de séquence[[[[modifier]

  • CD-HIT[2]
  • UCLUST dans USEARCH[1]
  • Starcode:[3] un algorithme de clustering de séquence rapide basé sur une recherche exacte de toutes les paires.[4]
  • OrthoFinder:[5] une méthode rapide, évolutive et précise pour regrouper des protéines dans des familles de gènes (orthogroupes)[6]
  • Linclust:[7] premier algorithme dont l'exécution évolue de manière linéaire avec la taille du jeu d'entrée, très rapide, dans MMseqs2 [8] suite logicielle pour la recherche rapide et sensible de séquences et le regroupement de grands ensembles de séquences
  • TribeMCL: une méthode pour regrouper des protéines dans des groupes apparentés[9]
  • BAG: un algorithme de groupement de séquences théoriques de graphes[10]
  • JESAM:[11] Moteur d'alignement d'ADN évolutif parallèle open source avec composant logiciel facultatif de mise en cluster
  • UICluster:[12] Regroupement parallèle de séquences EST (gène)
  • BLASTClust clustering à liaison unique avec BLAST[13]
  • Clusterer:[14] application Java extensible pour le regroupement de séquences et l'analyse de grappes
  • PATDB: un programme pour identifier rapidement des sous-chaînes parfaites
  • nrdb:[15] un programme de fusion de séquences triviales redondantes (identiques)
  • CluSTr:[16] Une base de données de clustering de séquences de protéines à liaison unique issue de similarités de séquences de Smith-Waterman; couvre plus de 7 millions de séquences, y compris UniProt et IPI
  • Outils ICA[17] – paquetage original (ancien) de groupement d'ADN avec de nombreux algorithmes utiles pour la découverte d'artefacts ou le groupement EST
  • Outil Skipredudant EMBOSS[18] supprimer des séquences redondantes d'un ensemble
  • Algorithme CLUSS[19] d'identifier des groupes de séquences protéiques difficiles à aligner sur le plan structurel, fonctionnel ou évolutif. Serveur web CLUSS [20]
  • Algorithme CLUSS2[21] pour regrouper des familles de séquences de protéines difficiles à aligner avec de multiples fonctions biologiques. Serveur web CLUSS2 [20]

Bases de données de séquences non redondantes[[[[modifier]

  • PISCES: Un serveur de séquençage de séquence protéique[22]
  • RDB90[23]
  • UniRef: une base de données de séquences UniProt non redondante[24]
  • Uniclust: séquences UniProtKB en cluster au niveau d’une identité de séquence par paire de 90%, 50% et 30%.[25]
  • Clusters Orthologues Virus:[26] Une base de données de regroupement de séquences de protéines virales; contient tous les gènes prévus de onze familles de virus organisés en groupes orthologues par similarité BLASTP

Voir également[[[[modifier]

Références[[[[modifier]

  1. ^ une b "USEARCH". drive5.com.
  2. ^ une b "CD-HIT: une méthode ultrarapide de classification de séquences de protéines et de nucléotides, avec de nombreuses nouvelles applications dans les données de séquençage de prochaine génération (NGS)". cd-hit.org.
  3. ^ "Référentiel Starcode". 2018-10-11.
  4. ^ Zorita E; Cuscó P; Filion GJ. (Juin 2015). "Starcode: clustering de séquences basé sur la recherche par paires". Bioinformatique. 31 (12): 1913-1919. doi: 10.1093 / bioinformatics / btv053. PMC 4765884. PMID 25638815.
  5. ^ "OrthoFinder". Steve Kelly Lab.
  6. ^ Emms DM; Kelly S. (août 2015). "OrthoFinder: la résolution des biais fondamentaux dans les comparaisons de génome entier améliore considérablement la précision de l'inférence orthogroupe". Biologie du génome. 16 (157): 157. doi: 10.1186 / s13059-015-0721-2. PMC 4531804. PMID 26243257.
  7. ^ Steinegger M .; Söding J. (juin 2018). "La mise en grappes d'ensembles protéiques énormes dans le temps linéaire". Nature Communications. 9 (1): 2542. doi: 10.1038 / s41467-018-04964-5. PMC 6026198. PMID 29959318.
  8. ^ Steinegger M .; Söding J. (16 octobre 2017). "MMseqs2 permet aux séquences de protéines sensibles de rechercher l'analyse de jeux de données volumineux". Nature Biotechnologie. 35 (11): 1026-1028. doi: 10.1038 / nbt.3988. PMID 29035372.
  9. ^ Enright AJ; Van Dongen S; Ouzounis CA. (Avril 2002). "Un algorithme efficace pour la détection à grande échelle de familles de protéines". Acides Nucléiques Rés. 30 (7): 1575-154. doi: 10.1093 / nar / 30.7.1575. PMC 101833. PMID 11917018.
  10. ^ "Copie archivée". Archivé de l'original le 2003-12-06. Récupéré 2004-02-19.CS1 maint: copie archivée en tant que titre (lien)
  11. ^ "Papier de Bioinformatique: JESAM: Composants logiciels CORBA pour les alignements et les grappes EST". littlest.co.uk.
  12. ^ http://ratest.eng.uiowa.edu/pubsoft/clustering/
  13. ^ "NCBI News: Printemps 2004-BLASTLab". nih.gov.
  14. ^ "Clusterer: application Java extensible pour le groupement de séquences et les analyses de cluster". bugaco.com.
  15. ^ "Index de / pub / nrdb".
  16. ^ "Copie archivée". Archivé de l'original le 2006-09-24. Récupéré 2006-11-23.CS1 maint: copie archivée en tant que titre (lien)
  17. ^ "Introduction aux outils ICA". littlest.co.uk.
  18. ^ "EMBOSS: skipredundant". pasteur.fr.
  19. ^ Kelil, Abdellali; Wang, Shengrui; Brzezinski, Ryszard; Fleury, Alain (2007). "Algorithme CLUSS: Regroupement de séquences protéiques non alignables". Prospectus.usherbrooke.ca. 8: 286. doi: 10,1186 / 1471-2105-8-286. PMC 1976428. PMID 17683581.
  20. ^ une b "Page d'accueil CLUSS".
  21. ^ Kelil, Abdellali; Wang, Shengrui; Brzezinski, Ryszard (janvier 2008). "CLUSS2: algorithme indépendant de l'alignement pour le regroupement de familles de protéines ayant de multiples fonctions biologiques". Revue internationale de biologie computationnelle et de conception de médicaments. 1 (2): 122–140. doi: 10.1504 / IJCBDD.2008.02019 (inactif le 2018-11-28).
  22. ^ "Dunbrack Lab". fccc.edu.
  23. ^ Holm L1, Sander C. (juin 1998). "Suppression de la redondance des voisins proches des grandes collections de séquences protéiques". Bioinformatique. 14 (5): 423–9. doi: 10.1093 / bioinformatique / 14.5.423. PMID 9682055.
  24. ^ "À propos d'UniProt". uniprot.org.
  25. ^ Mirdita M; von den Drisch L .; Galiez C .; Soeding J .; Steinegger M. (nov. 2016). "Bases de données Uniclust de séquences et d'alignements de protéines en grappes et profondément annotées". Acides Nucléiques Rés. 45 (D1): D170 – D176. doi: 10.1093 / nar / gkw1081. PMC 5614098. PMID 27899574.
  26. ^ "VOCS – Centre de ressources en bioinformatique virale". uvic.ca.


Commentaires

Laisser un commentaire

Votre commentaire sera révisé par les administrateurs si besoin.