Étudier les méthodes d’apprentissage automatique pour améliorer la détection des sites de liaison.

Les facteurs de transcription (TF) et les sites d’ADN qu’ils lient (TF-ADN) sont de bonnes cibles pour l’amélioration des cultures car ils contrôlent l’expression des gènes. Alors que les développements technologiques au cours de la dernière décennie ont facilité la caractérisation des préférences de liaison à l’ADN pour de nombreux TF, beaucoup restent non identifiés. Un nouvel article publié dans en silicone Plants décrit un modèle d’apprentissage automatique créé pour trouver des sites de liaison informatiques candidats.

M / s. Sohyun Bang, un étudiant diplômé de l’Institut de bioinformatique de l’Université de Géorgie et ses coauteurs ont construit un modèle de prédiction qui pourrait classer les régions génomiques en classes de liaison au TF et non liées au TF à partir de l’ADN génomique. Les auteurs ont choisi de se concentrer sur la détection des membres de la famille TF du facteur de réponse auxine (ARF) dans le maïs et le soja, car l’auxine joue un rôle crucial dans la croissance et le développement des plantes et est conservée de manière évolutive à travers les espèces.

Parce que les données étaient déséquilibrées, ce qui signifie que la majeure partie du génome n’était pas composée d’événements de liaison à l’ARF, les auteurs risquaient de produire des taux élevés de faux positifs. Par conséquent, ils ont réduit la quantité de données qui n’étaient pas composées d’événements de liaison ARF en limitant les données utilisées aux régions non méthylées, qui sont hautement enrichies pour les interactions TF-ADN par rapport aux régions méthylées du génome (figure panneau 1).

Conception expérimentale et traitement des données utilisés dans cette étude.

Les algorithmes d’apprentissage automatique attendent des variables numériques, et non des séquences nucléotidiques catégorielles. Ainsi, les auteurs ont testé l’encodage des variables catégorielles (A,T,G,C) avec une ou plusieurs variables numériques selon deux méthodes (figure panneau 2) :

  1. Le codage à chaud considère l’ADN comme une séquence 1-D de longueur fixe avec quatre canaux. Par exemple, si A, C, G, T sont respectivement codés en (1 0 0), (0 1 0), (0 0 1), (0 0 0), alors la séquence ATTGC sera transformée en ((1 0 0), (0 0 0), (0 0 0), (0 0 1), (0 1 0)). Les séquences d’ADN codées ont été classées à l’aide de réseaux de neurones convolutifs.
  2. La vectorisation par comptage avec k-mer utilise décrit de courtes séquences d’ADN sur toute sa longueur (la longueur est appelée k). Par exemple, lorsqu’il existe un groupe de séquence d’AATTG, les jetons de 3-mer sont AAT, ATT, TTG et TGC. Le k testé dans cet article était de 5 à 9 paires de bases et finalement sélectionné pour utiliser un 7-mère, car il produisait le taux de faux négatifs le plus bas. La régression logistique a été adaptée pour compter les caractéristiques vectorisées.

À l’aide de ces méthodes, deux modèles ont été développés et formés pour apprendre des modèles distincts de séquences liées au TF et non liées au TF à l’aide d’un sous-ensemble de données. Les modèles ont ensuite été exécutés avec les données restantes pour prédire les régions liées au TF ou non liées au TF. Les précisions de prédiction de chaque modèle ont été évaluées par rapport à des événements connus liés au TF et non liés au TF que les auteurs ont identifiés à l’aide de pics de purification et de séquençage par affinité d’ADN (DAP-seq, figure panneau 3).

Le nombre total d’événements liés au TF et non liés au TF prédits avec précision a révélé une grande précision des modèles de prédiction avec la limitation qu’ils ont souvent négligé les événements non liés au TF à haute fréquence.

Les auteurs ont constaté que les deux méthodes de codage, one-hot et k-mer, avaient une précision de prédiction TF similaire (76-78%) et une occurrence similaire mais élevée (41-46%) de taux de faux négatifs.

Les auteurs ont choisi de continuer avec le modèle k-mer et ont encore amélioré ses performances en incluant un classificateur de régression logistique avec sur-échantillonnage et sélection de caractéristiques. Pour équilibrer les données, qui contenaient plus de régions non liées à l’ARF que de régions liées à l’ARF, les auteurs ont utilisé un suréchantillonnage, qui échantillonne au hasard la classe minoritaire pour qu’elle ait la même taille que la classe majoritaire dans l’ensemble d’apprentissage. La sélection des caractéristiques a été effectuée en identifiant les modèles de séquence génomique 7-mer où les ARF sont les plus susceptibles de se lier sans utiliser les informations sur le motif.

À partir de là, ils ont pu atteindre une précision de prédiction informatique de 91 % et un taux de faux négatifs de 35 %.

Enfin, les auteurs ont validé le meilleur modèle établi avec le maïs contre le génome du soja pour déterminer si le modèle peut être utilisé pour prédire de manière robuste les interactions TF-ADN chez d’autres espèces végétales (figure panneau 4). Pour ce faire, ils ont produit des données DAP-seq pour les mêmes ARF de maïs en utilisant l’ADN génomique du soja comme entrée. Après avoir entraîné les régions liées à l’ARF du maïs et testé les données sur le soja, ils ont atteint une précision de prédiction informatique de 70 à 84 %, mais des taux de faux négatifs élevés (36 à 89 %) de la part des membres des ARF.

Les résultats de cette étude suggèrent l’utilisation potentielle de diverses méthodes pour prédire les interactions TF-ADN au sein et entre les espèces avec plus ou moins de succès.

LIRE L’ARTICLE:

Sohyun Bang, Mary Galli, Peter A Crisp, Andrea Gallavotti, Robert J Schmitz, Identification des interactions facteur de transcription-ADN à l’aide de l’apprentissage automatique, in silico Plants, 2022 ;, diac014, https://doi.org/10.1093/insilicoplants/diac014


Le modèle est disponible gratuitement sur https://github.com/schmitzlab/Identifying-transcription-factor-DNA-interactions-using-machine-learning

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.