L'objectif est d'établir et de comparer des classements des protéines les plus importantes d'un organisme ou d'un système, à partir d'un jeu de données obtenu d'une base de données publique.
Le site http://thebiogrid.org contient plusieurs jeux de données d'interaction, pour plusieurs organismes (plantes, animaux, virus, ...).
Par exemple le jeu de données BIOGRID-ORGANISM-3.2.120.tab2 contient des données d'interaction classées par organisme (humain, souris, levure, E. coli, arabidopsis, etc). Chaque jeu de données est contenu dans un fichier texte séparé, formatté en tableau séparé par des tabulations. Parmi ces jeu de données, on travaillera avec le fichier BIOGRID-ORGANISM-Rattus_norvegicus-3.2.120.tab2.txt, un jeu de données d'interaction protéines-protéines du rat brun (Rattus norvegicus), utilisé comme animal modèle en laboratoire.
Vous pouvez importer ce fichier dans un tableur (fichier avec colonnes séparées par des tabulations (tabs))
1 2 3 . 1 #BioGRID Interaction ID Entrez Gene Interactor A Entrez Gene Interactor B ... 2 243699 4842 29382 3 244191 581 116502 4 244207 8031 24413 5 244761 25414 25513 6 244762 25414 25513 7 245216 9261 24855 . 245225 24855 7529 ...
La ligne 1 contient les noms de chaque colonne. Chaque ligne suivante contient l'information sur une interaction entre deux protéines. Chaque interaction possède un ID unique spécifié dans la colonne 1. Les ID des protéines (Entrez Gene Interactor) sont spécifiées dans les colonnes 2 et 3. Les autres colonnes donnent plus d'information, comme le nom des protéines, les références bibliographique, ou la méthode d'acquisition de données. En général, la même protéine apparaît plusieurs fois dans le tableau. L'interaction entre deux protéines peut apparaître plusieurs fois: les protéines des lignes 5 et 6 sont les mêmes. Ceci est dû au fait que les interactions ont pu être mesurées dans différentes conditions, ou par différents labos.
a) Construisez la matrice d'adjacence A pour les données d'interaction du rat. Cette matrice est carrée, symétrique, à coefficients non-négatifs, et de taille n. La taille n correspond au nombre de protéines uniques listées dans la base de données. Pour chaque paires de protéines (i,j), le coefficient Aij est le nombre d'interactions listées dans la base de données. Ces interactions ne sont pas directionelles, donc la matrice A est symétrique: Aij = Aji.
Afin de ne pas vous bloquer si vous avez des difficultés à générer la matrice ou pour vérifier vos calculs, la matrice A se trouve ici, dans un fichier texte matrice_A.txt. La ligne i de A correspond à la protéine avec l'ID Entrez Gene donnée par la ligne i du tableau donné dans le fichier Entrez_Gene_ID.txt.
On cherche à donner un score, à mesurer l'importance, des protéines à travers leur interaction. La mesure la plus simple consiste à compter le nombre d'interaction de chaque protéines d(i) et à normaliser le tout par le nombre possible d'interaction n-1. La centralité de degré est $$C_D(i) = \frac{d(i)}{n-1}.$$
a) Calculez le degré de centralité $C_D$ de chaque protéine. Identifier la protéine la plus centrale.
La centralité par valeurs propres, $C_E$ (E pour eigenvalue) est définie comme le vecteur propre associé à la valeur propre la plus grande.
b) Montrer que pour une matrice A carrée, symétrique et non-négative, la plus grande valeur propre est réelle et non-négative.
c) Calculer la centralité par valeurs propres associée à la plus grande valeur propre de A. Identifier la protéine la plus centrale.
d) Comparez les deux mesures de centralité $C_D$, $C_E$. Pour ce faire, faites une régression linéaire $$C_D \sim a C_E + b.$$ Etablissez le problème de moindres carrés pour la régression linéaire: écrivez les vecteurs et matrices $M x = C_D$ pour ce problème. La matrice $M$ est la matrice du problème sur-déterminé $M (a,b)^t = C_D$.
e) Calculez les coefficients a, b qui minimisent la somme des carrés des résidus $r = |C_D - a C_E - b|$. Maintenant, enlevez le point maximal de $C_D$ et $C_E$ (qui correspond à la même protéine) et effectuez une nouvelle régression linéaire. Que remarquez vous ?
a) Etablissez un ranking basé sur la centralité de degré $C_D$.
b) Etablissez un ranking basé sur la centralité par valeurs propres $C_E$.
c) Comparez les 40 premiers éléments de chacun des ranking. Identifiez les protéines faisant partie du top 40 des deux rankings. Vous devriez obtenir en position 1 la même protéine pour les deux rankings.
a) Quels rôles ont les protéines centrales que vous avez identifiées ? Vous pouvez interroger une base de données comme Entrez Gene - NCBI. Utilisez les ID Entrez Gene pour chercher les gènes codant pour les protéines et synthétisez dans un tableau les principaux processus cellulaires auxquelles sont associées ces protéines. Y a-t-il des points en commun entre ces protéines ? Des différences ?
b) Discutez les résultats obtenus avec ce projet. Pour chaque résultat, discutez ce qui à été fait, des problèmes liés aux méthodes utilisées et des questions soulevées par ces résultats.
*Question libre. C'est l'endroit pour ajouter des observations, d'autres résultats ou des remarques.