Initiation aux systèmes d’exploitation 2005-2006
TD N°:3 – Expressions régulières
1 Manipulation et tri de fichier
Regardez le contenu du fichier avec less : les colonnes indiquent le nom de l'étudiant, sa filière, son sexe, sa note dans la matière A, sa note dans la matière B.
1) Comptez le nombre de lignes, de mots.
2) Triez le fichier (a) par ordre alphabétique des étudiants, (b) par note décroissante dans la matière A, (c) puis B par matière
3) Filtrez le fichier pour récupérer les étudiants d'informatique.
4) Faites de meme pour les étudiants de physique et de mathématique.
5) Filtrez le fichier pour récupérer la liste des étudiantes puis la liste des étudiants.
6) Filtrez les étudiants par filière, et affichez UNIQUEMENT les prénoms.
7) Créez le fichier math_hommes.txt qui contient les étudiants classés par filières, par sexe, ainsi qu'en note décroissante.
2 Noms de fichiers/répertoire
1) Se placer dans le répertoire /usr/bin.
2) Afficher les fichiers commençant par d.
3) Afficher les fichiers dont la deuxième lettre est un d.
4) Afficher les fichiers commençant et finissant par un d.
5) Afficher les fichiers commençant ou finissant par un d.
6) Afficher les fichiers commençant et ne finissant pas par un d.
7) Afficher les fichiers commençant par un d ou un x.
8) Afficher les fichiers du répertoire /usr/bin/X11 se terminant par un chiffre.
9) Afficher les fichiers du répertoire /usr/bin/X11 contenant un chiffre et ne se terminant pas par un chiffre.
3 Caractères spéciaux
1) Se placer dans le répertoire SYS de votre répertoire d'accueil.
2) Créer 4 fichiers de noms respectifs X$Y, X?Y, X*Y et X**Y
3) Visualiser les fichiers ayant au moins un $ ou un ? ou un * dans leur nom
4) Exécuter la commande rm X?Y, sans confirmer les destructions. Pourquoi 3 destructions sont-elles demandées ?
5) Détruire les 4 fichiers 6) Créer un fichier de nom -l
7) Visualiser ce seul fichier avec la commande ls
8) Détruire ce fichier, en expliquant les problèmes rencontrés.
4 Expression régulière étendue : premiers pas
1) Donnez l’ERE qui désigne n’importe quelle suite de 5 caractères, y compris \n.
2) Donnez l’ERE qui désigne 1 chaîne formée de n’importe quel nombre de \, suivi de n’importe quel nombre de
*.
Initiation aux systèmes d’exploitation 2005-2006
3) Dans les shells UNIX (du type bash) les lignes commençant par # sont des commentaires. Quelle est l’ERE qui accepte de tels commentaires ?
4) Donnez l’ERE qui désigne un nombre en notation scientifique. Ce nombre sera composé d’au moins un chiffre. Il comportera 2 parties optionnelles : une partie «décimale» (un . suivi d’une série de chiffres) et une partie «exposant» (un E suivi d’un nombre entier, éventuellement préfixé par + ou -).
5) Donnez l’ERE acceptant l’ensemble des phrases selon les critères suivants : (a) le premier mot de la phrase a une majuscule, (b) la phrase se termine par un point, (c) la phrase est composée d’un ou plusieurs mots (caractères a...z et A...Z), séparés par un espace, (d) on trouve une phrase par ligne.
Remarquons que les caractères de ponctuation autres que le point ne sont pas admis.
6) Écrivez l’ERE qui accepte tous les noms de fichiers DOS (composés de 8 caractères : A...Z, a...z et _), dont l’extension est ext et commençant par la chaîne abcde. Attention, l’ERE ne doit accepter que le nom du fichier sans l’extension !
5 Génome
Le fichier fd/dmel.fasta contient des séquences d'ADN de drosophile (séquences intergéniques du chromosome 4), en format fasta. On va utiliser ce fichier pour rechercher dans les séquences d'ADN certaines signatures pour des sites de fixation de facteurs de transcription. Les sites de fixation des facteurs de transcription sont des sous séquences (ou "motif") de quelques nucléotides (6-8), reconnues par les protéines qui se fixent à cet endroit.
Souvent, un facteur de transcription reconnaît plusieurs motifs qui se ressemblent. Pour tenir compte de cette variabilité, on introduit d'autres lettres, en plus des A, C, G, T (code IUPAC) :
Lettre Equivalence Signification
A Adenine
C Cytosine
G Guanine
T Thymine
R A ou G puRines Y C ou T pYrimidines
W A ou T Weak hydrogen bonding S G ou C Strong hydrogen bonding M G ou T aMino group at common position K G ou T Keto group at common position H A, C ou T Not G
B G, C ou T Not A V G, A ou C Not T D G, A ou T Not C N G,A,C ou T aNy
Avec cette nomenclature, on peut désigner un motif par ARCCGKKY par exemple.
Traduisez en ERE le motif ARCCGKKN. Recherchez ce motif dans le fichier de séquences.
Voici quelques facteurs de transcription fameux chez la Drosophile, et leur site de fixation consensus:
Hunchback (Hb) SMANAAAAAA Krueppel (Kr) AMYGGGTTAN Hunchback (Hb) SMANAAAAAA Bicoid (Bcd) SGGATTAN Engrailed (en) GTANTNN suppressor of hairless ANYGTGGGAAMCM
- Transformez ces consensus en ERE, et recherchez ces sites dans le fichier de séquences.
- Cherchez aussi des combinaisons de sites de fixation (comme par exemple : Hb et Kr)
- Comment faire pour afficher les lignes qui
commencent par ">xxxx" et qui indiquent dans quelle séquence intergénique on se trouve ?