Nettoyeur de fichiers HTML
ou comment manipuler une structure HTML facilement
Ce projet est pour l'instant une bibliothèque de fonctions, d'objets capable de lire un fichier HTML et de le manipuler facilement. Par exemple de supprimer toutes les balises <font>, ou de renommer les balises <td width="25"> en <data> (on peut garder les paramêtres).
Elle a pour l'instant été développée pour produire un outil de nettoyage des fichiers HTML produits par WinFFTA2 : leur taille passe de 450ko à 15ko sans pertes de données.
Ca ne marche pas encore avec les classements affichant des duels/finales.
Le voila dans une première version; il suffit de décompresser le zip, de bien mettre le fichier HTML dans le même dossier que l'exécutable, de lancer ce dernier, de copier-coller un chemin complet dans la zone de saisie, et de laisser travailler (il parcourt les sous-répertoires). Il ne touche pas (encore) aux fichiers initiaux, mais créé un fichier préfixé "petit_" dans le même dossier.
Si le programme affiche au démarrage un message d'erreur à propos de qtint70.dll, télécharger le fichier qtintf.zip et décompressez le dans le dossier du programme.
La bibliothèque htmlmanip et l'outil pour WinFFTA2 sont placés sous licence GNU GPL, je demande simplement à être prévenu en cas d'utilisation fréquente, et si quelqu'un utilise ou reprend la bibliothèque, je serais interessé par une collaboration.
Voila un extrait de cet outil, en exemple de ce que peut faire la bibliothèque (Flux est une chaine contenant du HTML)
Arbo:=LectureFlux(Flux);
Arbo.TagSupprime('tr', True);
Arbo.TagSupprime('tbody', True);
Arbo.TagSupprime('table', True);
Arbo.TagSupprime('div', True);
Arbo.TagSupprime('img', True);
Arbo.TagSupprime('head', false);
Arbo.TagSupprime('body', true);
Arbo.TagRemplace('td', 'clt', False, 'width="25"');
Arbo.TagRemplace('td', 'nb10', False, 'width="18"');
Arbo.TagRemplace('td', 'data', False);
Arbo.TagRemplaceTexte(' ', '');
Arbo.TagRemplaceTexte(' ', '');
while Arbo[0].Contenu='' do Arbo.Supprime(0);
nettoyeurWinFFTA2 version 1.3
- N'a plus besoin de qtintf70.dll
Fichier(s)
- Code source Delphi, tests (version 1.1) - (htmlmanips.zip, 689.29ko)
- Executable version 1.4 - (nettoyeurwinffta2-14.zip, 231.26ko)
27/04/2007 - Cédric Girard