Bonjour
Ce petit tuto vous montre comment récupérer son blog "en local" (c'est à dire sur son disque dur) pour pouvoir ensuite le balancer sur un ftp, par exemple. C'est aussi assez utile si, comme moi, vous avez posté d'un peu n'importe où et que vous souhaitez récupérer toutes vos images. La méthode présentée ici permet de récuperer :
- le design général du blog
- une page "style CSS" bien utile pour modifier le blog ensuite
- les posts (incluant bien-sûr les images, les éventuels "thumbnails")
- les commentaires
- La navigation pour le visiteur se fait comme "en ligne".
Elle ne permet pas (pour l'instant) :
- d'ajouter des "commentaires" sur la version disque dur
Je précise qu'il s'agit d'une récupération de blog type "miroir". Cette méthode ne sert pas à récuperer ses posts pour passer d'un hébergeur spécialisé en blog à un autre (canalblog à overblog par exemple). Le seul intérêt de l'utiliser dans ce cas là est pour récupérer les images.
Moino m'a signalé que si on souhaite migrer un blog vers Dotclear, il existe des plugin qui font la conversion. Après quelques recherches, j'ai trouvé les plugin "import blogs B2", "Ublog" et "Movable Type". Si votre objectif dans l'import/export est de passer sur dotclear, jetez un oeil à ces plugins, on ne sait jamais !Enfin, nous allons essayer de générer un code html "propre", ce qui ne veut pas forcément dire "optimisé". Le tuto est réalisé à partir de mon blog (sur canalblog - 900 posts environ). A titre indicatif, la récupération du site dure environ 1h30 et génère à peu près 3000 fichiers (150 Mo) dont 1000 fichiers html environ. Si certains gribouillelandeurs veulent apporter des précisions pour un autre hébergeur, ils sont les bienvenus.
Ce tuto est en "bêta" pour l'instant, vous le suivez à vos risques et périls !
ETAPE 1 : Aspirer le blogNous allons "aspirer" le blog sur disque dur, en utilisant un petit logiciel libre et gratuit : Winhttrack (Google est ton ami).
C'est tout bête
![TUTO - Récupérer son blog (bêta) Tuto](https://2img.net/h/bubbledog.free.fr/tuto/tuto.jpg)
Cliquez sur suivant
![TUTO - Récupérer son blog (bêta) Tuto0](https://2img.net/h/bubbledog.free.fr/tuto/tuto0.jpg)
Choisir le nom du projet, le chemin dans lequel il sera sauvegardé
![TUTO - Récupérer son blog (bêta) Tuto01](https://2img.net/h/bubbledog.free.fr/tuto/tuto01.jpg)
Entrer l'adresse du blog et choisir "définir les options"
![TUTO - Récupérer son blog (bêta) Tuto02](https://2img.net/h/bubbledog.free.fr/tuto/tuto02.jpg)
Je conseille de ne toucher qu'aux options "filtres", httrack etant assez malin pour le reste. Vous pouvez éventuellement modifier le "contrôle de flux" si vous souhaitez changer le nombre de connexions simultanées, mais httrack prônant le principe de "connexion respectueuse", c'est déconseillé. Aspirer un site web n'est pas anodin. Aussi, meme si l'opération est longue, il est conseillé de rester dans le coin pour jeter un coup d'oeil de temps en temps à son écran, afin de s'assurer qu'on n'aspire pas tout le web ! Si vraiment vous ne pouvez pas rester à coté, je suggère de fixer une limitation en "taille" d'aspirage (onglet "limites"), par exemple 300Mo. Ainsi, meme si l'aspirateur se perd de lien en lien, vous ne remplirez pas votre disque dur.
Vous voyez dans ma fenetre les "filtres" que j'ai utilisé. Certains sont déjà présents par défaut. Je conseille d'aspirer le css, le js... de signaler explicitement aussi qu'on souhaite aspirer le gif et jpg. J'ai signalé par "-*.EXE" que je ne voulais aspirer aucun exécutable. Lors d'une première aspiration (l'aspiration est souvent empirique) j'ai remarqué que l'aspirateur avait des soucis avec Imageshak, sur lequel un de mes commentateurs avait mis un lien. J'ai donc précisé que je ne souhaitais rien aspirer de ce site.
A moins d'avoir un blog très simple (ou aucun commentaire avec des liens sur l'extérieur), la première tentative ne sera pas la bonne ! Mais courage ! Pour moi, c'est la seconde qui fut "parfaite".
Ne vous inquietez pas si vous voyez un nombre impressionnant de lien : l'aspirateur reconstitue toutes les pages, récupère les images éventuellement publiées ailleurs (moi, j'héberge ma bannière sur free par exemple)... Comme je le disais en intro, pour 900 posts, j'ai récupéré environ 3000 fichiers.
Etape 2: On vérifieOn clique sur "index.html", sur le disque dur, et on se ballade un peu sur le blog pour vérifier que tout va bien. Horreur ! On s'apercoit qu'on a aussi récupéré les PUBS de Canalblog, et que deux ou trois trucs pourraient être améliorés... Vous remarquerez sur l'avant dernière capture d'écran, colonne de gauche, que plein de "sites" ont été créés. Ne vous inquietez pas, c'est normal : De mon blog, il y a des images hébergées, par exemple sur bubbledog.free.fr, sur membres.lycos.fr etc... il s'agit de bannières ou d'images postées en "commentaires"...
Pas de panique ! On va faire du ménage. Mais avant, on fait une copie, hein, histoire de pas travailler directement sur le site récupéré...
Etape 3: Le grand ménage1- Supprimer les pubsLa première chose à faire est de supprimer les pubs. Problême : j'ai récupéré 1000 fichiers html et je n'ai pas envie de tout faire à la main. Solution : il existe un petit logiciel, Remplacevite, qui se trouve ici
http://www.codeodis.com/divers/developpement-de-logiciels.aspqui est gratuit et qui fera ca très bien.
(nb: j'ai essayé des softs type searchandreplace ou findreplace... ils n'ont pas réussi car le code à remplacer contient des caractères bizarres, ce qui ne gêne pas "remplacevite).
Il y a plusieurs manières de supprimer une pub dans une page web. La plus simple (et surtout la plus "industrialisable",vu le nombre de pages) consiste à supprimer le petit code-script du HTML de la page.
Pour repérer ce code, ouvrez n'importe laquelle des pages HTML avec le bloc-note et essayez de repérer l'adresse qui renvoie la pub. Sur Canalblog, il s'agit de ads.canalblog... Sélectionnez le code autour de cette adresse. Sur canalblog, il faut sélectionner
- Citation :
- <!--
if (!document.phpAds_used) document.phpAds_used = ',';
phpAds_random = new String (Math.random()); phpAds_random = phpAds_random.substring(2,11);
document.write ("<" + "script language='JavaScript' type='text/javascript' src='");
document.write ("http://ads.canalblog.com/adjs.php?n=" + phpAds_random);
document.write ("&what=zone:65");
document.write ("&exclude=" + document.phpAds_used);
if (document.referer)
document.write ("&referer=" + escape(document.referer));
document.write ("'><" + "/script>");
//-->
Démarrez "Remplacevite" et utilisez l'onglet "Dans le contenu des fichiers"
![TUTO - Récupérer son blog (bêta) Tuto2](https://2img.net/h/bubbledog.free.fr/tuto/tuto2.jpg)
Copiez collez le code à supprimer dans la fenetre du haut. cochez "inclure les sous dossiers, respecter la casse" et "mots entiers uniquement". faites gaffe, hein, c'est du code ! On travaille que sur des COPIES !
Choisissez en dessous le "dossier racine" (celui ou vous avez copié votre site) et le type de fichiers. Sur Canalblog, il s'agit de *.html . Sur d'autres hébergeurs, il peut s'agir de *.htm - je déconseille d'utiliser le *.* (il faut mieux faire plusieurs étapes en sachant ce qu'on fait que de tirer au bazooka sur votre site). Vous pouvez laisser la fenêtre "remplacer" vide (si vous souhaitez simplement supprimer la pub) ou mettre du code à vous : par exemple de la pub qui VOUS rapporte, ou une bannière, ou du n'importe quoi.
Cliquez sur "Rechercher / rafraichir", Remplacevite listera les fichiers concernés. Puis "appliquer le remplacement". En cas d'erreur, vous pourrez toujours annuler (ce qui est bien pratique). Attention , vos corrections ne seront définitive que quand vous aurez cliqué sur "QUITTER". Ne quittez pas l'application "sauvagement".
ETAT DU BLOG APRES CETTE ETAPEVoilà, j'en suis là. J'ai donc sur disque-dur mon blog, sans pub. On peut naviguer dedans comme si on était en ligne. On voit les coms etc...
A améliorer (je le ferai d'ici peu et continuerai alors ce tuto) : On voit toujours sur les pages la possibilité de poster des commentaires. Hors, si on rempli les champs et qu'on clique sur "'Publier", il ne se passe rien. Il n'y a pas d'erreur, mais la page est rechargée sans le commentaire que l'on vient d'entrer (ce qui est logique car aucun script n'est relié aux pages). Ce que je me propose donc, c'est de remplacer ce formulaire par une phrase du type "Les commentaires sont fermés pour ce billet", dans un premier temps. On ne peut pas utiliser la méthode utilisée pour les pubs car le code change à chaque fois. Une solution serait peut etre de fermer les commentaires AVANT de faire l'extraction web (et de les réouvrir après) mais bon, on devrait pouvoir trouver mieux
![Smile](https://2img.net/i/fa/i/smiles/icon_smile.gif)
Suite du tuto à une date indéterminée !