TUTO - Récupérer son blog (bêta)

Bonjour

Ce petit tuto vous montre comment récupérer son blog "en local" (c'est à dire sur son disque dur) pour pouvoir ensuite le balancer sur un ftp, par exemple. C'est aussi assez utile si, comme moi, vous avez posté d'un peu n'importe où et que vous souhaitez récupérer toutes vos images. La méthode présentée ici permet de récuperer :
- le design général du blog
- une page "style CSS" bien utile pour modifier le blog ensuite
- les posts (incluant bien-sûr les images, les éventuels "thumbnails")
- les commentaires
- La navigation pour le visiteur se fait comme "en ligne".

Elle ne permet pas (pour l'instant) :
- d'ajouter des "commentaires" sur la version disque dur

Je précise qu'il s'agit d'une récupération de blog type "miroir". Cette méthode ne sert pas à récuperer ses posts pour passer d'un hébergeur spécialisé en blog à un autre (canalblog à overblog par exemple). Le seul intérêt de l'utiliser dans ce cas là est pour récupérer les images.

Moino m'a signalé que si on souhaite migrer un blog vers Dotclear, il existe des plugin qui font la conversion. Après quelques recherches, j'ai trouvé les plugin "import blogs B2", "Ublog" et "Movable Type". Si votre objectif dans l'import/export est de passer sur dotclear, jetez un oeil à ces plugins, on ne sait jamais !

Enfin, nous allons essayer de générer un code html "propre", ce qui ne veut pas forcément dire "optimisé". Le tuto est réalisé à partir de mon blog (sur canalblog - 900 posts environ). A titre indicatif, la récupération du site dure environ 1h30 et génère à peu près 3000 fichiers (150 Mo) dont 1000 fichiers html environ. Si certains gribouillelandeurs veulent apporter des précisions pour un autre hébergeur, ils sont les bienvenus.

Ce tuto est en "bêta" pour l'instant, vous le suivez à vos risques et périls !

ETAPE 1 : Aspirer le blog

Nous allons "aspirer" le blog sur disque dur, en utilisant un petit logiciel libre et gratuit : Winhttrack (Google est ton ami).
C'est tout bête

TUTO - Récupérer son blog (bêta) Tuto

Cliquez sur suivant

TUTO - Récupérer son blog (bêta) Tuto0

Choisir le nom du projet, le chemin dans lequel il sera sauvegardé

TUTO - Récupérer son blog (bêta) Tuto01

Entrer l'adresse du blog et choisir "définir les options"

TUTO - Récupérer son blog (bêta) Tuto02

Je conseille de ne toucher qu'aux options "filtres", httrack etant assez malin pour le reste. Vous pouvez éventuellement modifier le "contrôle de flux" si vous souhaitez changer le nombre de connexions simultanées, mais httrack prônant le principe de "connexion respectueuse", c'est déconseillé. Aspirer un site web n'est pas anodin. Aussi, meme si l'opération est longue, il est conseillé de rester dans le coin pour jeter un coup d'oeil de temps en temps à son écran, afin de s'assurer qu'on n'aspire pas tout le web ! Si vraiment vous ne pouvez pas rester à coté, je suggère de fixer une limitation en "taille" d'aspirage (onglet "limites"), par exemple 300Mo. Ainsi, meme si l'aspirateur se perd de lien en lien, vous ne remplirez pas votre disque dur.
Vous voyez dans ma fenetre les "filtres" que j'ai utilisé. Certains sont déjà présents par défaut. Je conseille d'aspirer le css, le js... de signaler explicitement aussi qu'on souhaite aspirer le gif et jpg. J'ai signalé par "-*.EXE" que je ne voulais aspirer aucun exécutable. Lors d'une première aspiration (l'aspiration est souvent empirique) j'ai remarqué que l'aspirateur avait des soucis avec Imageshak, sur lequel un de mes commentateurs avait mis un lien. J'ai donc précisé que je ne souhaitais rien aspirer de ce site.

A moins d'avoir un blog très simple (ou aucun commentaire avec des liens sur l'extérieur), la première tentative ne sera pas la bonne ! Mais courage ! Pour moi, c'est la seconde qui fut "parfaite".

Ne vous inquietez pas si vous voyez un nombre impressionnant de lien : l'aspirateur reconstitue toutes les pages, récupère les images éventuellement publiées ailleurs (moi, j'héberge ma bannière sur free par exemple)... Comme je le disais en intro, pour 900 posts, j'ai récupéré environ 3000 fichiers.

Etape 2: On vérifie
On clique sur "index.html", sur le disque dur, et on se ballade un peu sur le blog pour vérifier que tout va bien. Horreur ! On s'apercoit qu'on a aussi récupéré les PUBS de Canalblog, et que deux ou trois trucs pourraient être améliorés... Vous remarquerez sur l'avant dernière capture d'écran, colonne de gauche, que plein de "sites" ont été créés. Ne vous inquietez pas, c'est normal : De mon blog, il y a des images hébergées, par exemple sur bubbledog.free.fr, sur membres.lycos.fr etc... il s'agit de bannières ou d'images postées en "commentaires"...
Pas de panique ! On va faire du ménage. Mais avant, on fait une copie, hein, histoire de pas travailler directement sur le site récupéré...

Etape 3: Le grand ménage

1- Supprimer les pubs
La première chose à faire est de supprimer les pubs. Problême : j'ai récupéré 1000 fichiers html et je n'ai pas envie de tout faire à la main. Solution : il existe un petit logiciel, Remplacevite, qui se trouve ici http://www.codeodis.com/divers/developpement-de-logiciels.asp
qui est gratuit et qui fera ca très bien.
(nb: j'ai essayé des softs type searchandreplace ou findreplace... ils n'ont pas réussi car le code à remplacer contient des caractères bizarres, ce qui ne gêne pas "remplacevite).

Il y a plusieurs manières de supprimer une pub dans une page web. La plus simple (et surtout la plus "industrialisable",vu le nombre de pages) consiste à supprimer le petit code-script du HTML de la page.

Pour repérer ce code, ouvrez n'importe laquelle des pages HTML avec le bloc-note et essayez de repérer l'adresse qui renvoie la pub. Sur Canalblog, il s'agit de ads.canalblog... Sélectionnez le code autour de cette adresse. Sur canalblog, il faut sélectionner

Citation ::

Démarrez "Remplacevite" et utilisez l'onglet "Dans le contenu des fichiers"
TUTO - Récupérer son blog (bêta) Tuto2

Copiez collez le code à supprimer dans la fenetre du haut. cochez "inclure les sous dossiers, respecter la casse" et "mots entiers uniquement". faites gaffe, hein, c'est du code ! On travaille que sur des COPIES !
Choisissez en dessous le "dossier racine" (celui ou vous avez copié votre site) et le type de fichiers. Sur Canalblog, il s'agit de *.html . Sur d'autres hébergeurs, il peut s'agir de *.htm - je déconseille d'utiliser le *.* (il faut mieux faire plusieurs étapes en sachant ce qu'on fait que de tirer au bazooka sur votre site). Vous pouvez laisser la fenêtre "remplacer" vide (si vous souhaitez simplement supprimer la pub) ou mettre du code à vous : par exemple de la pub qui VOUS rapporte, ou une bannière, ou du n'importe quoi.

Cliquez sur "Rechercher / rafraichir", Remplacevite listera les fichiers concernés. Puis "appliquer le remplacement". En cas d'erreur, vous pourrez toujours annuler (ce qui est bien pratique). Attention , vos corrections ne seront définitive que quand vous aurez cliqué sur "QUITTER". Ne quittez pas l'application "sauvagement".

ETAT DU BLOG APRES CETTE ETAPE
Voilà, j'en suis là. J'ai donc sur disque-dur mon blog, sans pub. On peut naviguer dedans comme si on était en ligne. On voit les coms etc...

A améliorer (je le ferai d'ici peu et continuerai alors ce tuto) : On voit toujours sur les pages la possibilité de poster des commentaires. Hors, si on rempli les champs et qu'on clique sur "'Publier", il ne se passe rien. Il n'y a pas d'erreur, mais la page est rechargée sans le commentaire que l'on vient d'entrer (ce qui est logique car aucun script n'est relié aux pages). Ce que je me propose donc, c'est de remplacer ce formulaire par une phrase du type "Les commentaires sont fermés pour ce billet", dans un premier temps. On ne peut pas utiliser la méthode utilisée pour les pubs car le code change à chaque fois. Une solution serait peut etre de fermer les commentaires AVANT de faire l'extraction web (et de les réouvrir après) mais bon, on devrait pouvoir trouver mieux Smile

Suite du tuto à une date indéterminée !

Marguerite était-elle toujours aussi douée ?? Wink

contente si ca peut servir ! Si vous avez l'expérience avec d'autres hébergeurs....

Mais c'est carrément génial !!! justement moi j'ai perdu des images (à cause de transferts et tout ) et elle se trouve sur mon ancien blog, je vais donc tenter de les récupérer avec ta méthode Marg ;-) Trop bien !!! cheers

Merci ! Je sais que je suis assez géniale !

attation je me permet de transférer ce message en catégorie "boites à crayon".

tu as bien fait ! J'ai hésité sur l'endroit où le poster ! Je pense qu'à terme, on devrait pouvoir faire une tite rubrique "tuto" sur le site, hein Moino ?

Nb : Avant que Riff ne me tape, promis, je "resize" les images dans la journée !

Invité

Samboyy a écrit:: Marguerite était-elle toujours aussi douée ??

Bien sûr ! c'est une vache Geek, ne l'oublions pas !!! Very Happy

Bon sinon, moi si jamais je passe de Dotclear 1 à Dotclear 2 sur mon compte free... je vous ferai un petit tuto expliquant comment j'ai fais Wink

Heuuu je sais pas si c'est trop exactement le thème ... mais j'aimerais récupérer toutes les images une à une d'une page html (en fait j'avais mis une image sur une page d'overblog) et j'ai du mal à les retrouver puis j'aimerais bien les réorganiser autrement ... vous avez une idée de comment faire ?

J'ai rien compris à ta question ! Smile

Toutes tes images sont sur la même page ?

oui exactement !!!

bin si t'as pas bcp d'images, le plus rapide est le clicdroit sur chaque image (uhuh) et si t'en a bcp, l'étape 1 de ma méthode "aspiration" peut te servir. Comme ca tu récupère tout, pi t'efface les fichiers HTML qui t'interessent pas !

Merci !!! je vais tenter comme ça Very Happy

Invité

Ça a l'air génial mais j'ai rien compris Shocked

Invité

C'est parce que t'es pas encore assez geek Wink

... ou informaticienne, tout simplement ! Smile

Invité

Si si, je suis assez geek crois moi Very Happy

Par contre informaticienne... lol!

» [TUTO] mettre une couleur personnalisée dans votre blog
» Une série de tuto sur Gimp ?
» [TUTO] in the naviiii!
» Un tuto pour flash?
» [TUTO] Ombres et lumières