VectNolo Posté(e) le 12 août 2008 Partager Posté(e) le 12 août 2008 Bonjour ! Je ne savais pas trop où mettre mon petit sujet, si une autre section est plus peut-être plus appropriée, je vous invite à me le faire savoir =) J'aurai une question, sur un principe (peut-être qu'il n'est tout simplement pas possible). Imaginons que vous ayez des documents Word (ou pdf, si c'est mieux pour ce que je voudrais faire), et que vous voudriez aller y chercher des informations spécifiques sans avoir à les rentrer vous-même dans une base de données. Est-ce que cela est envisageable.. ? (Avant même de parler du comment trop précisement, je pourrais toujours aller embêter quelqu'un d'autre !) Merci beaucoup, Nolo. Lien vers le commentaire Partager sur d’autres sites More sharing options...
Mephisto Posté(e) le 12 août 2008 Partager Posté(e) le 12 août 2008 theoriquement, oui Lien vers le commentaire Partager sur d’autres sites More sharing options...
VectNolo Posté(e) le 12 août 2008 Auteur Partager Posté(e) le 12 août 2008 Argh, l'avatar ! Une piste, peut-être.. ? J'avais aussi songé à des outils pouvant peut-être recherché des chaînes de caractères dans ce genre de fichiers (mais assez efficacement). En tout cas, merci pour ta réponse ! Lien vers le commentaire Partager sur d’autres sites More sharing options...
Mephisto Posté(e) le 12 août 2008 Partager Posté(e) le 12 août 2008 C'etait sans doute un peu trop laconique. Pour ce qui est des pdf, le fichier etant (grossierement) une suite d'images, recuperer des informations semble plutot prise de tete (pas impossible, mais a coder, ca doit etre folklo). Mais en ce qui concerne les .doc, plus c'est envisageable (OpenOffice arrive bien a les lire, il doit bien avoir un bout de code qui traine). Mais dans l'ideal, on pourrait les enregistrer sous forme de page web (word fait ca, meme si le code genere est une insulte au W3C...), le traitement serait beaucoup plus simple. Lien vers le commentaire Partager sur d’autres sites More sharing options...
VectNolo Posté(e) le 13 août 2008 Auteur Partager Posté(e) le 13 août 2008 Merci! Oui à l'origine je m'étais dit aussi que les images d'un pdf c'était pas super adapté. Par contre j'avais pas du tout pensé à passer les doc en html ! En revanche, j'ai toujours aucune idée de par quoi/où passer.. techniquement, je veux dire. Lien vers le commentaire Partager sur d’autres sites More sharing options...
nemesis93_75 Posté(e) le 13 août 2008 Partager Posté(e) le 13 août 2008 utilise la recherche avec expression régulière (regex).... enfin si j'ai bien compris ce que tu veux ce que tu veux mettre dans ta BDD, y a-t-il un lien entre chaques données? Lien vers le commentaire Partager sur d’autres sites More sharing options...
VectNolo Posté(e) le 13 août 2008 Auteur Partager Posté(e) le 13 août 2008 Wow, sympa les expressions régulières (vais regarder ça de plus près). Voui il y des liens entres les données, en fait il s'agit de documents plus ou moins similaires mais se comptant par centaines (voire par milliers). Quelques données de chaque document doit être retranscrit dans une base de données (toujours les mêmes, sur chaque document), et pour ça, il serait plus simple d'avoir un ptit truc qui automatise le truc. Mici! Lien vers le commentaire Partager sur d’autres sites More sharing options...
Mephisto Posté(e) le 13 août 2008 Partager Posté(e) le 13 août 2008 en gros, il faudrait tagger les tableaux que tu veux recuperer avec un name='bdd' dans le <table>, ou un truc du genre au passage, tu pourra toujours en profiter pour passer un nom de table, de base, ... toujours au meme endroit enfin, comme l'a dit nemesis (brievement), apres, c'est du travail sur les regexpr, tu vas localiser les tables a extraire, trouver comment les inserer, et traiter le contenu. l'algo de traitement dependra beaucoup de la source, mais pour un truc pareil, plus tu pourra rajouter d'infos dans le fichier origine, plus facile ce sera. edit: par contre, s'il y a des milliers de trucs a tagger, ca risque d'etre long :\ Lien vers le commentaire Partager sur d’autres sites More sharing options...
Messages recommandés
Archivé
Ce sujet est désormais archivé et ne peut plus recevoir de nouvelles réponses.