VectNolo Posted August 12, 2008 Share Posted August 12, 2008 Bonjour ! Je ne savais pas trop où mettre mon petit sujet, si une autre section est plus peut-être plus appropriée, je vous invite à me le faire savoir =) J'aurai une question, sur un principe (peut-être qu'il n'est tout simplement pas possible). Imaginons que vous ayez des documents Word (ou pdf, si c'est mieux pour ce que je voudrais faire), et que vous voudriez aller y chercher des informations spécifiques sans avoir à les rentrer vous-même dans une base de données. Est-ce que cela est envisageable.. ? (Avant même de parler du comment trop précisement, je pourrais toujours aller embêter quelqu'un d'autre !) Merci beaucoup, Nolo. Link to comment Share on other sites More sharing options...
Mephisto Posted August 12, 2008 Share Posted August 12, 2008 theoriquement, oui Link to comment Share on other sites More sharing options...
VectNolo Posted August 12, 2008 Author Share Posted August 12, 2008 Argh, l'avatar ! Une piste, peut-être.. ? J'avais aussi songé à des outils pouvant peut-être recherché des chaînes de caractères dans ce genre de fichiers (mais assez efficacement). En tout cas, merci pour ta réponse ! Link to comment Share on other sites More sharing options...
Mephisto Posted August 12, 2008 Share Posted August 12, 2008 C'etait sans doute un peu trop laconique. Pour ce qui est des pdf, le fichier etant (grossierement) une suite d'images, recuperer des informations semble plutot prise de tete (pas impossible, mais a coder, ca doit etre folklo). Mais en ce qui concerne les .doc, plus c'est envisageable (OpenOffice arrive bien a les lire, il doit bien avoir un bout de code qui traine). Mais dans l'ideal, on pourrait les enregistrer sous forme de page web (word fait ca, meme si le code genere est une insulte au W3C...), le traitement serait beaucoup plus simple. Link to comment Share on other sites More sharing options...
VectNolo Posted August 13, 2008 Author Share Posted August 13, 2008 Merci! Oui à l'origine je m'étais dit aussi que les images d'un pdf c'était pas super adapté. Par contre j'avais pas du tout pensé à passer les doc en html ! En revanche, j'ai toujours aucune idée de par quoi/où passer.. techniquement, je veux dire. Link to comment Share on other sites More sharing options...
nemesis93_75 Posted August 13, 2008 Share Posted August 13, 2008 utilise la recherche avec expression régulière (regex).... enfin si j'ai bien compris ce que tu veux ce que tu veux mettre dans ta BDD, y a-t-il un lien entre chaques données? Link to comment Share on other sites More sharing options...
VectNolo Posted August 13, 2008 Author Share Posted August 13, 2008 Wow, sympa les expressions régulières (vais regarder ça de plus près). Voui il y des liens entres les données, en fait il s'agit de documents plus ou moins similaires mais se comptant par centaines (voire par milliers). Quelques données de chaque document doit être retranscrit dans une base de données (toujours les mêmes, sur chaque document), et pour ça, il serait plus simple d'avoir un ptit truc qui automatise le truc. Mici! Link to comment Share on other sites More sharing options...
Mephisto Posted August 13, 2008 Share Posted August 13, 2008 en gros, il faudrait tagger les tableaux que tu veux recuperer avec un name='bdd' dans le <table>, ou un truc du genre au passage, tu pourra toujours en profiter pour passer un nom de table, de base, ... toujours au meme endroit enfin, comme l'a dit nemesis (brievement), apres, c'est du travail sur les regexpr, tu vas localiser les tables a extraire, trouver comment les inserer, et traiter le contenu. l'algo de traitement dependra beaucoup de la source, mais pour un truc pareil, plus tu pourra rajouter d'infos dans le fichier origine, plus facile ce sera. edit: par contre, s'il y a des milliers de trucs a tagger, ca risque d'etre long :\ Link to comment Share on other sites More sharing options...
Recommended Posts
Archived
This topic is now archived and is closed to further replies.