Jump to content

[Word/BDD] Interactions


Recommended Posts

Bonjour !

Je ne savais pas trop où mettre mon petit sujet, si une autre section est plus peut-être plus appropriée, je vous invite à me le faire savoir =)

J'aurai une question, sur un principe (peut-être qu'il n'est tout simplement pas possible).

Imaginons que vous ayez des documents Word (ou pdf, si c'est mieux pour ce que je voudrais faire), et que vous voudriez aller y chercher des informations spécifiques sans avoir à les rentrer vous-même dans une base de données.

Est-ce que cela est envisageable.. ? (Avant même de parler du comment trop précisement, je pourrais toujours aller embêter quelqu'un d'autre !)

Merci beaucoup,

Nolo.

Link to comment
Share on other sites

Argh, l'avatar ! :lock:

Une piste, peut-être.. ?

J'avais aussi songé à des outils pouvant peut-être recherché des chaînes de caractères dans ce genre de fichiers (mais assez efficacement).

En tout cas, merci pour ta réponse !

Link to comment
Share on other sites

C'etait sans doute un peu trop laconique.

Pour ce qui est des pdf, le fichier etant (grossierement) une suite d'images, recuperer des informations semble plutot prise de tete (pas impossible, mais a coder, ca doit etre folklo).

Mais en ce qui concerne les .doc, plus c'est envisageable (OpenOffice arrive bien a les lire, il doit bien avoir un bout de code qui traine).

Mais dans l'ideal, on pourrait les enregistrer sous forme de page web (word fait ca, meme si le code genere est une insulte au W3C...), le traitement serait beaucoup plus simple.

Link to comment
Share on other sites

Merci!

Oui à l'origine je m'étais dit aussi que les images d'un pdf c'était pas super adapté.

Par contre j'avais pas du tout pensé à passer les doc en html !

En revanche, j'ai toujours aucune idée de par quoi/où passer.. techniquement, je veux dire.

Link to comment
Share on other sites

Wow, sympa les expressions régulières (vais regarder ça de plus près).

Voui il y des liens entres les données, en fait il s'agit de documents plus ou moins similaires mais se comptant par centaines (voire par milliers). Quelques données de chaque document doit être retranscrit dans une base de données (toujours les mêmes, sur chaque document), et pour ça, il serait plus simple d'avoir un ptit truc qui automatise le truc.

Mici!

Link to comment
Share on other sites

en gros, il faudrait tagger les tableaux que tu veux recuperer avec un name='bdd' dans le <table>, ou un truc du genre

au passage, tu pourra toujours en profiter pour passer un nom de table, de base, ... toujours au meme endroit

enfin, comme l'a dit nemesis (brievement), apres, c'est du travail sur les regexpr, tu vas localiser les tables a extraire, trouver comment les inserer, et traiter le contenu.

l'algo de traitement dependra beaucoup de la source, mais pour un truc pareil, plus tu pourra rajouter d'infos dans le fichier origine, plus facile ce sera.

edit: par contre, s'il y a des milliers de trucs a tagger, ca risque d'etre long :\

Link to comment
Share on other sites

Archived

This topic is now archived and is closed to further replies.

×
×
  • Create New...