Aller au contenu

[LOGICIEL] Indexation et recherche de documents en réseau


Messages recommandés

Salut tout le monde :transpi:

Je souhaite reprendre de manière un peu plus approfondie mon problème lié à l'indexation plein texte de documents sur un serveur, puis la recherche dans cette indexe à partir des différents postes connectés sur le réseau.

J'avais déjà créé un topic ici http://www.pcinpact.com/forum/index.php?showtopic=126678 à propos de Seekafile.

Le logiciel bien qu'intéressant avait parfois quelques problèmes, notamment l'indexation au petit bonheur la chance des documents avec le ifilter pdf 5, (vérifiez, si vous avez des problèmes, sur ce site les manipulations du registre à faire pour être certain que l'ifilter5pdf est bien pris en compte par windows xp dans son service d'indexation : http://ifilter.org/links_pdf.htm , mais chez moi le résultat restait aléatoire), à l'inverse l'indexation des rtf (peut-être d'autres documents) ne se fait plus si on utilise l'ifilter pdf 6. L'explication est peut-être que, comme la version 6 peut indexer les rtf (et doc), ce dernier semble désactiver l'ifilter pour rtf.

Dans tous les cas, il y avait donc un problème, choisir d'utiliser que des pdf ou que des rtf. Dommage, car incontestablement la charge cpu et l'utilisation mémoire étaient, comme on va le voir rapidement, les plus faibles de toutes les autres alternatives que j'ai trouvé au final.

C'est donc le but de ce topic, tenter de regrouper les principales solutions gratuites et si possibles libres que j'ai testé. Ne pas prendre ce « retour » pour un test exhaustif de toutes les solutions, mais seulement celles qui ont bien voulues fonctionner et qui m'ont donner un minimum de retours satisfaisants à l'occasion des requêtes de recherches. Ajoutons que malgré une « googelisation » profonde à la recherche des logiciels d'indexation utilisables sur réseau local, beaucoup ont pu m'échapper (fallait mieux s'indexer les mecs, et avec très mauvais jeu de mot :ouioui: ).

Enfin, notez que, au final je n'ai sélectionné que des solutions qui fonctionnent aussi bien sous linux que sous windows, vous verrez que c'est en réalité très logique.

- Présentation des éléments ayant servi pour les essais :

. Un répertoire contenant un peu plus de 800 fichiers aux formats rtf, pdf, doc, html et txt. Sauf pour les txt (très courts), chaque document fait entre 3 et 20 pages.

. Le matériel ayant servi : un celeron 600 mhz 768mo de ram (512+256) sur un DD IDE 8mo de cache, formaté en FAT 32, le tout sous windows xp sp2.

. L'ordi. est utilisé comme serveur, j'ai donc laissé les applications qui tournaient dessus, c.a.d : un openfire, un serveur FTP (filezilla), le partage de fichier activé (et utilisé), parfois un serveur teamspeak. Donc on peut le dire sans détour, je suis très en dessous de la grande majorité des spécifications matérielles recommandées, même monté petit slip. :chinois: l'UC est de base à 15% pour faire tout tourner, et 250 mo de ram sont pris lorsque toutes les appli. sont lancées.

J'ai retiré le serveur http que j'utilisais car les solutions retenues utilisent le port 8080 (on peut le modifier), et pour cause, elles sont toutes basées sur un serveur tomcat, elles embarquent donc cette fonction.

- Les solutions testées :

. alfresco dans sa version libre et gratuite « community ».

http://www.alfresco.com/

photos: http://www.alfresco.com/products/ecm/screenshots/

. Quotero dans sa version 0.5. Libre et gratuit.

http://www.quotero.com/index.php?lang=fr

photos: http://www.quotero.com/products/38.html

. Apache Lucene : là encore libre et gratuit. (Lucene est souvent utilisée pour la fonction d'indexation dans les autres solutions).

http://lucene.apache.org/java/docs/index.html

. aduna version autofocus server. Gratuit pour un usage non pro. si j'ai bien lu.

http://www.aduna-software.com/products/aut...r/overview.view

. OmniFind : fruit de la collaboration d'IBM et Yahoo. Non libre mais gratuit, et si j'ai bien compris, utilisable en entreprise.

http://omnifind.ibm.yahoo.net/

animation flash: http://demos.dfw.ibm.com/on_demand/Streame...on-2-Dec06.html

- Mise en place - installation :

Toutes utilisent un serveur tomcat ou dérivés, et le java. Pensez donc à installer le JDK Java, le 1.5 fonctionne avec toutes les solutions citées, alors que, si j'ai bonne mémoire, certaines n'aiment pas la 1.6. Perso. c'est l'archive jdk-1_5_0_15-windows-i586-p.exe que j'ai installé.

Après avoir installé l'archive, précisez, car cela peut éviter des erreurs de compilation, les variables du JAVA_HOME et le path vers le répertoire « lib » du jdk (un peu de google, ça se fait en 30 secondes). De même, en cas d'erreur de compilation, précisez la variable CLASSPATH en la faisant pointer vers le(s) répertoire(s) « lib » contenu dans les archives.

Regardez aussi les fichiers readme dans les archives pour les conseils d'installation, à ce propos, si l'installation de fait via un .bat, éditez le pour vérifier s'il ne faut pas spécifier la valeur JAVA_HOME (même si normalement cela n'est plus nécessaire si vous l'avez spécifié dans windows), ou le chemin vers votre base mysql ou autre si vous décidez d'en utiliser une.

Certaines solutions citées viennent avec le serveur tomcat pré-configuré, c'est donc très pratique pour lancer rapidement l'application (enfin c'est relatif, un serveur tomcat ne se lance pas franchement rapidement, certain s'amusent même a faire des bench de temps de lancement) . C'est le cas de alfresco, Quotero, Apache Lucene dans son package servant à la démonstration, et OmniFind. Il faudra installer et paramétrer un serveur tomcat pour utiliser aduna. (Naturellement tous les softs cités, proposent aussi la possibilité de n'installer que l'appli. si vous avez déjà un tomcat fonctionnel).

- Une remarque à ce stade : j'ai mélangé des solutions dites GED et d'autres uniquement moteur d'indexation/recherche. Ce n'est pas vraiment volontaire, mais les solutions réseaux gratuites que j'ai trouvé et qui sont le plus souvent mises en avant sont des solutions GED. Donc on cumule beaucoup de fonctions en plus de l'indexation/recherche. Ainsi on peut éditer des documents, faire un travail collaboratif sur le document, avoir des procédures de validation des contenus, créer et administrer un site web dans son intégralité, faire le café, beurrer les biscottes... En cherchant sur google vous aurez rapidement la description des fonctions possibles, pour faire simple : alfresco pourra, je pense, rapidement via des pluguins, s'occuper de faire les courses, réparer la voiture, arroser les fleurs..., et le pire, cela sera bien fait. A contrario, aduna ou OmniFind font juste indexation/recherche de documents et là encore plutôt bien.

Une note en revanche plus déplaisante, voire extrêmement pénible surtout lorsque cela fait plusieurs jours que l'on cherche une solution objectivement décrite pour l'adopter : STOP LE PUBLIPOSTAGE !!!, en plus d'être souvent des plus ridicules, ces publicités déguisées (dans des blogs, sites web) retournent toutes les mêmes informations et, personnellement, m'ont souvent donné une mauvaise image des logiciels, il fallait vraiment que je sois motivé pour aller plus loin. C'est aussi un peu le but de ce topic, avoir un simple retour d'expérience qui peut aider à choisir sa solution, sans avoir a tester.

- Le bilan :

. Sans surprise alfresco est le système le plus complet et logiquement le plus lourd surtout sur ma modeste configuration. On peut non seulement indexer et rechercher des documents par de multiples critères, (avec des résultats très pertinents), mais aussi les convertir, les éditer, les intégrer à d'autres, les partager entre comptes. L'interface est très belle, et du coté client on a beaucoup de solutions : l'accès par le navigateur, un serveur FTP, des applications clientes indépendantes. En revanche, si comme moi, c'est surtout la fonction indexation/recherche qui vous intéresse, ce n'est pas forcement la meilleure solution, tout d'abord et bien que l'interface soit personnalisable facilement, ce n'est pas la fonction la plus mise en avant, le but du soft étant d'abord le travail collaboratif de plusieurs documents et projets, et c'est à cette fin qu'est prévue la fonction recherche. Ensuite, la création de « collection » de documents demande un certain temps d'apprentissage. Enfin, pour finalement n'utiliser que la fonction recherche comme dans mon cas, j'avais le sentiment d'utiliser un bazooka pour atomiser une mouche.

En revanche je veux bien croire qu'en entreprise cela soit une solution utile notamment lorsqu'il faut gérer un projet à plusieurs sur beaucoup de document. A noter tout de même que les fonctions avancées demandent vraiment de creuser la documentation (heureusement très complète) et lire le forum pour s'y retrouver.

. Quotero : le logiciel est encore en développement et joue dans la catégorie d'alfresco. Il n'a pas en revanche toutes les fonctionnalités de ce dernier à ce stade de développement. Cependant le principe reste le même. Et donc tout comme son grand frère, il a les défauts de ses qualités. Il faut noter que contrairement à alfresco, qui peut être utilisé soit avec sa propre base de données, soit avec les bases les plus courantes, quotero nécessite l'installation d'une base mysql ou postgre (attention, cette dernière ne peut pas être utilisée sur un disque en FAT32 au moins depuis les versions 8 ), heureusement le paramétrage est très simple.

Un regret, l'archive que j'ai testé, la 0.5, n'a pas voulu indexer à la première installation. En supprimant le répertoire quotero_index l'indexation a fonctionné. Autre élément, et c'est lié directement au stade de développement du logiciel, la documentation n'existe (très brève) que pour l'installation, aussi je suis un peu (même totalement) resté comme un c** devant les options proposées, et je n'ai pas vu comment créer des règles pour affiner la recherche, de même certains sites parlent de la possibilité d'utiliser un glisser déposer pour ajouter des documents, si la fonction est présente elle est alors bien cachée. En espérant comme l'annonce le site que la documentation arrive, car le logiciel a l'air très sympa.

. Apache Lucene : étonnamment, et alors que l'api lucene semble utilisée par tous ses « concurrents », c'est avec cette solution que j'ai eu le plus de mal à comprendre ce que je faisais, il faut dire que c'était le dernier que j'ai testé et je commençais à fatiguer (pour pas dire autre chose .). Je n'ai testé que l'archive de démo. Le but du logiciel n'est pas, là encore, l'indexation, mais la gestion complète d'un site : de son administration, à la personne rédigeant un article, en passant par le chef de rédaction. La fonction indexation est donc mise en place dans ce but, offrir un moteur de recherche pour le site et donc des fichiers qui y sont présents. Enfin, si j'ai réussi à intégrer mon répertoire de document dans le site (via la section upload, ou encore en plaçant directement les fichiers dans le répertoire prévu à cette fin), je n'ai pas réussi à le faire indexer pour qu'il soit pris en compte dans le moteur de recherche. J'ai arrêté là mon essai, car il m'a semblé manifeste que la fonction indexation/recherche était là d'abord pour gérer l'indexation du site lui-même, plutôt qu'un répertoire important de documents. Mais je peux me tromper. Point intéressant, la documentation est importante sur le site.

. aduna server :

On entre dans les logiciels qui s'occupent que de l'indexation et la recherche. Du coté client on peut accéder par le navigateur à l'interface de recherche, ou par un logiciel indépendant offrant des options permettant de faire des recherches sur des critères très fins. Les résultats étaient très bons, notamment en raison des options d'affinement. Naturellement, le fait de ne pas faire 36 fonctions permet à la solution coté serveur de peser mois lourd, notamment en ram. Les seuls défaut étant que je n'ai pas su voir si une solution cliente indépendante existait pour linux, mon gestionnaire de packet ne proposait rien, et je n'ai pas vu de quoi rapatrier des packets sur le site. Autre petit regret, tout est en anglais notamment la documentation, très complète par ailleurs. En revanche, si je n'avais pas trouvé la solution OmniFind je pense que j'aurais adopté aduna.

. OmniFind : bon j'ai lâché le morceau dans le paragraphe précédent, mais c'est clairement ma solution préférée. Le principe est simple, coté serveur, après la création du compte administrateur, on tombe sur deux options de gestion : la gestion du système (comprendre, l'apparence) et la gestion des collections (comprendre, les différentes sources de document).

Coté collection il suffit de créer un nom de collection (le thème relatif à vos documents par exemple) et d'indiquer les sources de documents qui vont l'alimenter : on peut soit ajouter chaque fichier un à un, soit un ou des répertoires, ou enfin un ou des sites, et cumuler ces sources. Les critères d'indexation sont très simplement personnalisables.Coté système on peut tout personnaliser avec une facilité déconcertante, un aperçu des changements est même proposer. Le tout en français documentations incluses. Bref le bonheur.

Coté client on accède par le navigateur à l'interface de recherche, la collaboration avec yahoo est patente, et le fonctionnement s'approche des moteurs de recherche web que nous utilisons tous. En conséquence il faut savoir jouer des *, « », - et des restrictions de domaines si une recherche retourne trop de documents non pertinents. Mais c'est très efficace, rapide et accessible à toute personne ayant déjà utilisé un moteur de recherche sur le web. Cerise sur le gâteau, outre le fait que le moteur s'affiche en français aussi coté client, on peut très facilement intégrer le moteur dans son site web, et « pré » préciser la collection à utiliser pour la recherche. Enfin, les ressources monopolisées sont très raisonnables (un total de 100mo au lancement, ce qui n'est vraiment pas grand-chose pour ce type de solution). (le logiciel ne nécessite aucun paramétrage et s'installe tout seul comme un grand :mdr: ).

- D'autres solutions intéressantes ?

Il y en a probablement bien d'autres, et je suis preneur d'info. en ce sens, donc n'hésitez pas a en signaler. Mais merci de respecter le critère de gratuité au moins pour un usage personnel, et d'accessibilité, au moins pour les fonctions de base, que cela soit pour l'installation/administration, ou le coté facilité de recherche.

Lien vers le commentaire
Partager sur d’autres sites

Archivé

Ce sujet est désormais archivé et ne peut plus recevoir de nouvelles réponses.

×
×
  • Créer...