crocodudule Posté(e) le 26 avril 2008 Partager Posté(e) le 26 avril 2008 Voir le 2° message pour une solution. EDIT-BIS: j'ai "testé" d'autres solutions plus intéressantes ici: http://www.pcinpact.com/forum/index.php?showtopic=126897 __________________________________ Salut, Toujours dans ma quête du logiciel impossible, aujourd'hui je cherche un moteur d'indexation et de recherche plein texte, et là les choses se compliquent: - il doit être gratuit en raison de ma fortune personnelle. (et collective en fait ). - tourner sous windows, et oui le serveur en question est sous windows xp sp2 pour des raisons pas très logiques mais indépendantes de ma volonté. - indexer plein texte les txt html pdf doc et rtf. - permettre un accès à la recherche par le réseau, idéalement par page web (y a que le html de dispo. sur ce serveur), mais si le soft intègre une partie cliente ca ira aussi. Alors j'ai fait quelques recherches, j'ai bien trouver alfresco mais la bête nécessite apache tomcat (et mysql), certes l'archive intègre le tout, mais va nécessairement dézinguer le serveur html actuel donc il est de coté pour le moment car j'ai hélas peu de temps pour reparamétrer le site actuellement installé. Il y a aussi freedom une solution vitrualbox + freedom peut être envisagée, mais je suis pas fan de la virtualisation pour un serveur permanent. (mais je pense tester cette solution si je ne trouve pas plus leger). Seulement voila, j'ai un peu l'impression d'utiliser un bazooka pour une fonction que j'espérais plus légère. En fait un copernic destock mais "network" serait l'idéal, puisque la fonction gestion des scans et publication ne sont pas nécessaires. Mais je n'ai pas trouver un soft de ce type, du moins gratuit. Donc si vous avez une piste... ps: le bidule va permettre de mettre en commun une somme importante de documents (doc, html, pdf, rtf) entre moi et quelques amis eux aussi en thèse ( nous sommes en vpn), et une fonction recherche plein texte est devenue indispensable tellement..... ben c'est le bordel ! ps-bis: actuellement j'ai bricolé un script javascript faisant office de moteur de recherche par tag, l'utilisateur précisant les tag à l'ajout du document sur le serveur mais c'est pas très performant, ou du moins très lié à la pertinence des tags saisis par l'utilisateur, et surtout vraiment pas rentable en raison de la masse de documents. Lien vers le commentaire Partager sur d’autres sites More sharing options...
crocodudule Posté(e) le 27 avril 2008 Auteur Partager Posté(e) le 27 avril 2008 J'ai trouvé une solution acceptable, sans être parfaite, je pense que certains seront intéressés donc je l'expose ici. J'aurais aussi une petite question aux personnes connaissant l'ASP. Tout d'abord, sachez hélas que le soft n'est plus développé depuis fin 2007, mais il est parfaitement fonctionnel. Je vous expose "la solution". 1- Préparation des documents: On va admettre que vous avez plusieurs documents relatifs au même sujet, dans les formats txt, pdf, doc, rtf, html (d'autres extensions peuvent être gérées comme l'XLS, PPT, XML via l'ajout de filtres). Si ces fichiers sont dans des répertoires différents placez les répertoires dans un répertoire commun pour qu'ils partagent la même racine. Il est plus pratique de gérer les thèmes ainsi, et surtout cela aura de l'intérêt si le chemin vers les documents n'est pas le même entre le serveur et les clients. Dans ce cas, par exemple, partagez le répertoire racine de la documentation, montez ce répertoire en lecteur réseau (le Z: par exemple) et donnez comme chemin du répertoire a indexer Z: . Sur les postes clients, montez la documentation là encore comme lecteur réseau Z:. Ainsi le chemin vers les fichiers est le même pour tout le monde. (peut-être que le serveur peut prendre une adresse URL ou FTP, je n'ai pas testé, cela peut dans ce cas éviter le petit montage du lecteur réseau). 2- Installation du serveur Seekafile - (lucene .net): téléchargez Seekafile.Server-1.5-beta-3.exe ici: http://sourceforge.net/project/showfiles.p...id=143466/help/ Lancez l'installation et suivre les instructions. ( y a pas grand chose à faire...). Vous pouvez aussi récupérer l'aide dans l'archive www.seekafile.org.20070424.zip (même lien). Il vous faut au minimum le Framework net 2, si c'est pas le cas l'installer: http://www.clubic.com/telecharger-fiche128...-framework.html 3- Configuration du serveur: Elle est relativement simple puisqu'un GUI permet d'accèder aux réglages. . Ajout des plugins supplémentaires: Toujours sur le lien vu plus haut téléchargez l'archive SeekafileServer.Plugin.cs-1.0.zip et placez les dll dans le répertoire plugin où est installé le serveur seekafile. . Ajout de l'indexation de certaines extensions: Je ne suis pas 100% certain que cela soit nécessaire car j'avais déjà ces filtres installés, mais en regardant la doc il me semble que oui pour que soit correctement indexé les rtf et pdf. Téléchargez et installez, si vous avez un acrobat reader plus ancien que le 7, l'ifilter pour les pdf http://www.adobe.com/support/downloads/detail.jsp?ftpID=1276 De même pour le rtf, (attention plus difficile à trouver, mais je me demande si Vista en a vraiment besoin...): http://www.microsoft.com/china/sharepoint/...RTF_Filter.mspx (et oui je ne l'ai retrouvé que sur microsoft china, suivre les instructions dans le fichier readme). . Définir l'index: Avant de lancer le service d'indexation on va définir le nom (et le chemin) du fichier d'indexation (une sorte de base d'indexation). Le fichier devra être accessible au poste client. Lancez Seekafile.Manager.exe, sélectionnez "Indices", clic droit "create index", là donnez un nom à l"index, par exemple le sujet en rapport avec les documents. Sélectionnez ensuite le nom de l'index->clic droit propriétés; là donner le chemin vers le répertoire racine à indexer (là où il y a les documents). (C'est là que vous devez indiquer le lecteur réseau comme chemin, si c'est nécessaire). . Lancer l'indexation: Faire un clic droit sur "Server" dans l'interface du manager, là "install service", et "start service" si c'est pas déjà le cas. Pour suivre le bon déroulement de l'opération, faire un clic droit sur "Server" puis "Run in debug mode". Normalement tout est ok. (pas de "FAIL" dans la console de débuggage). 4- Configuration du client: (Il peut s'agir du même poste que le serveur). Téléchargez toujours sur le même lien vu plus haut, Seekafile.Desktop-1.0.1-src.zip dans l'archive, allez dans le répertoire Seekafile.Desktop->bin->Release et lancez Seekafile.Desktop.exe (un peu lent au premier lancement). Allez dans "File"->"Configuration". - Dans le cadre "Startup index" : donnez le lien vers l'indexe par défaut, ici le nom de l'indexe que nous avons créé au début. Naturellement, comme je l'ai indiqué plus haut, il faut donc que ce fichier soit accessible au client, par exemple en partageant sur le réseau, ou a la limite en le téléchargeant (mais il faudra refaire cela à chaque nouvel élément indexé, c'est donc peu pratique). - Dans le cadre "Directory shortcut": Si vous souhaitez que le chemin vers les fichiers retournés à la recherche sot court, vous pouvez indiquez le nom racine de la documentation. Par exemple sur le serveur le fichier 01.pdf est dans le répertoire Z:\doc1.pdf, alors indiquez Z:\doc\ dans le cadre, seul la recherche retournera ...01.pdf . Et voilà, à ce stade le système fonctionne (et même de manière très efficace). Pensez aux options pour affiner les recherches, ainsi qu'aux étoiles (*) car le moteur retourne des résultats précis. :) - Question aux connaisseurs de l'ASP (c'est vraiment pas mon cas): pour les clients on peut aussi passer par un navigateur web pour faire la recherche, la solution m'intéresse (notamment lorsque je suis sous linux), mais je ne comprend pas le paramétrage à faire avec le fichier Seekafile.Desktop.application, si jamais qlq'un veut y jeter un coup d'½il, c'est dans l'archive du fichier client. merci Lien vers le commentaire Partager sur d’autres sites More sharing options...
2C.LiryC Posté(e) le 27 avril 2008 Partager Posté(e) le 27 avril 2008 Lien vers le commentaire Partager sur d’autres sites More sharing options...
crocodudule Posté(e) le 27 avril 2008 Auteur Partager Posté(e) le 27 avril 2008 Avec un grand plaisir. Je pense me fendre d'un petit script qui compresse régulièrement l'indexe et la place sur le serveur FTP, car sans cela, mon indexe pour 300 documents fait 13m., et par le VPN c'est pas très pratique une telle taille (en revanche en uha elle ne fait plus que 3.5 nettement plus pratique). Je l'ajouterai à l'occasion. Lien vers le commentaire Partager sur d’autres sites More sharing options...
Messages recommandés
Archivé
Ce sujet est désormais archivé et ne peut plus recevoir de nouvelles réponses.