seishiro Posté(e) le 27 avril 2004 Partager Posté(e) le 27 avril 2004 Salut Je dois développer un intranet jusque là tout va bien le probleme cette intranet doit contenir un outil d'indexation. Pour cela mes recherches mon menés vers Lucene uen branche du projet Jakarta. Le truc c'est que c'est assez confu Y a t il des gens ici qui l'on deja utilisé ? un retour sur expérience quand au traitement de document Word ? J'ai deja trouver un parser pour les doc Word ... Merci de votre aide Lien vers le commentaire Partager sur d’autres sites More sharing options...
Sentinel Posté(e) le 27 avril 2004 Partager Posté(e) le 27 avril 2004 En effet, j'avais jeté un oeil à Lucene, ça paraît puissant. Quel est ton problème exact ? Tu n'arrivse pas du tout à l'utiliser, ou c'est juste un point particulier qui te bloque ? Lien vers le commentaire Partager sur d’autres sites More sharing options...
seishiro Posté(e) le 27 avril 2004 Auteur Partager Posté(e) le 27 avril 2004 En faite je recherche un ou des retours sur expérience Car visiblement il y a un probleme quant à la gestion des caratères accentué donc pas de support du francais à mon de développer sont propre parsseur De plus vu que c'est une API toute la partie dev est à ta charge et le plus gros boulot n'est pas tant l'indexation ca c'est tres facile merci à eux mais c surtout les query et le traitement des résultats avec un estrait du texte etc ... et en cela j'aurai aimé avoir des exemples. Car j'ai pas beaucoup de temps pour faire cela et comme toujours dans les sociétés il fallait cette solution pour hier Lien vers le commentaire Partager sur d’autres sites More sharing options...
seishiro Posté(e) le 28 avril 2004 Auteur Partager Posté(e) le 28 avril 2004 Juste Pour tenir à jour mes avancés Donc pour faire le point j'ai Lucene avec la doc java donc c cool de plus l'archive contiens des exemples et ca c bien aussi l'auteur d'une classe de POI à fais un dev parallelle textmining pour la conversion des documents doc en plain text donc ca c cool aussi Pour la gestion du Français (vive les caractère accentués) vive le lucene sandbox y a les souces d'un analyser donc ca c bien par contre là c'est ANT qui me casse les cou es pour la compile po glop Mais bon une fois que j'aurai toute ces petites API a moi Eclipse et le dev trop top Qui a dis que le dev open source coutais moin cher Lien vers le commentaire Partager sur d’autres sites More sharing options...
Sentinel Posté(e) le 28 avril 2004 Partager Posté(e) le 28 avril 2004 Ah c'est bien si tu avances L'opensource a un coût d'apprentissage au même titre que les logiciels propriétaires, à la différence près que justement tu peux regarder le source pour mieux comprendre certains trucs, et que tu disposes généralement d'une super communauté, et très souvent également des conseils du développeur même de l'appli que tu utilises. L'avantage également, c'est qu'ensuite tu peux réutiliser ce savoir dans plein d'autres situations, sans avoir à forcer un client à acheter une licence donnée. Et puis il y a la philo, mais ça c'est une autre histoire Lien vers le commentaire Partager sur d’autres sites More sharing options...
seishiro Posté(e) le 28 avril 2004 Auteur Partager Posté(e) le 28 avril 2004 Je suis d'accord avec toi sur toute la ligne. Mais car y a toujours un mais a la base je ne suis pas développeur donc pendant que j'essaie de faire cela je ne suis pas à ma tache première et cela à un cout non négligeable ... De plus les documentations de ces produits sont pas top Lien vers le commentaire Partager sur d’autres sites More sharing options...
seishiro Posté(e) le 28 avril 2004 Auteur Partager Posté(e) le 28 avril 2004 Sinon dans le même style mais en plus simple avec plein plein plein de module OpenCMS semble pas mal il existe un module lucene mais toujours un probleme quant au .doc et à la gestion des caractères accentués. Sinon lodel qui est fais par des tits Frenchy et basé sur le moteur d'openoffice enfin bon ca avance ca avance En tout cas Sentinel merci de ton soutiens Lien vers le commentaire Partager sur d’autres sites More sharing options...
seishiro Posté(e) le 30 avril 2004 Auteur Partager Posté(e) le 30 avril 2004 Bon ze continue à faire vivre ce topic Lodel c'est fais par des petits francais donc là c génial tout les probleme de langue sont gérés la doc est clair que du bonheur enfin precque car pour la conversion de document word en plein texte il faut passé par un de leur serveur autant dire que c'est hors de question .... donc lodel bye bye OpenCMS tres simple d'utilisation bien documenté possède un module basé sur lucene ne gère pas le francais et ne fais que du plain texte. Donc pour résumé Autant tout faire soit à partir des API et autres class dispo sur le site de lucene Lien vers le commentaire Partager sur d’autres sites More sharing options...
Sentinel Posté(e) le 30 avril 2004 Partager Posté(e) le 30 avril 2004 Ah ça, tant que le 8859-1 et 8859-15 ne seront pas gérés, on aura toujours un petit problème avec les caractères latins (lettres accentuées, etc). Sinon pour nous tenir au courant de tes recherches, c'est très instructif Lien vers le commentaire Partager sur d’autres sites More sharing options...
seishiro Posté(e) le 4 mai 2004 Auteur Partager Posté(e) le 4 mai 2004 Hop me revoila toujours avec mes aventures Lucene en faite j'ai fais un peu le tour et ma conclusion Y a pas de solution magic ou toute faite Aussi il faut tout faire soit même la compilation des sources pour l 'analyzer de langue ce passe tres bien Attention toute fois à avoir la dernière version de ANT et de le paramétrer correctement. Sinon j'ai enfin eu une resource pour m'aider au niveau du dev WAOUUUUUH Je vous tiendrais au courant en même temps que le dev avance. Lien vers le commentaire Partager sur d’autres sites More sharing options...
seishiro Posté(e) le 13 mai 2004 Auteur Partager Posté(e) le 13 mai 2004 Bonjour dans la suite de la suite du retour de lucene et de Ant voici quelques info. Bon je suis toujours à me prendre la tete de temps en temps sur l'ananlyser de langue dans un coup de CVS dans lucene-Sandbox et j'ai récupéré les source. Donc là attention plusieur piège. Deja il faut ANT certaine distro de l'inux l'intègre deja aussi vérifier la version que il faut la dernière version. Mais il faut savoir que cette version est un peu bugé il manque un fichier visiblement mais ca marche quand même. Attention à bien ajouter les jar nécessaire parser xml et junit ceux contenu dans le répertoire lib ne sont pas suffisant. Autre point ne surtout pas utiliser le JDK1.4 sinon il vous faudra rajouter deux ou trois ligne de code par si par là. et si des problemes sont rencontrer à la compil au niveau des accents le plus simple tout passer sous Windows et là pas de probleme d'externalisation etc .... donc voilà j'ai enfin toutes mes petites briques logiciel ENFIN :8 Maintenant il ne reste plus qu'as tout intégrer dans un jar (lucene+lucene-sandbox+textemining) ca va etre simple. Par contre là ou ca va etre conton c'est de gérer les flux java pendant l'analyse La suite bientot. :8 Lien vers le commentaire Partager sur d’autres sites More sharing options...
lipao17 Posté(e) le 6 juillet 2004 Partager Posté(e) le 6 juillet 2004 Juste Pour tenir à jour mes avancés Donc pour faire le point j'ai Lucene avec la doc java donc c cool de plus l'archive contiens des exemples et ca c bien aussi l'auteur d'une classe de POI à fais un dev parallelle textmining pour la conversion des documents doc en plain text donc ca c cool aussi Pour la gestion du Français (vive les caractère accentués) vive le lucene sandbox y a les souces d'un analyser donc ca c bien par contre là c'est ANT qui me casse les cou es pour la compile po glop Mais bon une fois que j'aurai toute ces petites API a moi Eclipse et le dev trop top Qui a dis que le dev open source coutais moin cher tu l'as eu où la doc ?? c'est en français ??? Lien vers le commentaire Partager sur d’autres sites More sharing options...
Paladin_Fr Posté(e) le 9 août 2004 Partager Posté(e) le 9 août 2004 Juste pour savoir (vu que je développe sous lucene aussi). Tu indexes beaucoup de document avec lucene ? Utilises tu le tri pour afficher tes résultats ? A+ Lien vers le commentaire Partager sur d’autres sites More sharing options...
seishiro Posté(e) le 11 août 2004 Auteur Partager Posté(e) le 11 août 2004 Non je n'index pas beaucoup de doc environ 2000 fichiers Oui le tri est utiilisé Lien vers le commentaire Partager sur d’autres sites More sharing options...
Messages recommandés
Archivé
Ce sujet est désormais archivé et ne peut plus recevoir de nouvelles réponses.