seishiro Posted April 27, 2004 Share Posted April 27, 2004 Salut Je dois développer un intranet jusque là tout va bien le probleme cette intranet doit contenir un outil d'indexation. Pour cela mes recherches mon menés vers Lucene uen branche du projet Jakarta. Le truc c'est que c'est assez confu Y a t il des gens ici qui l'on deja utilisé ? un retour sur expérience quand au traitement de document Word ? J'ai deja trouver un parser pour les doc Word ... Merci de votre aide Link to comment Share on other sites More sharing options...
Sentinel Posted April 27, 2004 Share Posted April 27, 2004 En effet, j'avais jeté un oeil à Lucene, ça paraît puissant. Quel est ton problème exact ? Tu n'arrivse pas du tout à l'utiliser, ou c'est juste un point particulier qui te bloque ? Link to comment Share on other sites More sharing options...
seishiro Posted April 27, 2004 Author Share Posted April 27, 2004 En faite je recherche un ou des retours sur expérience Car visiblement il y a un probleme quant à la gestion des caratères accentué donc pas de support du francais à mon de développer sont propre parsseur De plus vu que c'est une API toute la partie dev est à ta charge et le plus gros boulot n'est pas tant l'indexation ca c'est tres facile merci à eux mais c surtout les query et le traitement des résultats avec un estrait du texte etc ... et en cela j'aurai aimé avoir des exemples. Car j'ai pas beaucoup de temps pour faire cela et comme toujours dans les sociétés il fallait cette solution pour hier Link to comment Share on other sites More sharing options...
seishiro Posted April 28, 2004 Author Share Posted April 28, 2004 Juste Pour tenir à jour mes avancés Donc pour faire le point j'ai Lucene avec la doc java donc c cool de plus l'archive contiens des exemples et ca c bien aussi l'auteur d'une classe de POI à fais un dev parallelle textmining pour la conversion des documents doc en plain text donc ca c cool aussi Pour la gestion du Français (vive les caractère accentués) vive le lucene sandbox y a les souces d'un analyser donc ca c bien par contre là c'est ANT qui me casse les cou es pour la compile po glop Mais bon une fois que j'aurai toute ces petites API a moi Eclipse et le dev trop top Qui a dis que le dev open source coutais moin cher Link to comment Share on other sites More sharing options...
Sentinel Posted April 28, 2004 Share Posted April 28, 2004 Ah c'est bien si tu avances L'opensource a un coût d'apprentissage au même titre que les logiciels propriétaires, à la différence près que justement tu peux regarder le source pour mieux comprendre certains trucs, et que tu disposes généralement d'une super communauté, et très souvent également des conseils du développeur même de l'appli que tu utilises. L'avantage également, c'est qu'ensuite tu peux réutiliser ce savoir dans plein d'autres situations, sans avoir à forcer un client à acheter une licence donnée. Et puis il y a la philo, mais ça c'est une autre histoire Link to comment Share on other sites More sharing options...
seishiro Posted April 28, 2004 Author Share Posted April 28, 2004 Je suis d'accord avec toi sur toute la ligne. Mais car y a toujours un mais a la base je ne suis pas développeur donc pendant que j'essaie de faire cela je ne suis pas à ma tache première et cela à un cout non négligeable ... De plus les documentations de ces produits sont pas top Link to comment Share on other sites More sharing options...
seishiro Posted April 28, 2004 Author Share Posted April 28, 2004 Sinon dans le même style mais en plus simple avec plein plein plein de module OpenCMS semble pas mal il existe un module lucene mais toujours un probleme quant au .doc et à la gestion des caractères accentués. Sinon lodel qui est fais par des tits Frenchy et basé sur le moteur d'openoffice enfin bon ca avance ca avance En tout cas Sentinel merci de ton soutiens Link to comment Share on other sites More sharing options...
seishiro Posted April 30, 2004 Author Share Posted April 30, 2004 Bon ze continue à faire vivre ce topic Lodel c'est fais par des petits francais donc là c génial tout les probleme de langue sont gérés la doc est clair que du bonheur enfin precque car pour la conversion de document word en plein texte il faut passé par un de leur serveur autant dire que c'est hors de question .... donc lodel bye bye OpenCMS tres simple d'utilisation bien documenté possède un module basé sur lucene ne gère pas le francais et ne fais que du plain texte. Donc pour résumé Autant tout faire soit à partir des API et autres class dispo sur le site de lucene Link to comment Share on other sites More sharing options...
Sentinel Posted April 30, 2004 Share Posted April 30, 2004 Ah ça, tant que le 8859-1 et 8859-15 ne seront pas gérés, on aura toujours un petit problème avec les caractères latins (lettres accentuées, etc). Sinon pour nous tenir au courant de tes recherches, c'est très instructif Link to comment Share on other sites More sharing options...
seishiro Posted May 4, 2004 Author Share Posted May 4, 2004 Hop me revoila toujours avec mes aventures Lucene en faite j'ai fais un peu le tour et ma conclusion Y a pas de solution magic ou toute faite Aussi il faut tout faire soit même la compilation des sources pour l 'analyzer de langue ce passe tres bien Attention toute fois à avoir la dernière version de ANT et de le paramétrer correctement. Sinon j'ai enfin eu une resource pour m'aider au niveau du dev WAOUUUUUH Je vous tiendrais au courant en même temps que le dev avance. Link to comment Share on other sites More sharing options...
seishiro Posted May 13, 2004 Author Share Posted May 13, 2004 Bonjour dans la suite de la suite du retour de lucene et de Ant voici quelques info. Bon je suis toujours à me prendre la tete de temps en temps sur l'ananlyser de langue dans un coup de CVS dans lucene-Sandbox et j'ai récupéré les source. Donc là attention plusieur piège. Deja il faut ANT certaine distro de l'inux l'intègre deja aussi vérifier la version que il faut la dernière version. Mais il faut savoir que cette version est un peu bugé il manque un fichier visiblement mais ca marche quand même. Attention à bien ajouter les jar nécessaire parser xml et junit ceux contenu dans le répertoire lib ne sont pas suffisant. Autre point ne surtout pas utiliser le JDK1.4 sinon il vous faudra rajouter deux ou trois ligne de code par si par là. et si des problemes sont rencontrer à la compil au niveau des accents le plus simple tout passer sous Windows et là pas de probleme d'externalisation etc .... donc voilà j'ai enfin toutes mes petites briques logiciel ENFIN :8 Maintenant il ne reste plus qu'as tout intégrer dans un jar (lucene+lucene-sandbox+textemining) ca va etre simple. Par contre là ou ca va etre conton c'est de gérer les flux java pendant l'analyse La suite bientot. :8 Link to comment Share on other sites More sharing options...
lipao17 Posted July 6, 2004 Share Posted July 6, 2004 Juste Pour tenir à jour mes avancés Donc pour faire le point j'ai Lucene avec la doc java donc c cool de plus l'archive contiens des exemples et ca c bien aussi l'auteur d'une classe de POI à fais un dev parallelle textmining pour la conversion des documents doc en plain text donc ca c cool aussi Pour la gestion du Français (vive les caractère accentués) vive le lucene sandbox y a les souces d'un analyser donc ca c bien par contre là c'est ANT qui me casse les cou es pour la compile po glop Mais bon une fois que j'aurai toute ces petites API a moi Eclipse et le dev trop top Qui a dis que le dev open source coutais moin cher tu l'as eu où la doc ?? c'est en français ??? Link to comment Share on other sites More sharing options...
Paladin_Fr Posted August 9, 2004 Share Posted August 9, 2004 Juste pour savoir (vu que je développe sous lucene aussi). Tu indexes beaucoup de document avec lucene ? Utilises tu le tri pour afficher tes résultats ? A+ Link to comment Share on other sites More sharing options...
seishiro Posted August 11, 2004 Author Share Posted August 11, 2004 Non je n'index pas beaucoup de doc environ 2000 fichiers Oui le tri est utiilisé Link to comment Share on other sites More sharing options...
Recommended Posts
Archived
This topic is now archived and is closed to further replies.