Aller au contenu

HELP sur les API Lucene


seishiro

Messages recommandés

Salut

Je dois développer un intranet jusque là tout va bien le probleme cette intranet doit contenir un outil d'indexation.

Pour cela mes recherches mon menés vers Lucene uen branche du projet Jakarta.

Le truc c'est que c'est assez confu :francais:

Y a t il des gens ici qui l'on deja utilisé ? un retour sur expérience quand au traitement de document Word ?

J'ai deja trouver un parser pour les doc Word ...

Merci de votre aide ;)

Lien vers le commentaire
Partager sur d’autres sites

En faite je recherche un ou des retours sur expérience

Car visiblement il y a un probleme

quant à la gestion des caratères accentué donc pas de support du francais

à mon de développer sont propre parsseur

De plus vu que c'est une API toute la partie dev est à ta charge et le plus gros boulot n'est pas tant l'indexation ca c'est tres facile merci à eux mais c surtout les query et le traitement des résultats avec un estrait du texte etc ... et en cela j'aurai aimé avoir des exemples. Car j'ai pas beaucoup de temps pour faire cela et comme toujours dans les sociétés il fallait cette solution pour hier :kimouss::kimouss:

Lien vers le commentaire
Partager sur d’autres sites

Juste Pour tenir à jour mes avancés

Donc pour faire le point

j'ai Lucene avec la doc java donc c cool de plus l'archive contiens des exemples et ca c bien aussi

l'auteur d'une classe de POI à fais un dev parallelle textmining pour la conversion des documents doc en plain text donc ca c cool aussi

Pour la gestion du Français (vive les caractère accentués) vive le lucene sandbox y a les souces d'un analyser donc ca c bien

par contre là c'est ANT qui me casse les cou :mdr: es pour la compile po glop

Mais bon une fois que j'aurai toute ces petites API a moi Eclipse et le dev trop top :merci:

Qui a dis que le dev open source coutais moin cher :mdr:

Lien vers le commentaire
Partager sur d’autres sites

Ah c'est bien si tu avances :merci:

L'opensource a un coût d'apprentissage au même titre que les logiciels propriétaires, à la différence près que justement tu peux regarder le source pour mieux comprendre certains trucs, et que tu disposes généralement d'une super communauté, et très souvent également des conseils du développeur même de l'appli que tu utilises.

L'avantage également, c'est qu'ensuite tu peux réutiliser ce savoir dans plein d'autres situations, sans avoir à forcer un client à acheter une licence donnée.

Et puis il y a la philo, mais ça c'est une autre histoire :mdr:

Lien vers le commentaire
Partager sur d’autres sites

Je suis d'accord avec toi sur toute la ligne. Mais car y a toujours un mais a la base je ne suis pas développeur donc pendant que j'essaie de faire cela je ne suis pas à ma tache première et cela à un cout non négligeable ...

De plus les documentations de ces produits sont pas top :craint:

Lien vers le commentaire
Partager sur d’autres sites

Sinon dans le même style mais en plus simple avec plein plein plein de module OpenCMS semble pas mal il existe un module lucene mais toujours un probleme quant au .doc et à la gestion des caractères accentués.

Sinon lodel qui est fais par des tits Frenchy :-D et basé sur le moteur d'openoffice :fumer:

enfin bon ca avance ca avance

En tout cas Sentinel merci de ton soutiens :craint:

Lien vers le commentaire
Partager sur d’autres sites

Bon ze continue à faire vivre ce topic :bocul:

Lodel c'est fais par des petits francais donc là c génial tout les probleme de langue sont gérés la doc est clair que du bonheur enfin precque car pour la conversion de document word en plein texte il faut passé par un de leur serveur autant dire que c'est hors de question .... donc lodel bye bye :byebye:

OpenCMS tres simple d'utilisation bien documenté possède un module basé sur lucene ne gère pas le francais et ne fais que du plain texte.

Donc pour résumé

Autant tout faire soit à partir des API et autres class dispo sur le site de lucene :mdr:

Lien vers le commentaire
Partager sur d’autres sites

Hop me revoila toujours avec mes aventures Lucene en faite j'ai fais un peu le tour et ma conclusion

Y a pas de solution magic :byebye: ou toute faite :-D

Aussi il faut tout faire soit même

la compilation des sources pour l 'analyzer de langue ce passe tres bien

Attention toute fois à avoir la dernière version de ANT et de le paramétrer correctement.

Sinon j'ai enfin eu une resource pour m'aider au niveau du dev WAOUUUUUH :francais:

Je vous tiendrais au courant en même temps que le dev avance.

:byebye:

Lien vers le commentaire
Partager sur d’autres sites

  • 2 semaines après...

Bonjour dans la suite de la suite du retour de lucene et de Ant voici quelques info.

Bon je suis toujours à me prendre la tete de temps en temps sur l'ananlyser de langue

dans un coup de CVS dans lucene-Sandbox et j'ai récupéré les source.

Donc là attention plusieur piège.

Deja il faut ANT certaine distro de l'inux l'intègre deja aussi vérifier la version que il faut la dernière version.

Mais il faut savoir que cette version est un peu bugé il manque un fichier visiblement mais ca marche quand même. Attention à bien ajouter les jar nécessaire parser xml et junit ceux contenu dans le répertoire lib ne sont pas suffisant.

Autre point ne surtout pas utiliser le JDK1.4 sinon il vous faudra rajouter deux ou trois ligne de code par si par là.

et si des problemes sont rencontrer à la compil au niveau des accents le plus simple tout passer sous Windows et là pas de probleme d'externalisation etc ....

donc voilà j'ai enfin toutes mes petites briques logiciel ENFIN :8

Maintenant il ne reste plus qu'as tout intégrer dans un jar (lucene+lucene-sandbox+textemining) ca va etre simple. Par contre là ou ca va etre conton c'est de gérer les flux java pendant l'analyse :yes:

La suite bientot.

:8

Lien vers le commentaire
Partager sur d’autres sites

  • 1 mois après...
Juste Pour tenir à jour mes avancés

Donc pour faire le point

j'ai Lucene avec la doc java donc c cool de plus l'archive contiens des exemples et ca c bien aussi

l'auteur d'une classe de POI à fais un dev parallelle textmining pour la conversion des documents doc en plain text donc ca c cool aussi

Pour la gestion du Français (vive les caractère accentués) vive le lucene sandbox y a les souces d'un analyser donc ca c bien

par contre là c'est ANT qui me casse les cou :transpi: es pour la compile po glop

Mais bon une fois que j'aurai toute ces petites API a moi Eclipse et le dev trop top :yes:

Qui a dis que le dev open source coutais moin cher :yes:

tu l'as eu où la doc ?? c'est en français ??? :transpi:

Lien vers le commentaire
Partager sur d’autres sites

  • 1 mois après...

Archivé

Ce sujet est désormais archivé et ne peut plus recevoir de nouvelles réponses.

×
×
  • Créer...