GROS_FAIGNAN Posté(e) le 20 décembre 2019 Auteur Partager Posté(e) le 20 décembre 2019 elle sont dispo sur le site... donc je vois pas pourquoi ce serait illégal, c'est des données constructeurs, des datasheet, des ifnos techniques, les prix et quantités pour exemple : https://www.digikey.com/products/capacitors/en c'est les infos dans le tableau, donc rien d’inaccessible au public, mais visiblement protégées contre le scraping, par contre elle sont accessible via l'API, qui n'est cependant pas trop adaptée a mon cas de figure [EDIT] petite appartée, vous auriez quelque bonnes lib sous la main pour la gestion des erreur [EDIT2] $dir[]=array("dir","ls");//Affiche la liste des fichiers et sous-dossiers contenus dans le répertoire. vous voyez une erreur la dedans ? Lien vers le commentaire Partager sur d’autres sites More sharing options...
Sheepux Posté(e) le 21 décembre 2019 Partager Posté(e) le 21 décembre 2019 Pourquoi s'emmerder via API quand le site met à disposition de quoi récupérer la donnée ? (le bouton download) https://www.digikey.com/product-search/download.csv?FV=-8|649&quantity=0&ColumnSort=0&page=1&pageSize=25 Lien vers le commentaire Partager sur d’autres sites More sharing options...
GROS_FAIGNAN Posté(e) le 21 décembre 2019 Auteur Partager Posté(e) le 21 décembre 2019 ca c'est parce que je suis une quiche qui debute 😉 merci Sheepux 😉 me reste plus qu'a reflechir comment ouvrir ce lien via une commande, lire la table et ne pas sauvegarder le fichier Lien vers le commentaire Partager sur d’autres sites More sharing options...
Minikea Posté(e) le 21 décembre 2019 Partager Posté(e) le 21 décembre 2019 autant en php, je sais pas mais, si c'est pas trop différent de python, tu dois avoir une commande pour ouvrir le lien et mettre le résultat en mémoire, genre ça: $response =$client->request('GET','https://www.digikey.com/product-search/download.csv?FV=-8%7C649&quantity=0&ColumnSort=0&page=1&pageSize=25'); et après, tu dois avoir des outils de manipulation de fichier CSV, pour peu que tu connaisses à l'avance le symbole de séparation (tabulation, virgule, point-virgule...) ou bien la taille des champs si en taille fixe. ensuite tu peux rediriger les données vers ta propre base de donnée ou bien reformater directement dans une page web sans stockage intermédiaire. mais ça veut dire que si digikey change un poil sa page ou la présentation de son CSV, ton script ne ressortira plus rien. en le faisant en deux fois, un script de récupération et stockage, et un script d'affichage, ton script d'affichage fonctionnera correctement même en cas de changement côté digikey (mais affichera potentiellement des données obsolètes). les deux sont possibles et ont leurs avantages, à toi de voir ce que tu souhaites faire. Lien vers le commentaire Partager sur d’autres sites More sharing options...
GROS_FAIGNAN Posté(e) le 22 décembre 2019 Auteur Partager Posté(e) le 22 décembre 2019 $response =$client->request('GET','https://www.digikey.com/product-search/download.csv?FV=-8%7C649&quantity=0&ColumnSort=0&page=1&pageSize=25'); hehe ouai ce serait pratique mais ca marche pas. (error 403 forbidden) idem pour cette forme la $response=file_get_contents('https://www.digikey.com/product-search/download.csv?FV=-8|649&quantity=0&ColumnSort=0&page=1&pageSize=25'); (enfin pas tout a fait, parfois mon script fonctionne plus ou moins mais c'est instable et parfaitement aléatoire) Lien vers le commentaire Partager sur d’autres sites More sharing options...
Minikea Posté(e) le 22 décembre 2019 Partager Posté(e) le 22 décembre 2019 essaye en modifiant les headers pour te faire passer pour un Firefox valide, et vois depuis Firefox quels sont les champs sur les quels tu peux jouer pour faire passer la requête pour légitime. {"headers": [ {"name":"Host","value":"www.digikey.com"}, {"name":"Referer","value":"https://www.digikey.com/products/en/capacitors/accessories/63"}, {"name":"User-Agent","value":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0"} ] } Lien vers le commentaire Partager sur d’autres sites More sharing options...
GROS_FAIGNAN Posté(e) le 22 décembre 2019 Auteur Partager Posté(e) le 22 décembre 2019 vous auriez des source de bot ou de crawler /scraper tout pret, histoire d'avancer un peut plus vite, j'en ai trouver quelque un sur le net mais pas moyen de les faire tourner la pluspart sont plein de bug et ne sont plus maintenus ou avec des sources incomplètes/pas a jours. [EDIT] j'ai parler trop vite, j'en ai trouver qqun : apache lucene, elasticsearch, apache solr, sphinxsearch, dataparksearch, xapian, etc... des avis concernant ces différents moteur ? de preference pour coder en php...^^ (pas trop le choix, python et ruby faut oublier, et javascript pas garanti que ca passe non plus) et ici j'en ai carrement trouver 162 : https://www.findbestopensource.com/tagged/search-engine par contre je veut bien un descriptif des différentes catégories de projet qu'ont peut trouver (genre différence entre moteur de recherche, bot, crawler, spider, full-text, etc...) Lien vers le commentaire Partager sur d’autres sites More sharing options...
GROS_FAIGNAN Posté(e) le 24 décembre 2019 Auteur Partager Posté(e) le 24 décembre 2019 a tient oui je cherche une methode pour envoyé une requete php (a priori POST donc) qui effectuerai une recherche sur google (qui mettrait un terme de recherche et cliquerai a ma place donc). j'ai chercher des methode sur google pour faire ca mais j'ai rien trouver ^^ ... curieux. pas moyen de trouver ca, qqun pourrait me dire de quel coté je doit cherché ? et comment definir quel param je doit utiliser par exemple ? Lien vers le commentaire Partager sur d’autres sites More sharing options...
brice.wernet Posté(e) le 24 décembre 2019 Partager Posté(e) le 24 décembre 2019 On 22/12/2019 at 22:12, GROS_FAIGNAN a écrit : j'ai parler trop vite, j'en ai trouver qqun : apache lucene, elasticsearch, apache solr, sphinxsearch, dataparksearch, xapian, etc... des avis concernant ces différents moteur ? En général Élastic Search est conseillé pour les données dynamiques, solr pour les données peu mises à jour (historique) Lucerne est un moteur, solr une 'surcouche' de lucene pour le rendre plus facilement utilisable Lien vers le commentaire Partager sur d’autres sites More sharing options...
GROS_FAIGNAN Posté(e) le 26 décembre 2019 Auteur Partager Posté(e) le 26 décembre 2019 sinon y'a aussi peut etre le couple HTTPClient / DomCrawler fournit par symfony, qui devrait peut être suffire, reste a savoir si je vais reussir a trouver manpages et tuto par ce que sur le site de symfony, perso je trouve que c'est pas super la joie. Lien vers le commentaire Partager sur d’autres sites More sharing options...
GROS_FAIGNAN Posté(e) le 27 décembre 2019 Auteur Partager Posté(e) le 27 décembre 2019 qqun sait comment entré du text dans le champ de recherche d'un moteur de recherche vai un code php et recuperer la page de retour correspondante ? [EDIT] en fait je cherche la facon de recuperer la liste des parametre que je doit envoyer en POST pour effectuer ma recherche ^^ Lien vers le commentaire Partager sur d’autres sites More sharing options...
Messages recommandés
Archivé
Ce sujet est désormais archivé et ne peut plus recevoir de nouvelles réponses.