John Shaft Posté(e) le 23 octobre 2014 Partager Posté(e) le 23 octobre 2014 L'idée d'élire le meilleur sous titres des actus de PCI / NXi est réapparu hier dans les commentaires de cette news Bon bin faisons le. ÉDITION 2014 AVANCEMENT :- Listage des urls 2014 : A faire- Répartition entre les membres du jury : A faire 07-10/04- Notations des actus 2014 : A faire, idéalement à partir du- Dépouillage : Done. A faire- Détermination des catégories de prix : En cours- Soumission des nommés à la votation INpactienne : A faire- Fin des votes et remises des prix : Soon™ Membres du Jury : - @5h31k - @John Shaft - @Xhell - @chaps - @thorspark Lien vers le commentaire Partager sur d’autres sites More sharing options...
5h31k Posté(e) le 23 octobre 2014 Partager Posté(e) le 23 octobre 2014 Bon, j'ai récupérer ta liste et je m'occupe ce soir de tout ça ^^ Je vais devoir remplacer les pcinpact par nextinpact (snifouille la nostalgie) Je peux facilement récupérer le titre + sous-titre + auteur (parce que j'ai déjà scripté tout ça), pour la date, je regarde ça. NB : je vais poster le script que j'utilise ici si ca en intéresse d'autres. Lien vers le commentaire Partager sur d’autres sites More sharing options...
ActionFighter Posté(e) le 23 octobre 2014 Partager Posté(e) le 23 octobre 2014 Impossible d'établir une session sécurisée car le site ( www.shaftinc.fr ) a fourni un certificat non valide. Moi je veux bien te faire confiance, mais mon navigateur n'est pas d'accord... Lien vers le commentaire Partager sur d’autres sites More sharing options...
John Shaft Posté(e) le 23 octobre 2014 Auteur Partager Posté(e) le 23 octobre 2014 Je vais devoir remplacer les pcinpact par nextinpact (snifouille la nostalgie) NB : je vais poster le script que j'utilise ici si ca en intéresse d'autres. pour le script Pour les URLs pcinpact, je n'ai pas fait la substitution car la redirection se fait normalement (ça peut être un peu long). Pour la date : <span itemprop="dateCreated" datetime="2011-10-06">Publiée le 06/10/2011 à 16:08</span> Moi je veux bien te faire confiance, mais mon navigateur n'est pas d'accord... Ignore l'avertissement de ton navigateur, le certificat est sûr. C'est juste qu'il est signé par une autorité (CACert) , qui n'est pas dans la liste des autorités de confiance des navigateurs (comprendre : qui n'est pas un gouvernement ou une entreprises commerciale - tape ta confiance... demi- ) Il est plus sûr de faire confiance à mon certif' que d'aller sur iCloud depuis la Chine. Pourtant ton navigateur fait confiance à l'autorité de certification officielle chinoise fin du /HS Lien vers le commentaire Partager sur d’autres sites More sharing options...
ActionFighter Posté(e) le 23 octobre 2014 Partager Posté(e) le 23 octobre 2014 Ignore l'avertissement de ton navigateur, le certificat est sûr. C'est juste qu'il est signé par une autorité (CACert) , qui n'est pas dans la liste des autorités de confiance des navigateurs (comprendre : qui n'est pas un gouvernement ou une entreprises commerciale - tape ta confiance... demi- )Il est plus sûr de faire confiance à mon certif' que d'aller sur iCloud depuis la Chine. Pourtant ton navigateur fait confiance à l'autorité de certification officielle chinoise fin du /HS Je vais être plus précis, puisque visiblement il y a eu mésentente, c'est le proxy de l'administration publique où je bosse qui ne te fait pas confiance Ton demi-troll n'en est que plus savoureux Lien vers le commentaire Partager sur d’autres sites More sharing options...
John Shaft Posté(e) le 23 octobre 2014 Auteur Partager Posté(e) le 23 octobre 2014 Haaan Tu pouvais pas le dire avant ! Lien vers le commentaire Partager sur d’autres sites More sharing options...
5h31k Posté(e) le 23 octobre 2014 Partager Posté(e) le 23 octobre 2014 Vous allez finir par faire couler ce topic si vous continuer à parler de tout et de rien ^^ Bon, pour le script voici ce que j'ai fais durant ma pause (pas pu tester en "live" car j'ai un proxy qui bloque à peu prêt tout et qui demande une double authentification manuelle + automatique). Il est en bash et fonctionne avec cygwin normalement : #!/bin/bash - #title :recup_info.sh#description :Récupère des informations sur des articles NextInpact via une liste d'URL fournis#author :5h31k#date :20141023#version :0.01 #usage :/bin/bash recup_info.sh [liste_urls]#notes : liste_urls -> par défaut utilisera "$(pwd)/liste_urls.txt"#bash_version :4.1.10(3)-release#============================================================================#============================================================================####### Liste des Erreurs# 11 ERREUR : Impossible de trouver le fichier contenant la liste des urls# 21 ERREUR : Impossible de télécharger l'URL# 22 ERREUR : Le sous-titre est introuvable pour le fichier#============================================================================# Variablesliste_urls=""rep_files="news"fichier_sortie_csv="fichier_sortie_csv.csv"# Test des variablesif [ -z "${1}" ] ; then read -p "Quel fichier voulez-vous utiliser? [liste_urls.txt]" liste_urls if [ -z "${liste_urls}" ] ; then liste_urls="liste_urls.txt" ; fifi# Déclaration des fonctionsfunction perror_and_exit() { local_code_sortie="${1}" local_message="${2}" echo "##############################" echo "liste_urls ${liste_urls}" echo "rep_files ${rep_files}" echo "fichier_sortie_csv ${fichier_sortie_csv}" echo "### En cours de traitement ###" echo "line ${line}" echo "file ${file}" echo "titre ${titre}" echo "soustitre ${soustitre}" echo "date_publication ${date_publication}" echo "auteur ${auteur}" echo "##############################" echo "${local_message}" exit ${local_code_sortie}}# Création des fichiers et répertoiresif [ ! -f "${liste_urls}" ] ; then perror_and_exit 11 "ERREUR : Impossible de trouver le fichier contenant la liste des urls"fiif [ ! -d "${rep_files}" ] ; then mkdir "${rep_files}" ; fiif [ ! -f "${fichier_sortie_csv}" ] ; then touch "${fichier_sortie_csv}" echo "\"Titre\";\"Sous-titre\";\"Date\";\"Auteur\";\"Url\"" > "${fichier_sortie_csv}"fi# Programme principal## Lecture ligne par ligne des URLSwhile read line ; do echo -n "${line}..." grep "${line}" "${fichier_sortie_csv}" >/dev/null if [ $? -eq 0 ] ; then echo " --> Déjà terminée" else titre="" soustitre="" date_publication="" auteur="" file=$(echo "${line}" | cut -d'/' -f6) wget -c "${line}" -O "${rep_files}/${file}" if [ $? -ne 0 ] ; then perror_and_exit 21 "ERREUR : Impossible de télécharger l'URL" ; fi titre=$(grep -i 'twitter:title' "${rep_files}/${file}" | cut -d'"' -f4) soustitre=$(grep -ni 'itemprop="alternativeHeadline"' "${rep_files}/${file}" | awk '{print $1}') soustitre=$(echo "${soustitre:0:$((${#soustitre}-1))}") if [ -z "${soustitre}" ] ; then perror_and_exit 22 "ERREUR : Le sous-titre est introuvable pour le fichier" ; fi soustitre=$(head -n "${soustitre}" "${rep_files}/${file}" | tail -n 1 | sed 's/^ *//') date_publication=$(grep -i 'itemprop="dateCreated"' "${rep_files}/${file}" | cut -d'"' -f4) auteur=$(grep -i 'rel="author"' "${rep_files}/${file}" | cut -d'>' -f3 | cut -d'<' -f1) echo "\"${titre}\";\"${soustitre}\";\"${date_publication}\";\"${auteur}\";\"${line}\"" >> "${fichier_sortie_csv}" echo " --> Terminée" fidone < "${liste_urls}"echo "Script terminé !" Vous devez avoir des droits d'écritures dans votre dossier pour créer des fichiers et des répertoires. A vous de tester et de me dire si ca fonctionne ou pas. Vous pouvez aussi télécharger une archive ZIP contenant ce script et le fichier TXT (fournis par John, voir 1er lien) convertis au adresse NXI :http://file.perette.info/f.php?h=1mf_ido4 Le mot de passe est le même que pour John : Nxi4ev3r Je le lancerai ce soir sur mon serveur pour tout récupérer ^^ EDIT : Si lorsque vous télécharger l'archive vous obtenez un fichier "*.htm" vous devez changer l'extension en "*.zip" :) Lien vers le commentaire Partager sur d’autres sites More sharing options...
Minikea Posté(e) le 23 octobre 2014 Partager Posté(e) le 23 octobre 2014 évidemment, les sous-titres du jour sont de haute envolée! Lien vers le commentaire Partager sur d’autres sites More sharing options...
John Shaft Posté(e) le 23 octobre 2014 Auteur Partager Posté(e) le 23 octobre 2014 Je le lancerai ce soir sur mon serveur pour tout récupérer ^^ Attention, j'ai fourni quasiment 22 000 urls et NXi est derrière CloudFlare. Crawler "normalement" le site ne pose pas de problème particuliers (nous faisons 5 crawls sur le site par jour au taf en partant de la home et du blog de mémoire et en ne récupérant que les urls présentes dans ces pages). En revanche, "bourriner" 22 000 wgets va peut-être faire tiquer CloudFlare qui va imposer la page de vérification du navigateur avant de rediriger vers la page demandée. A noter également, qu'il y avait pas mal de crasses à la base dans ma liste d'URLs. J'ai normalement tout nettoyé mais il se peut qu'il reste un peu de rebut. Donc en cas de soucis, il faudra faire un split de la liste des urls et dispatcher la récup entre différents INpactiens Lien vers le commentaire Partager sur d’autres sites More sharing options...
Oliewan Posté(e) le 23 octobre 2014 Partager Posté(e) le 23 octobre 2014 Je veux bien aider si la manip est simple. Lien vers le commentaire Partager sur d’autres sites More sharing options...
John Shaft Posté(e) le 23 octobre 2014 Auteur Partager Posté(e) le 23 octobre 2014 Je pense qu'il va y avoir quoiqu'il arrive du boulot une fois tous les titres/sous-titres récupérés. Lien vers le commentaire Partager sur d’autres sites More sharing options...
5h31k Posté(e) le 23 octobre 2014 Partager Posté(e) le 23 octobre 2014 Salut, Attention, j'ai fourni quasiment 22 000 urls et NXi est derrière CloudFlare.Crawler "normalement" le site ne pose pas de problème particuliers (nous faisons 5 crawls sur le site par jour au taf en partant de la home et du blog de mémoire et en ne récupérant que les urls présentes dans ces pages). En revanche, "bourriner" 22 000 wgets va peut-être faire tiquer CloudFlare qui va imposer la page de vérification du navigateur avant de rediriger vers la page demandée. A noter également, qu'il y avait pas mal de crasses à la base dans ma liste d'URLs. J'ai normalement tout nettoyé mais il se peut qu'il reste un peu de rebut. Donc en cas de soucis, il faudra faire un split de la liste des urls et dispatcher la récup entre différents INpactiens J'ai modifié quelque peu le script (car il y avais des erreurs) et je l'ai lancé. Pour le moment ça tourne sans soucis. Si NXI tombe j'en suis désolé Je veux bien aider si la manip est simple. Pour le moment je ne suis pas banni donc ca ira mais merci. Mais si tu me trouve une solution pour supprimer les caractères html en bash je suis preneur :) Je pense qu'il va y avoir quoiqu'il arrive du boulot une fois tous les titres/sous-titres récupérés. Ouep, je récupère les pages "brutes". J'ai recherché sur Internet rapidos comment convertir les html_entites en bash mais aucune trouvaille. Par contre j'ai trouvé pour du Perl la ligne suivante. Je n'ai pas Perl chez moi et si c'est terminé avant ce soir je tenterai la convertion au boulot demain matin (mais ca m'étonnerais que je puisse s'il faut au module externe). Si ce n'est pas fini ce soir, je posterai où j'en suis si d'autres veulent tester cat "fichier_sortie_csv.csv" | perl -MHTML::Entities -le 'while(<>) {print decode_entities($_);}' Je me demande aussi si ca ne va pas planté lorsque l'auteur de la news est partis de l'équipe :s EDIT : un petit exemple avec l'auteur qui manque : http://www.nextinpact.com/archive/66773-gta-v-rockstar-video-trailer.htm Lien vers le commentaire Partager sur d’autres sites More sharing options...
P-A Posté(e) le 23 octobre 2014 Partager Posté(e) le 23 octobre 2014 Sinon je peux aider aussi Edit : vous avez besoin de quoi ? Titre + sous titre + lien + auteur ? je peux vous faire ça à partir de la BDD, ça ira plus vite que de crawler le site. Et en plus, vous eviterez de me casser mes serveurs Lien vers le commentaire Partager sur d’autres sites More sharing options...
Ellierys Posté(e) le 23 octobre 2014 Partager Posté(e) le 23 octobre 2014 Vous êtes des grands malades ! (Et on aime ça !) Lien vers le commentaire Partager sur d’autres sites More sharing options...
John Shaft Posté(e) le 23 octobre 2014 Auteur Partager Posté(e) le 23 octobre 2014 Sinon je peux aider aussi Si tu as une requête qui peut sortir de la base -> Nom de l'article, Titre, Sous titre, Auteur, Date, URL on prend Ou alors on décide plutôt de DDOSer le serveur Lien vers le commentaire Partager sur d’autres sites More sharing options...
P-A Posté(e) le 23 octobre 2014 Partager Posté(e) le 23 octobre 2014 Si tu as une requête qui peut sortir de la base -> Nom de l'article, Titre, Sous titre, Auteur, Date, URL on prend Ou alors on décide plutôt de DDOSer le serveur Le temps que OneDrive se bouge, et je vous donne les liens des deux csv (news + archives) Lien vers le commentaire Partager sur d’autres sites More sharing options...
John Shaft Posté(e) le 23 octobre 2014 Auteur Partager Posté(e) le 23 octobre 2014 Je me demande aussi si ca ne va pas planté lorsque l'auteur de la news est partis de l'équipe :s C'est David qui a écrit cet article <link href="https://plus.google.com/+DavidLegrand?rel=author" rel="publisher" /> Lien vers le commentaire Partager sur d’autres sites More sharing options...
P-A Posté(e) le 23 octobre 2014 Partager Posté(e) le 23 octobre 2014 https://www.dropbox.com/s/hbglah9juny6d1l/archives.csv?dl=0 https://www.dropbox.com/s/qgen6c1kvxehpjj/news.csv?dl=0 Enjoy ! Edit : j'ai laissé tombé OneDrive, trop lent à la synchro Lien vers le commentaire Partager sur d’autres sites More sharing options...
Azax Posté(e) le 23 octobre 2014 Partager Posté(e) le 23 octobre 2014 Ça va quand même être compliqué d'élire un meilleur sous titre sachant que certains d'entre eux font référence à un contexte particulier. Date de la new etc. Alors pour se rappeler ce qu'il se passait le 12 avril 2013 pour que Kevin écrive tel sous titre Btw j'étais jamais tombé sur votre nouvelle page 404 (en cherchant les archives-_-), je viens de passer 5 excellentes minutes Lien vers le commentaire Partager sur d’autres sites More sharing options...
John Shaft Posté(e) le 23 octobre 2014 Auteur Partager Posté(e) le 23 octobre 2014 Ça va quand même être compliqué d'élire un meilleur sous titre sachant que certains d'entre eux font référence à un contexte particulier. Date de la new etc. Oui, la date et l'url permettent de faire des recherches plus poussés en cas de non compréhension de la blague Enjoy ! Bon y a un peu de nettoyage à faire dans le fichier 'archives', mais on tombe sur des grands moments d'émotions http://www.nextinpact.com/news/NVIDIA_rachete_3DFx_.htm http://www.nextinpact.com/news/Les_Athlon_64_FX_M_et_leurs_prix.htm http://www.nextinpact.com/news/Preview_Windows_XP.htm http://www.nextinpact.com/news/Mozilla_Firebird_devient_Firefox_08.htm Lien vers le commentaire Partager sur d’autres sites More sharing options...
John Shaft Posté(e) le 23 octobre 2014 Auteur Partager Posté(e) le 23 octobre 2014 J'ai repris les 2 fichiers de p-a, les aient concaténés, netttoyés le foutoir (html elements et ";" partout) : http://ovh.to/ZyxHR5f (me suis souvenu de mon compte Hubic 1 To ) Vincent gagne le titre de "Spammeur" (11704 actus sur 84642) Autre info plus INtéressante dans notre entreprise : env. 22000 actus n'ont pas de sous titre renseigné. (grosso modo de 2000 à mi-2005) Un petit piquage me permet de voir qu'il y a bien un sub_title définit dans le code, mais il sert dans ces cas là de chapô http://www.nextinpact.com/news/_INpact_est_mort_Vive_PC_INpact_.htmhttp://www.nextinpact.com/archive/42973-pcinpact-astuces-recapitulatif.htm http://www.nextinpact.com/archive/29037-Une-montre-pour-geekette-avec-256Mo-dedans-.htm http://www.nextinpact.com/archive/Microsoft_se_lance_dans_le_virtuel.htm Lien vers le commentaire Partager sur d’autres sites More sharing options...
5h31k Posté(e) le 23 octobre 2014 Partager Posté(e) le 23 octobre 2014 https://www.dropbox.com/s/hbglah9juny6d1l/archives.csv?dl=0 https://www.dropbox.com/s/qgen6c1kvxehpjj/news.csv?dl=0 Enjoy ! Edit : j'ai laissé tombé OneDrive, trop lent à la synchro Je trouve ça méchant de salir mon beau travail de scripting (en plus j'avais fini 10k d'articles là :'( ) Méchant P.A. :pleurs: Lien vers le commentaire Partager sur d’autres sites More sharing options...
ActionFighter Posté(e) le 23 octobre 2014 Partager Posté(e) le 23 octobre 2014 85000 lignes Faudrait peut-être réduire un peu la période, parce que là, ça va être un peu chaud de tout parcourir et de choisir, non ? Lien vers le commentaire Partager sur d’autres sites More sharing options...
Oliewan Posté(e) le 23 octobre 2014 Partager Posté(e) le 23 octobre 2014 Marrant ca il n'y avait pas de sous titres sous INpact Hardware... Je ne me souvenais pas de ce détail... C'est vrai que dans les liens posté par John, les titres non plus n'étaient pas poilants Mais c'est collector ! Lien vers le commentaire Partager sur d’autres sites More sharing options...
John Shaft Posté(e) le 23 octobre 2014 Auteur Partager Posté(e) le 23 octobre 2014 85000 lignes Faudrait peut-être réduire un peu la période, parce que là, ça va être un peu chaud de tout parcourir et de choisir, non ? Oui, et je propose d'en discuter (enfin c'est 85000 - 22000 ) En gros la systématisation des sous-titres commence en 2005. On peut opérer par année (en ne prenant que les rédacteurs encore présents ou pas) par exemple. Ou faire d'une totalement totalement différente. Quelque soit la solution retenue, il faudrait arriver à une liste de 10-20 candidats (soit au global, soit par année, soit par auteur...) pour proposer un sondage Marrant ca il n'y avait pas de sous titres sous INpact Hardware... Je ne me souvenais pas de ce détail... C'est vrai que dans les liens posté par John, les titres non plus n'étaient pas poilants Mais c'est collector ! Le premier sous titre trouvé date du 23/02/2003 -> on est encore sous INpact Hardware. Attention, c'est un temps que les moins de 20 ans ne peuvent pas connaître : le rachat de Blogger Il faut ensuite attendre le 17/06/2004 pour en retrouver un (de Nil) Lien vers le commentaire Partager sur d’autres sites More sharing options...
Messages recommandés
Archivé
Ce sujet est désormais archivé et ne peut plus recevoir de nouvelles réponses.