October 23, 201411 yr L'idée d'élire le meilleur sous titres des actus de PCI / NXi est réapparu hier dans les commentaires de cette news Bon bin faisons le. ÉDITION 2014 AVANCEMENT :- Listage des urls 2014 : A faire- Répartition entre les membres du jury : A faire 07-10/04- Notations des actus 2014 : A faire, idéalement à partir du- Dépouillage : Done. A faire- Détermination des catégories de prix : En cours- Soumission des nommés à la votation INpactienne : A faire- Fin des votes et remises des prix : Soon™ Membres du Jury : - @5h31k - @John Shaft - @Xhell - @chaps - @thorspark Edited April 1, 201510 yr by John Shaft Édition 2014
October 23, 201411 yr Bon, j'ai récupérer ta liste et je m'occupe ce soir de tout ça ^^ Je vais devoir remplacer les pcinpact par nextinpact (snifouille la nostalgie) Je peux facilement récupérer le titre + sous-titre + auteur (parce que j'ai déjà scripté tout ça), pour la date, je regarde ça. NB : je vais poster le script que j'utilise ici si ca en intéresse d'autres.
October 23, 201411 yr Impossible d'établir une session sécurisée car le site ( www.shaftinc.fr ) a fourni un certificat non valide. Moi je veux bien te faire confiance, mais mon navigateur n'est pas d'accord...
October 23, 201411 yr Author Je vais devoir remplacer les pcinpact par nextinpact (snifouille la nostalgie) NB : je vais poster le script que j'utilise ici si ca en intéresse d'autres. pour le script Pour les URLs pcinpact, je n'ai pas fait la substitution car la redirection se fait normalement (ça peut être un peu long). Pour la date : <span itemprop="dateCreated" datetime="2011-10-06">Publiée le 06/10/2011 à 16:08</span> Moi je veux bien te faire confiance, mais mon navigateur n'est pas d'accord... Ignore l'avertissement de ton navigateur, le certificat est sûr. C'est juste qu'il est signé par une autorité (CACert) , qui n'est pas dans la liste des autorités de confiance des navigateurs (comprendre : qui n'est pas un gouvernement ou une entreprises commerciale - tape ta confiance... demi- ) Il est plus sûr de faire confiance à mon certif' que d'aller sur iCloud depuis la Chine. Pourtant ton navigateur fait confiance à l'autorité de certification officielle chinoise fin du /HS
October 23, 201411 yr Ignore l'avertissement de ton navigateur, le certificat est sûr. C'est juste qu'il est signé par une autorité (CACert) , qui n'est pas dans la liste des autorités de confiance des navigateurs (comprendre : qui n'est pas un gouvernement ou une entreprises commerciale - tape ta confiance... demi- )Il est plus sûr de faire confiance à mon certif' que d'aller sur iCloud depuis la Chine. Pourtant ton navigateur fait confiance à l'autorité de certification officielle chinoise fin du /HS Je vais être plus précis, puisque visiblement il y a eu mésentente, c'est le proxy de l'administration publique où je bosse qui ne te fait pas confiance Ton demi-troll n'en est que plus savoureux
October 23, 201411 yr Vous allez finir par faire couler ce topic si vous continuer à parler de tout et de rien ^^ Bon, pour le script voici ce que j'ai fais durant ma pause (pas pu tester en "live" car j'ai un proxy qui bloque à peu prêt tout et qui demande une double authentification manuelle + automatique). Il est en bash et fonctionne avec cygwin normalement : #!/bin/bash - #title :recup_info.sh#description :Récupère des informations sur des articles NextInpact via une liste d'URL fournis#author :5h31k#date :20141023#version :0.01 #usage :/bin/bash recup_info.sh [liste_urls]#notes : liste_urls -> par défaut utilisera "$(pwd)/liste_urls.txt"#bash_version :4.1.10(3)-release#============================================================================#============================================================================####### Liste des Erreurs# 11 ERREUR : Impossible de trouver le fichier contenant la liste des urls# 21 ERREUR : Impossible de télécharger l'URL# 22 ERREUR : Le sous-titre est introuvable pour le fichier#============================================================================# Variablesliste_urls=""rep_files="news"fichier_sortie_csv="fichier_sortie_csv.csv"# Test des variablesif [ -z "${1}" ] ; then read -p "Quel fichier voulez-vous utiliser? [liste_urls.txt]" liste_urls if [ -z "${liste_urls}" ] ; then liste_urls="liste_urls.txt" ; fifi# Déclaration des fonctionsfunction perror_and_exit() { local_code_sortie="${1}" local_message="${2}" echo "##############################" echo "liste_urls ${liste_urls}" echo "rep_files ${rep_files}" echo "fichier_sortie_csv ${fichier_sortie_csv}" echo "### En cours de traitement ###" echo "line ${line}" echo "file ${file}" echo "titre ${titre}" echo "soustitre ${soustitre}" echo "date_publication ${date_publication}" echo "auteur ${auteur}" echo "##############################" echo "${local_message}" exit ${local_code_sortie}}# Création des fichiers et répertoiresif [ ! -f "${liste_urls}" ] ; then perror_and_exit 11 "ERREUR : Impossible de trouver le fichier contenant la liste des urls"fiif [ ! -d "${rep_files}" ] ; then mkdir "${rep_files}" ; fiif [ ! -f "${fichier_sortie_csv}" ] ; then touch "${fichier_sortie_csv}" echo "\"Titre\";\"Sous-titre\";\"Date\";\"Auteur\";\"Url\"" > "${fichier_sortie_csv}"fi# Programme principal## Lecture ligne par ligne des URLSwhile read line ; do echo -n "${line}..." grep "${line}" "${fichier_sortie_csv}" >/dev/null if [ $? -eq 0 ] ; then echo " --> Déjà terminée" else titre="" soustitre="" date_publication="" auteur="" file=$(echo "${line}" | cut -d'/' -f6) wget -c "${line}" -O "${rep_files}/${file}" if [ $? -ne 0 ] ; then perror_and_exit 21 "ERREUR : Impossible de télécharger l'URL" ; fi titre=$(grep -i 'twitter:title' "${rep_files}/${file}" | cut -d'"' -f4) soustitre=$(grep -ni 'itemprop="alternativeHeadline"' "${rep_files}/${file}" | awk '{print $1}') soustitre=$(echo "${soustitre:0:$((${#soustitre}-1))}") if [ -z "${soustitre}" ] ; then perror_and_exit 22 "ERREUR : Le sous-titre est introuvable pour le fichier" ; fi soustitre=$(head -n "${soustitre}" "${rep_files}/${file}" | tail -n 1 | sed 's/^ *//') date_publication=$(grep -i 'itemprop="dateCreated"' "${rep_files}/${file}" | cut -d'"' -f4) auteur=$(grep -i 'rel="author"' "${rep_files}/${file}" | cut -d'>' -f3 | cut -d'<' -f1) echo "\"${titre}\";\"${soustitre}\";\"${date_publication}\";\"${auteur}\";\"${line}\"" >> "${fichier_sortie_csv}" echo " --> Terminée" fidone < "${liste_urls}"echo "Script terminé !" Vous devez avoir des droits d'écritures dans votre dossier pour créer des fichiers et des répertoires. A vous de tester et de me dire si ca fonctionne ou pas. Vous pouvez aussi télécharger une archive ZIP contenant ce script et le fichier TXT (fournis par John, voir 1er lien) convertis au adresse NXI :http://file.perette.info/f.php?h=1mf_ido4 Le mot de passe est le même que pour John : Nxi4ev3r Je le lancerai ce soir sur mon serveur pour tout récupérer ^^ EDIT : Si lorsque vous télécharger l'archive vous obtenez un fichier "*.htm" vous devez changer l'extension en "*.zip" :) Edited October 23, 201411 yr by 5h31k
October 23, 201411 yr Author Je le lancerai ce soir sur mon serveur pour tout récupérer ^^ Attention, j'ai fourni quasiment 22 000 urls et NXi est derrière CloudFlare. Crawler "normalement" le site ne pose pas de problème particuliers (nous faisons 5 crawls sur le site par jour au taf en partant de la home et du blog de mémoire et en ne récupérant que les urls présentes dans ces pages). En revanche, "bourriner" 22 000 wgets va peut-être faire tiquer CloudFlare qui va imposer la page de vérification du navigateur avant de rediriger vers la page demandée. A noter également, qu'il y avait pas mal de crasses à la base dans ma liste d'URLs. J'ai normalement tout nettoyé mais il se peut qu'il reste un peu de rebut. Donc en cas de soucis, il faudra faire un split de la liste des urls et dispatcher la récup entre différents INpactiens
October 23, 201411 yr Author Je pense qu'il va y avoir quoiqu'il arrive du boulot une fois tous les titres/sous-titres récupérés.
October 23, 201411 yr Salut, Attention, j'ai fourni quasiment 22 000 urls et NXi est derrière CloudFlare.Crawler "normalement" le site ne pose pas de problème particuliers (nous faisons 5 crawls sur le site par jour au taf en partant de la home et du blog de mémoire et en ne récupérant que les urls présentes dans ces pages). En revanche, "bourriner" 22 000 wgets va peut-être faire tiquer CloudFlare qui va imposer la page de vérification du navigateur avant de rediriger vers la page demandée. A noter également, qu'il y avait pas mal de crasses à la base dans ma liste d'URLs. J'ai normalement tout nettoyé mais il se peut qu'il reste un peu de rebut. Donc en cas de soucis, il faudra faire un split de la liste des urls et dispatcher la récup entre différents INpactiens J'ai modifié quelque peu le script (car il y avais des erreurs) et je l'ai lancé. Pour le moment ça tourne sans soucis. Si NXI tombe j'en suis désolé Je veux bien aider si la manip est simple. Pour le moment je ne suis pas banni donc ca ira mais merci. Mais si tu me trouve une solution pour supprimer les caractères html en bash je suis preneur :) Je pense qu'il va y avoir quoiqu'il arrive du boulot une fois tous les titres/sous-titres récupérés. Ouep, je récupère les pages "brutes". J'ai recherché sur Internet rapidos comment convertir les html_entites en bash mais aucune trouvaille. Par contre j'ai trouvé pour du Perl la ligne suivante. Je n'ai pas Perl chez moi et si c'est terminé avant ce soir je tenterai la convertion au boulot demain matin (mais ca m'étonnerais que je puisse s'il faut au module externe). Si ce n'est pas fini ce soir, je posterai où j'en suis si d'autres veulent tester cat "fichier_sortie_csv.csv" | perl -MHTML::Entities -le 'while(<>) {print decode_entities($_);}' Je me demande aussi si ca ne va pas planté lorsque l'auteur de la news est partis de l'équipe :s EDIT : un petit exemple avec l'auteur qui manque : http://www.nextinpact.com/archive/66773-gta-v-rockstar-video-trailer.htm Edited October 23, 201411 yr by 5h31k
October 23, 201411 yr Sinon je peux aider aussi Edit : vous avez besoin de quoi ? Titre + sous titre + lien + auteur ? je peux vous faire ça à partir de la BDD, ça ira plus vite que de crawler le site. Et en plus, vous eviterez de me casser mes serveurs
October 23, 201411 yr Author Sinon je peux aider aussi Si tu as une requête qui peut sortir de la base -> Nom de l'article, Titre, Sous titre, Auteur, Date, URL on prend Ou alors on décide plutôt de DDOSer le serveur
October 23, 201411 yr Si tu as une requête qui peut sortir de la base -> Nom de l'article, Titre, Sous titre, Auteur, Date, URL on prend Ou alors on décide plutôt de DDOSer le serveur Le temps que OneDrive se bouge, et je vous donne les liens des deux csv (news + archives)
October 23, 201411 yr Author Je me demande aussi si ca ne va pas planté lorsque l'auteur de la news est partis de l'équipe :s C'est David qui a écrit cet article <link href="https://plus.google.com/+DavidLegrand?rel=author" rel="publisher" />
October 23, 201411 yr https://www.dropbox.com/s/hbglah9juny6d1l/archives.csv?dl=0 https://www.dropbox.com/s/qgen6c1kvxehpjj/news.csv?dl=0 Enjoy ! Edit : j'ai laissé tombé OneDrive, trop lent à la synchro
October 23, 201411 yr Ça va quand même être compliqué d'élire un meilleur sous titre sachant que certains d'entre eux font référence à un contexte particulier. Date de la new etc. Alors pour se rappeler ce qu'il se passait le 12 avril 2013 pour que Kevin écrive tel sous titre Btw j'étais jamais tombé sur votre nouvelle page 404 (en cherchant les archives-_-), je viens de passer 5 excellentes minutes
October 23, 201411 yr Author Ça va quand même être compliqué d'élire un meilleur sous titre sachant que certains d'entre eux font référence à un contexte particulier. Date de la new etc. Oui, la date et l'url permettent de faire des recherches plus poussés en cas de non compréhension de la blague Enjoy ! Bon y a un peu de nettoyage à faire dans le fichier 'archives', mais on tombe sur des grands moments d'émotions http://www.nextinpact.com/news/NVIDIA_rachete_3DFx_.htm http://www.nextinpact.com/news/Les_Athlon_64_FX_M_et_leurs_prix.htm http://www.nextinpact.com/news/Preview_Windows_XP.htm http://www.nextinpact.com/news/Mozilla_Firebird_devient_Firefox_08.htm
October 23, 201411 yr Author J'ai repris les 2 fichiers de p-a, les aient concaténés, netttoyés le foutoir (html elements et ";" partout) : http://ovh.to/ZyxHR5f (me suis souvenu de mon compte Hubic 1 To ) Vincent gagne le titre de "Spammeur" (11704 actus sur 84642) Autre info plus INtéressante dans notre entreprise : env. 22000 actus n'ont pas de sous titre renseigné. (grosso modo de 2000 à mi-2005) Un petit piquage me permet de voir qu'il y a bien un sub_title définit dans le code, mais il sert dans ces cas là de chapô http://www.nextinpact.com/news/_INpact_est_mort_Vive_PC_INpact_.htmhttp://www.nextinpact.com/archive/42973-pcinpact-astuces-recapitulatif.htm http://www.nextinpact.com/archive/29037-Une-montre-pour-geekette-avec-256Mo-dedans-.htm http://www.nextinpact.com/archive/Microsoft_se_lance_dans_le_virtuel.htm
October 23, 201411 yr https://www.dropbox.com/s/hbglah9juny6d1l/archives.csv?dl=0 https://www.dropbox.com/s/qgen6c1kvxehpjj/news.csv?dl=0 Enjoy ! Edit : j'ai laissé tombé OneDrive, trop lent à la synchro Je trouve ça méchant de salir mon beau travail de scripting (en plus j'avais fini 10k d'articles là :'( ) Méchant P.A. :pleurs:
October 23, 201411 yr 85000 lignes Faudrait peut-être réduire un peu la période, parce que là, ça va être un peu chaud de tout parcourir et de choisir, non ?
October 23, 201411 yr Marrant ca il n'y avait pas de sous titres sous INpact Hardware... Je ne me souvenais pas de ce détail... C'est vrai que dans les liens posté par John, les titres non plus n'étaient pas poilants Mais c'est collector !
October 23, 201411 yr Author 85000 lignes Faudrait peut-être réduire un peu la période, parce que là, ça va être un peu chaud de tout parcourir et de choisir, non ? Oui, et je propose d'en discuter (enfin c'est 85000 - 22000 ) En gros la systématisation des sous-titres commence en 2005. On peut opérer par année (en ne prenant que les rédacteurs encore présents ou pas) par exemple. Ou faire d'une totalement totalement différente. Quelque soit la solution retenue, il faudrait arriver à une liste de 10-20 candidats (soit au global, soit par année, soit par auteur...) pour proposer un sondage Marrant ca il n'y avait pas de sous titres sous INpact Hardware... Je ne me souvenais pas de ce détail... C'est vrai que dans les liens posté par John, les titres non plus n'étaient pas poilants Mais c'est collector ! Le premier sous titre trouvé date du 23/02/2003 -> on est encore sous INpact Hardware. Attention, c'est un temps que les moins de 20 ans ne peuvent pas connaître : le rachat de Blogger Il faut ensuite attendre le 17/06/2004 pour en retrouver un (de Nil)
Archived
This topic is now archived and is closed to further replies.