Election du meilleur sous titre d'actus

Posté(e) le 23 octobre 201411 a

L'idée d'élire le meilleur sous titres des actus de PCI / NXi est réapparu hier dans les commentaires de cette news

Bon bin faisons le. :transpi:

ÉDITION 2014

AVANCEMENT :
- Listage des urls 2014 : A faire
- Répartition entre les membres du jury : A faire 07-10/04
- Notations des actus 2014 : A faire, idéalement à partir du
- Dépouillage : Done. A faire
- Détermination des catégories de prix : En cours
- Soumission des nommés à la votation INpactienne : A faire
- Fin des votes et remises des prix : Soon™

Membres du Jury :

- @5h31k

- @John Shaft

- @Xhell

- @chaps

- @thorspark

Modifié le 1 avril 201510 a par John Shaft
Édition 2014

Posté(e) le 23 octobre 201411 a

Bon, j'ai récupérer ta liste et je m'occupe ce soir de tout ça ^^

Je vais devoir remplacer les pcinpact par nextinpact (snifouille la nostalgie)

Je peux facilement récupérer le titre + sous-titre + auteur (parce que j'ai déjà scripté tout ça), pour la date, je regarde ça.

NB : je vais poster le script que j'utilise ici si ca en intéresse d'autres.

Posté(e) le 23 octobre 201411 a

Impossible d'établir une session sécurisée car le site ( www.shaftinc.fr ) a fourni un certificat non valide.

Moi je veux bien te faire confiance, mais mon navigateur n'est pas d'accord... :transpi:

Posté(e) le 23 octobre 201411 a

Auteur

Je vais devoir remplacer les pcinpact par nextinpact (snifouille la nostalgie)

NB : je vais poster le script que j'utilise ici si ca en intéresse d'autres.

:yes: pour le script

Pour les URLs pcinpact, je n'ai pas fait la substitution car la redirection se fait normalement (ça peut être un peu long).

Pour la date :

<span itemprop="dateCreated" datetime="2011-10-06">Publiée le 06/10/2011 à 16:08</span>

Moi je veux bien te faire confiance, mais mon navigateur n'est pas d'accord...

Ignore l'avertissement de ton navigateur, le certificat est sûr. C'est juste qu'il est signé par une autorité (CACert) , qui n'est pas dans la liste des autorités de confiance des navigateurs (comprendre : qui n'est pas un gouvernement ou une entreprises commerciale - tape ta confiance... :roll: demi- :troll: )

Il est plus sûr de faire confiance à mon certif' que d'aller sur iCloud depuis la Chine. Pourtant ton navigateur fait confiance à l'autorité de certification officielle chinoise

fin du /HS

Posté(e) le 23 octobre 201411 a

Ignore l'avertissement de ton navigateur, le certificat est sûr. C'est juste qu'il est signé par une autorité (CACert) , qui n'est pas dans la liste des autorités de confiance des navigateurs (comprendre : qui n'est pas un gouvernement ou une entreprises commerciale - tape ta confiance... demi- )
Il est plus sûr de faire confiance à mon certif' que d'aller sur iCloud depuis la Chine. Pourtant ton navigateur fait confiance à l'autorité de certification officielle chinoise

fin du /HS

Je vais être plus précis, puisque visiblement il y a eu mésentente, c'est le proxy de l'administration publique où je bosse qui ne te fait pas confiance :transpi:

Ton demi-troll n'en est que plus savoureux

Posté(e) le 23 octobre 201411 a

Auteur

Haaan

Tu pouvais pas le dire avant !

Posté(e) le 23 octobre 201411 a

Vous allez finir par faire couler ce topic si vous continuer à parler de tout et de rien ^^

Bon, pour le script voici ce que j'ai fais durant ma pause (pas pu tester en "live" car j'ai un proxy qui bloque à peu prêt tout et qui demande une double authentification manuelle + automatique).

Il est en bash et fonctionne avec cygwin normalement :

#!/bin/bash -   #title          :recup_info.sh#description    :Récupère des informations sur des articles NextInpact via une liste d'URL fournis#author         :5h31k#date           :20141023#version        :0.01   #usage          :/bin/bash recup_info.sh [liste_urls]#notes          :       liste_urls -> par défaut utilisera "$(pwd)/liste_urls.txt"#bash_version   :4.1.10(3)-release#============================================================================#============================================================================####### Liste des Erreurs# 11	ERREUR : Impossible de trouver le fichier contenant la liste des urls# 21	ERREUR : Impossible de télécharger l'URL# 22	ERREUR : Le sous-titre est introuvable pour le fichier#============================================================================# Variablesliste_urls=""rep_files="news"fichier_sortie_csv="fichier_sortie_csv.csv"# Test des variablesif [ -z "${1}" ] ; then	read -p "Quel fichier voulez-vous utiliser? [liste_urls.txt]" liste_urls	if [ -z "${liste_urls}" ] ; then liste_urls="liste_urls.txt" ; fifi# Déclaration des fonctionsfunction perror_and_exit() {	local_code_sortie="${1}"	local_message="${2}"	echo "##############################"	echo "liste_urls	${liste_urls}"	echo "rep_files		${rep_files}"	echo "fichier_sortie_csv	${fichier_sortie_csv}"	echo "### En cours de traitement ###"	echo "line		${line}"	echo "file		${file}"	echo "titre		${titre}"	echo "soustitre		${soustitre}"	echo "date_publication		${date_publication}"	echo "auteur		${auteur}"	echo "##############################"	echo "${local_message}"	exit ${local_code_sortie}}# Création des fichiers et répertoiresif [ ! -f "${liste_urls}" ] ; then	perror_and_exit 11 "ERREUR : Impossible de trouver le fichier contenant la liste des urls"fiif [ ! -d "${rep_files}" ] ; then mkdir "${rep_files}" ; fiif [ ! -f "${fichier_sortie_csv}" ] ; then	touch "${fichier_sortie_csv}"	echo "\"Titre\";\"Sous-titre\";\"Date\";\"Auteur\";\"Url\"" > "${fichier_sortie_csv}"fi# Programme principal## Lecture ligne par ligne des URLSwhile read line ; do	echo -n "${line}..." 	grep "${line}" "${fichier_sortie_csv}" >/dev/null	if [ $? -eq 0 ] ; then		echo " --> Déjà terminée"	else		titre=""		soustitre=""		date_publication=""		auteur=""		file=$(echo "${line}" | cut -d'/' -f6)		wget -c "${line}" -O "${rep_files}/${file}"		if [ $? -ne 0 ] ; then perror_and_exit 21 "ERREUR : Impossible de télécharger l'URL" ; fi		titre=$(grep -i 'twitter:title' "${rep_files}/${file}" | cut -d'"' -f4)		soustitre=$(grep -ni 'itemprop="alternativeHeadline"' "${rep_files}/${file}" | awk '{print $1}')		soustitre=$(echo "${soustitre:0:$((${#soustitre}-1))}")		if [ -z "${soustitre}" ] ; then perror_and_exit 22 "ERREUR : Le sous-titre est introuvable pour le fichier" ; fi		soustitre=$(head -n "${soustitre}" "${rep_files}/${file}"  | tail -n 1 | sed 's/^ *//')		date_publication=$(grep -i 'itemprop="dateCreated"' "${rep_files}/${file}" | cut -d'"' -f4)		auteur=$(grep -i 'rel="author"' "${rep_files}/${file}" | cut -d'>' -f3 | cut -d'<' -f1)		echo "\"${titre}\";\"${soustitre}\";\"${date_publication}\";\"${auteur}\";\"${line}\"" >> "${fichier_sortie_csv}"		echo " --> Terminée"	fidone < "${liste_urls}"echo "Script terminé !"

Vous devez avoir des droits d'écritures dans votre dossier pour créer des fichiers et des répertoires. A vous de tester et de me dire si ca fonctionne ou pas.

Vous pouvez aussi télécharger une archive ZIP contenant ce script et le fichier TXT (fournis par John, voir 1er lien) convertis au adresse NXI :http://file.perette.info/f.php?h=1mf_ido4

Le mot de passe est le même que pour John : Nxi4ev3r

Je le lancerai ce soir sur mon serveur pour tout récupérer ^^

EDIT : Si lorsque vous télécharger l'archive vous obtenez un fichier "*.htm" vous devez changer l'extension en "*.zip" :)

Modifié le 23 octobre 201411 a par 5h31k

Posté(e) le 23 octobre 201411 a

évidemment, les sous-titres du jour sont de haute envolée!

Posté(e) le 23 octobre 201411 a

Auteur

Je le lancerai ce soir sur mon serveur pour tout récupérer ^^

Attention, j'ai fourni quasiment 22 000 urls et NXi est derrière CloudFlare.

Crawler "normalement" le site ne pose pas de problème particuliers (nous faisons 5 crawls sur le site par jour au taf en partant de la home et du blog de mémoire et en ne récupérant que les urls présentes dans ces pages). En revanche, "bourriner" 22 000 wgets va peut-être faire tiquer CloudFlare qui va imposer la page de vérification du navigateur avant de rediriger vers la page demandée.

A noter également, qu'il y avait pas mal de crasses à la base dans ma liste d'URLs. J'ai normalement tout nettoyé mais il se peut qu'il reste un peu de rebut. :chinois:

Donc en cas de soucis, il faudra faire un split de la liste des urls et dispatcher la récup entre différents INpactiens

Posté(e) le 23 octobre 201411 a

Je veux bien aider si la manip est simple.

Posté(e) le 23 octobre 201411 a

Auteur

Je pense qu'il va y avoir quoiqu'il arrive du boulot une fois tous les titres/sous-titres récupérés.

Posté(e) le 23 octobre 201411 a

Salut,

Attention, j'ai fourni quasiment 22 000 urls et NXi est derrière CloudFlare.

Crawler "normalement" le site ne pose pas de problème particuliers (nous faisons 5 crawls sur le site par jour au taf en partant de la home et du blog de mémoire et en ne récupérant que les urls présentes dans ces pages). En revanche, "bourriner" 22 000 wgets va peut-être faire tiquer CloudFlare qui va imposer la page de vérification du navigateur avant de rediriger vers la page demandée.

A noter également, qu'il y avait pas mal de crasses à la base dans ma liste d'URLs. J'ai normalement tout nettoyé mais il se peut qu'il reste un peu de rebut.

Donc en cas de soucis, il faudra faire un split de la liste des urls et dispatcher la récup entre différents INpactiens

J'ai modifié quelque peu le script (car il y avais des erreurs) et je l'ai lancé. Pour le moment ça tourne sans soucis. Si NXI tombe j'en suis désolé :francais:

Je veux bien aider si la manip est simple.

Pour le moment je ne suis pas banni donc ca ira mais merci. Mais si tu me trouve une solution pour supprimer les caractères html en bash je suis preneur :)

Je pense qu'il va y avoir quoiqu'il arrive du boulot une fois tous les titres/sous-titres récupérés.

Ouep, je récupère les pages "brutes". J'ai recherché sur Internet rapidos comment convertir les html_entites en bash mais aucune trouvaille. Par contre j'ai trouvé pour du Perl la ligne suivante. Je n'ai pas Perl chez moi et si c'est terminé avant ce soir je tenterai la convertion au boulot demain matin (mais ca m'étonnerais que je puisse s'il faut au module externe). Si ce n'est pas fini ce soir, je posterai où j'en suis si d'autres veulent tester :chinois:

cat "fichier_sortie_csv.csv" | perl -MHTML::Entities -le 'while(<>) {print decode_entities($_);}'

Je me demande aussi si ca ne va pas planté lorsque l'auteur de la news est partis de l'équipe :s

EDIT : un petit exemple avec l'auteur qui manque : http://www.nextinpact.com/archive/66773-gta-v-rockstar-video-trailer.htm

Modifié le 23 octobre 201411 a par 5h31k

Posté(e) le 23 octobre 201411 a

Sinon je peux aider aussi :ane:

Edit : vous avez besoin de quoi ? Titre + sous titre + lien + auteur ? je peux vous faire ça à partir de la BDD, ça ira plus vite que de crawler le site. Et en plus, vous eviterez de me casser mes serveurs :transpi:

Posté(e) le 23 octobre 201411 a

Vous êtes des grands malades ! :mdr:

(Et on aime ça !)

Posté(e) le 23 octobre 201411 a

Auteur

Sinon je peux aider aussi

Si tu as une requête qui peut sortir de la base -> Nom de l'article, Titre, Sous titre, Auteur, Date, URL

on prend :yes:

Ou alors on décide plutôt de DDOSer le serveur :transpi:

Posté(e) le 23 octobre 201411 a

Si tu as une requête qui peut sortir de la base -> Nom de l'article, Titre, Sous titre, Auteur, Date, URL

on prend

Ou alors on décide plutôt de DDOSer le serveur

Le temps que OneDrive se bouge, et je vous donne les liens des deux csv (news + archives)

Posté(e) le 23 octobre 201411 a

Auteur

:incline: :smack: :nextchampion:

Je me demande aussi si ca ne va pas planté lorsque l'auteur de la news est partis de l'équipe :s

C'est David qui a écrit cet article

<link href="https://plus.google.com/+DavidLegrand?rel=author" rel="publisher" />

Posté(e) le 23 octobre 201411 a

https://www.dropbox.com/s/hbglah9juny6d1l/archives.csv?dl=0

https://www.dropbox.com/s/qgen6c1kvxehpjj/news.csv?dl=0

Enjoy !

Edit : j'ai laissé tombé OneDrive, trop lent à la synchro

Posté(e) le 23 octobre 201411 a

Ça va quand même être compliqué d'élire un meilleur sous titre sachant que certains d'entre eux font référence à un contexte particulier. Date de la new etc.

Alors pour se rappeler ce qu'il se passait le 12 avril 2013 pour que Kevin écrive tel sous titre :dd:

Btw j'étais jamais tombé sur votre nouvelle page 404 (en cherchant les archives-_-), je viens de passer 5 excellentes minutes :dix:

Posté(e) le 23 octobre 201411 a

Auteur

Ça va quand même être compliqué d'élire un meilleur sous titre sachant que certains d'entre eux font référence à un contexte particulier. Date de la new etc.

Oui, la date et l'url permettent de faire des recherches plus poussés en cas de non compréhension de la blague

Enjoy !

:smack:

Bon y a un peu de nettoyage à faire dans le fichier 'archives', mais on tombe sur des grands moments d'émotions :phiphi:

http://www.nextinpact.com/news/NVIDIA_rachete_3DFx_.htm

http://www.nextinpact.com/news/Les_Athlon_64_FX_M_et_leurs_prix.htm

http://www.nextinpact.com/news/Preview_Windows_XP.htm

http://www.nextinpact.com/news/Mozilla_Firebird_devient_Firefox_08.htm

Posté(e) le 23 octobre 201411 a

Auteur

J'ai repris les 2 fichiers de p-a, les aient concaténés, netttoyés le foutoir (html elements et ";" partout) :

http://ovh.to/ZyxHR5f

(me suis souvenu de mon compte Hubic 1 To :transpi: )

Vincent gagne le titre de "Spammeur" (11704 actus sur 84642)

Autre info plus INtéressante dans notre entreprise : env. 22000 actus n'ont pas de sous titre renseigné. (grosso modo de 2000 à mi-2005)

Un petit piquage me permet de voir qu'il y a bien un sub_title définit dans le code, mais il sert dans ces cas là de chapô

http://www.nextinpact.com/news/_INpact_est_mort_Vive_PC_INpact_.htm
http://www.nextinpact.com/archive/42973-pcinpact-astuces-recapitulatif.htm

http://www.nextinpact.com/archive/29037-Une-montre-pour-geekette-avec-256Mo-dedans-.htm

http://www.nextinpact.com/archive/Microsoft_se_lance_dans_le_virtuel.htm

Posté(e) le 23 octobre 201411 a

https://www.dropbox.com/s/hbglah9juny6d1l/archives.csv?dl=0

https://www.dropbox.com/s/qgen6c1kvxehpjj/news.csv?dl=0

Enjoy !

Edit : j'ai laissé tombé OneDrive, trop lent à la synchro

Je trouve ça méchant de salir mon beau travail de scripting (en plus j'avais fini 10k d'articles là :'( )

Méchant P.A. :pleurs:

Posté(e) le 23 octobre 201411 a

85000 lignes :transpi:

Faudrait peut-être réduire un peu la période, parce que là, ça va être un peu chaud de tout parcourir et de choisir, non ?

Posté(e) le 23 octobre 201411 a

Marrant ca il n'y avait pas de sous titres sous INpact Hardware... Je ne me souvenais pas de ce détail...

C'est vrai que dans les liens posté par John, les titres non plus n'étaient pas poilants :transpi:

Mais c'est collector !

Posté(e) le 23 octobre 201411 a

Auteur

85000 lignes

Faudrait peut-être réduire un peu la période, parce que là, ça va être un peu chaud de tout parcourir et de choisir, non ?

Oui, et je propose d'en discuter :chinois:

(enfin c'est 85000 - 22000 :windu: )

En gros la systématisation des sous-titres commence en 2005. On peut opérer par année (en ne prenant que les rédacteurs encore présents ou pas) par exemple. Ou faire d'une totalement totalement différente.

Quelque soit la solution retenue, il faudrait arriver à une liste de 10-20 candidats (soit au global, soit par année, soit par auteur...) pour proposer un sondage

Marrant ca il n'y avait pas de sous titres sous INpact Hardware... Je ne me souvenais pas de ce détail...

C'est vrai que dans les liens posté par John, les titres non plus n'étaient pas poilants

Mais c'est collector !

Le premier sous titre trouvé date du 23/02/2003 -> on est encore sous INpact Hardware.

Attention, c'est un temps que les moins de 20 ans ne peuvent pas connaître : le rachat de Blogger :phiphi:

Il faut ensuite attendre le 17/06/2004 pour en retrouver un (de Nil)

Connexion

Election du meilleur sous titre d'actus

Featured Replies

Archivé

Account

Navigation

Rechercher

Configure browser push notifications

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)