Jump to content

Archived

This topic is now archived and is closed to further replies.

John Shaft

Election du meilleur sous titre d'actus

Recommended Posts

L'idée d'élire le meilleur sous titres des actus de PCI / NXi est réapparu hier dans les commentaires de cette news
 
Bon bin faisons le. :transpi:
 
ÉDITION 2014
 
AVANCEMENT :
- Listage des urls 2014 : A faire
- Répartition entre les membres du jury : A faire 07-10/04
- Notations des actus 2014 : A faire, idéalement à partir du
- Dépouillage : Done. A faire
- Détermination des catégories de prix : En cours
- Soumission des nommés à la votation INpactienne : A faire
- Fin des votes et remises des prix : Soon™ :D
 
Membres du Jury :

- @5h31k

- @John Shaft

- @Xhell

- @chaps

- @thorspark

Link to post
Share on other sites

Bon, j'ai récupérer ta liste et je m'occupe ce soir de tout ça ^^

 

Je vais devoir remplacer les pcinpact par nextinpact (snifouille la nostalgie)

 

Je peux facilement récupérer le titre + sous-titre + auteur (parce que j'ai déjà scripté tout ça), pour la date, je regarde ça.

 

NB : je vais poster le script que j'utilise ici si ca en intéresse d'autres.

Link to post
Share on other sites

Je vais devoir remplacer les pcinpact par nextinpact (snifouille la nostalgie)

 

NB : je vais poster le script que j'utilise ici si ca en intéresse d'autres.

 

:yes: pour le script

 

Pour les URLs pcinpact, je n'ai pas fait la substitution car la redirection se fait normalement (ça peut être un peu long).

 

Pour la date : 

<span itemprop="dateCreated" datetime="2011-10-06">Publiée le 06/10/2011 à 16:08</span> 

Moi je veux bien te faire confiance, mais mon navigateur n'est pas d'accord... :transpi:

 

Ignore l'avertissement de ton navigateur, le certificat est sûr. C'est juste qu'il est signé par une autorité (CACert) , qui n'est pas dans la liste des autorités de confiance des navigateurs (comprendre : qui n'est pas un gouvernement ou une entreprises commerciale - tape ta confiance... :roll: demi- :troll:)

Il est plus sûr de faire confiance à mon certif' que d'aller sur iCloud depuis la Chine. Pourtant ton navigateur fait confiance à l'autorité de certification officielle chinoise

 

fin du /HS

Link to post
Share on other sites
Ignore l'avertissement de ton navigateur, le certificat est sûr. C'est juste qu'il est signé par une autorité (CACert) , qui n'est pas dans la liste des autorités de confiance des navigateurs (comprendre : qui n'est pas un gouvernement ou une entreprises commerciale - tape ta confiance... :roll: demi- :troll:)

Il est plus sûr de faire confiance à mon certif' que d'aller sur iCloud depuis la Chine. Pourtant ton navigateur fait confiance à l'autorité de certification officielle chinoise

 

fin du /HS

 

Je vais être plus précis, puisque visiblement il y a eu mésentente, c'est le proxy de l'administration publique où je bosse qui ne te fait pas confiance :transpi:

 

Ton demi-troll n'en est que plus savoureux :D

Link to post
Share on other sites

Vous allez finir par faire couler ce topic si vous continuer à parler de tout et de rien ^^

 

Bon, pour le script voici ce que j'ai fais durant ma pause (pas pu tester en "live" car j'ai un proxy qui bloque à peu prêt tout et qui demande une double authentification manuelle + automatique).

 

Il est en bash et fonctionne avec cygwin normalement :

#!/bin/bash -   #title          :recup_info.sh#description    :Récupère des informations sur des articles NextInpact via une liste d'URL fournis#author         :5h31k#date           :20141023#version        :0.01   #usage          :/bin/bash recup_info.sh [liste_urls]#notes          :       liste_urls -> par défaut utilisera "$(pwd)/liste_urls.txt"#bash_version   :4.1.10(3)-release#============================================================================#============================================================================####### Liste des Erreurs# 11	ERREUR : Impossible de trouver le fichier contenant la liste des urls# 21	ERREUR : Impossible de télécharger l'URL# 22	ERREUR : Le sous-titre est introuvable pour le fichier#============================================================================# Variablesliste_urls=""rep_files="news"fichier_sortie_csv="fichier_sortie_csv.csv"# Test des variablesif [ -z "${1}" ] ; then	read -p "Quel fichier voulez-vous utiliser? [liste_urls.txt]" liste_urls	if [ -z "${liste_urls}" ] ; then liste_urls="liste_urls.txt" ; fifi# Déclaration des fonctionsfunction perror_and_exit() {	local_code_sortie="${1}"	local_message="${2}"	echo "##############################"	echo "liste_urls	${liste_urls}"	echo "rep_files		${rep_files}"	echo "fichier_sortie_csv	${fichier_sortie_csv}"	echo "### En cours de traitement ###"	echo "line		${line}"	echo "file		${file}"	echo "titre		${titre}"	echo "soustitre		${soustitre}"	echo "date_publication		${date_publication}"	echo "auteur		${auteur}"	echo "##############################"	echo "${local_message}"	exit ${local_code_sortie}}# Création des fichiers et répertoiresif [ ! -f "${liste_urls}" ] ; then	perror_and_exit 11 "ERREUR : Impossible de trouver le fichier contenant la liste des urls"fiif [ ! -d "${rep_files}" ] ; then mkdir "${rep_files}" ; fiif [ ! -f "${fichier_sortie_csv}" ] ; then	touch "${fichier_sortie_csv}"	echo "\"Titre\";\"Sous-titre\";\"Date\";\"Auteur\";\"Url\"" > "${fichier_sortie_csv}"fi# Programme principal## Lecture ligne par ligne des URLSwhile read line ; do	echo -n "${line}..." 	grep "${line}" "${fichier_sortie_csv}" >/dev/null	if [ $? -eq 0 ] ; then		echo " --> Déjà terminée"	else		titre=""		soustitre=""		date_publication=""		auteur=""		file=$(echo "${line}" | cut -d'/' -f6)		wget -c "${line}" -O "${rep_files}/${file}"		if [ $? -ne 0 ] ; then perror_and_exit 21 "ERREUR : Impossible de télécharger l'URL" ; fi		titre=$(grep -i 'twitter:title' "${rep_files}/${file}" | cut -d'"' -f4)		soustitre=$(grep -ni 'itemprop="alternativeHeadline"' "${rep_files}/${file}" | awk '{print $1}')		soustitre=$(echo "${soustitre:0:$((${#soustitre}-1))}")		if [ -z "${soustitre}" ] ; then perror_and_exit 22 "ERREUR : Le sous-titre est introuvable pour le fichier" ; fi		soustitre=$(head -n "${soustitre}" "${rep_files}/${file}"  | tail -n 1 | sed 's/^ *//')		date_publication=$(grep -i 'itemprop="dateCreated"' "${rep_files}/${file}" | cut -d'"' -f4)		auteur=$(grep -i 'rel="author"' "${rep_files}/${file}" | cut -d'>' -f3 | cut -d'<' -f1)		echo "\"${titre}\";\"${soustitre}\";\"${date_publication}\";\"${auteur}\";\"${line}\"" >> "${fichier_sortie_csv}"		echo " --> Terminée"	fidone < "${liste_urls}"echo "Script terminé !"

Vous devez avoir des droits d'écritures dans votre dossier pour créer des fichiers et des répertoires. A vous de tester et de me dire si ca fonctionne ou pas.

Vous pouvez aussi télécharger une archive ZIP contenant ce script et le fichier TXT (fournis par John, voir 1er lien) convertis au adresse NXI :http://file.perette.info/f.php?h=1mf_ido4

Le mot de passe est le même que pour John : Nxi4ev3r

 

Je le lancerai ce soir sur mon serveur pour tout récupérer ^^

 

EDIT : Si lorsque vous télécharger l'archive vous obtenez un fichier "*.htm" vous devez changer l'extension en "*.zip" :)

Link to post
Share on other sites

 

Je le lancerai ce soir sur mon serveur pour tout récupérer ^^

 

 

Attention, j'ai fourni quasiment 22 000 urls et NXi est derrière CloudFlare.

Crawler "normalement" le site ne pose pas de problème particuliers (nous faisons 5 crawls sur le site par jour au taf en partant de la home et du blog de mémoire et en ne récupérant que les urls présentes dans ces pages). En revanche, "bourriner" 22 000 wgets va peut-être faire tiquer CloudFlare qui va imposer la page de vérification du navigateur avant de rediriger vers la page demandée.

 

A noter également, qu'il y avait pas mal de crasses à la base dans ma liste d'URLs. J'ai normalement tout nettoyé mais il se peut qu'il reste un peu de rebut. :chinois:

 

Donc en cas de soucis, il faudra faire un split de la liste des urls et dispatcher la récup entre différents INpactiens

Link to post
Share on other sites

Salut,

Attention, j'ai fourni quasiment 22 000 urls et NXi est derrière CloudFlare.

Crawler "normalement" le site ne pose pas de problème particuliers (nous faisons 5 crawls sur le site par jour au taf en partant de la home et du blog de mémoire et en ne récupérant que les urls présentes dans ces pages). En revanche, "bourriner" 22 000 wgets va peut-être faire tiquer CloudFlare qui va imposer la page de vérification du navigateur avant de rediriger vers la page demandée.

 

A noter également, qu'il y avait pas mal de crasses à la base dans ma liste d'URLs. J'ai normalement tout nettoyé mais il se peut qu'il reste un peu de rebut. :chinois:

 

Donc en cas de soucis, il faudra faire un split de la liste des urls et dispatcher la récup entre différents INpactiens

J'ai modifié quelque peu le script (car il y avais des erreurs) et je l'ai lancé. Pour le moment ça tourne sans soucis. Si NXI tombe j'en suis désolé  :francais:

 

Je veux bien aider si la manip est simple.

Pour le moment je ne suis pas banni donc ca ira mais merci. Mais si tu me trouve une solution pour supprimer les caractères html en bash je suis preneur :)

 

Je pense qu'il va y avoir quoiqu'il arrive du boulot une fois tous les titres/sous-titres récupérés. ;)

Ouep, je récupère les pages "brutes". J'ai recherché sur Internet rapidos comment convertir les html_entites en bash mais aucune trouvaille. Par contre j'ai trouvé pour du Perl la ligne suivante. Je n'ai pas Perl chez moi et si c'est terminé avant ce soir je tenterai la convertion au boulot demain matin (mais ca m'étonnerais que je puisse s'il faut au module externe). Si ce n'est pas fini ce soir, je posterai où j'en suis si d'autres veulent tester :chinois:

cat "fichier_sortie_csv.csv" | perl -MHTML::Entities -le 'while(<>) {print decode_entities($_);}'

Je me demande aussi si ca ne va pas planté lorsque l'auteur de la news est partis de l'équipe :s

 

EDIT : un petit exemple avec l'auteur qui manque : http://www.nextinpact.com/archive/66773-gta-v-rockstar-video-trailer.htm

Link to post
Share on other sites

Sinon je peux aider aussi  :ane:

 

Edit : vous avez besoin de quoi ? Titre + sous titre + lien + auteur ? je peux vous faire ça à partir de la BDD, ça ira plus vite que de crawler le site. Et en plus, vous eviterez de me casser mes serveurs :transpi:

Link to post
Share on other sites

Si tu as une requête qui peut sortir de la base -> Nom de l'article, Titre, Sous titre, Auteur, Date, URL

 

on prend :yes:

 

Ou alors on décide plutôt de DDOSer le serveur :transpi:

 

Le temps que OneDrive se bouge, et je vous donne les liens des deux csv (news + archives)

Link to post
Share on other sites

Ça va quand même être compliqué d'élire un meilleur sous titre sachant que certains d'entre eux font référence à un contexte particulier. Date de la new etc. 

Alors pour se rappeler ce qu'il se passait le 12 avril 2013 pour que Kevin écrive tel sous titre  :dd:

 

Btw j'étais jamais tombé sur votre nouvelle page 404 (en cherchant les archives-_-), je viens de passer 5 excellentes minutes  :dix:

Link to post
Share on other sites
Ça va quand même être compliqué d'élire un meilleur sous titre sachant que certains d'entre eux font référence à un contexte particulier. Date de la new etc.

 

Oui, la date et l'url permettent de faire des recherches plus poussés en cas de non compréhension de la blague :D

Enjoy !

:smack:

 

Bon y a un peu de nettoyage à faire dans le fichier 'archives', mais on tombe sur des grands moments d'émotions :phiphi:

http://www.nextinpact.com/news/NVIDIA_rachete_3DFx_.htm

http://www.nextinpact.com/news/Les_Athlon_64_FX_M_et_leurs_prix.htm

http://www.nextinpact.com/news/Preview_Windows_XP.htm

http://www.nextinpact.com/news/Mozilla_Firebird_devient_Firefox_08.htm

Link to post
Share on other sites

J'ai repris les 2 fichiers de p-a, les aient concaténés, netttoyés le foutoir (html elements et ";" partout) :

 

http://ovh.to/ZyxHR5f

 

(me suis souvenu de mon compte Hubic 1 To :transpi:)

 

NXi stat annuelle

 

NXi spammeur

 
Vincent gagne le titre de "Spammeur" (11704 actus sur 84642) :D
 
Autre info plus INtéressante dans notre entreprise : env. 22000 actus n'ont pas de sous titre renseigné. (grosso modo de 2000 à mi-2005)
 
Un petit piquage me permet de voir qu'il y a bien un sub_title définit dans le code, mais il sert dans ces cas là de chapô
 
Link to post
Share on other sites

Marrant ca il n'y avait pas de sous titres sous INpact Hardware... Je ne me souvenais pas de ce détail...

C'est vrai que dans les liens posté par John, les titres non plus n'étaient pas poilants :transpi:

Mais c'est collector !

Link to post
Share on other sites

85000 lignes :transpi:

 

Faudrait peut-être réduire un peu la période, parce que là, ça va être un peu chaud de tout parcourir et de choisir, non ?

 

Oui, et je propose d'en discuter :chinois:

 

(enfin c'est 85000 - 22000 :windu::D)

 

En gros la systématisation des sous-titres commence en 2005. On peut opérer par année (en ne prenant que les rédacteurs encore présents ou pas) par exemple. Ou faire d'une totalement totalement différente.

 

Quelque soit la solution retenue, il faudrait arriver à une liste de 10-20 candidats (soit au global, soit par année, soit par auteur...) pour proposer un sondage

 

 

Marrant ca il n'y avait pas de sous titres sous INpact Hardware... Je ne me souvenais pas de ce détail...

C'est vrai que dans les liens posté par John, les titres non plus n'étaient pas poilants :transpi:

Mais c'est collector !

 

Le premier sous titre trouvé date du 23/02/2003 -> on est encore sous INpact Hardware.

 

Attention, c'est un temps que les moins de 20 ans ne peuvent pas connaître : le rachat de Blogger :phiphi:

 

Il faut ensuite attendre le 17/06/2004 pour en retrouver un (de Nil)

Link to post
Share on other sites
Guest
This topic is now closed to further replies.


×
×
  • Create New...