« JvArchive » : différence entre les versions

2 168 octets ajoutés ,  1 novembre
lien mort + miroir
user: 4940f19 (?)
Aucun résumé des modifications
user: 7fe0b1d (?)
(lien mort + miroir)
 
(11 versions intermédiaires par 8 utilisateurs non affichées)
Ligne 2 : Ligne 2 :
|-
|-
! colspan="2" align="center" valign="middle" height="40" style="font-weight: bold; font-size: 1em; background:#5e72e4; color: white" | [[File:logo.6c9b3f8.jpg|70px]]<br/><font size="3">''JvArchive''<br/></font size>
! colspan="2" align="center" valign="middle" height="40" style="font-weight: bold; font-size: 1em; background:#5e72e4; color: white" | [[File:logo.6c9b3f8.jpg|70px]]<br/><font size="3">''JvArchive''<br/></font size>
|-
| colspan="2" align="center" |
----
|-
|-
| '''Ouverture''' || align="center" | Mars 2021
| '''Ouverture''' || align="center" | Mars 2021
|-
|-
|-
| '''URL''' || align="center" | https://jvarchive.com/
| '''URL''' || align="center" | https://jvarchive.com/
Ligne 13 : Ligne 9 :
|}
|}


[https://jvarchive.com '''JvArchive'''] est un site archivant les [[topics]] du [[Blabla 18-25 ans|forum 18-25]] afin que ceux-ci restent accessibles en cas de [[suppression]] (par la modération de [[jeuxvideo.com]] ou par l'[[auteur]] du topic).
[https://jvarchive.com '''JvArchive'''], à ne pas confondre avec [[Geevey.com]], est un site archivant les [[topics]] du [[Blabla 18-25 ans|forum 18-25]] afin que ceux-ci restent accessibles en cas de [[suppression]] (par la modération de [[jeuxvideo.com]] ou par l'[[auteur]] du topic).


Le site apparaît pour la première fois sur un topic le 4 mars 2021. Celui-ci est très rapidement supprimé, et il n'est plus possible de poster l'URL de JvArchive, celle-ci ayant été ajoutée au bot blacklist ([[500]]).
Le site apparaît pour la première fois sur un topic le 4 mars 2021. Celui-ci est très rapidement supprimé, et il n'est plus possible de poster l'URL de JvArchive, celle-ci ayant été ajoutée au bot ''blacklist'' (erreur [[Erreur 500|500]]).


Il s'agit aujourd'hui du [[Sites et outils liés à jeuxvideo.com|site]] le plus visité de la communauté du 18-25 <ref>https://www.similarweb.com/fr/website/jvarchive.com/</ref> et fait figure d'outil indispensable pour la plupart des forumeurs actifs<ref>https://jvarchive.com/forums/message/1193719293</ref>.
Il s'agit aujourd'hui du [[Sites et outils liés à jeuxvideo.com|site]] le plus visité de la communauté du 18-25<ref>https://www.similarweb.com/fr/website/jvarchive.com/</ref> et fait figure d'outil indispensable pour la plupart des forumeurs actifs<ref>https://jvarchive.com/forums/message/1193719293</ref>.


Similaire aux projets d'archivage des forumeurs RedSky et Glosoli, ainsi que de [[Bruiter]], JvArchive est l'archive qui actuellement est restée en ligne le plus longtemps d'entre eux.
Similaire aux projets d'archivage des forumeurs ''RedSky'' et ''Glosoli'', ainsi que de [[Bruiter]], JvArchive est l'archive qui actuellement est restée en ligne le plus longtemps d'entre eux.


== Objectif ==
== Objectif ==


Expliqué par son auteur dans une FAQ présente sur le site <ref>https://jvarchive.com/faq</ref>, l'objectif du site est de sauvegarder un maximum le forum 18-25. L'auteur justifie ce projet par la politique de modération violente et diverses actions de [[jeuxvideo.com]] empêchant une bonne préservation des contenus des forums blabla.
Expliqué par son auteur dans une FAQ présente sur le site<ref>https://jvarchive.com/faq</ref>, l'objectif du site est de sauvegarder un maximum le forum 18-25. L'auteur justifie ce projet par la politique de modération violente et diverses actions de [[jeuxvideo.com]] empêchant une bonne préservation des contenus des forums blabla.


== Fonctionnement ==
== Fonctionnement ==
Une crawler parcours le forum sans interruption et enregistre les topics. Dans certains cas il arrive que le crawler n'ait pas pu archiver le contenu d'un topic si sa suppression fut trop rapide.
Un crawler parcours le forum sans interruption et archive les topics qui apparaissent dans les premières pages de la liste des sujets. Pour cette raison les anciens topics précédents la mise en place du site ne sont pas archivés pour la plupart. Certains forumeurs peuvent d'ailleurs [[Up|upper]] volontairement un ancien topic afin que JVArchive le remarque et l'archive.


=== Modération ===
Dans certains cas il arrive que le ''crawler'' n'ait pas pu archiver le contenu d'un topic ou d'un message si sa [[suppression]] fut trop rapide. Les [[Sondage|sondages]] ne sont pas non plus archivés.
Le site indique procéder à une modération légère: Fraude, pédopornographie et terrorisme uniquement. À noter qu'en cas de suppression, c'est uniquement les posts concernés qui sautent et non les topics entiers.  


=== Hébergement ===
Pour obtenir la version archivée d'un topic du 18-25, il suffit de remplacer dans l'url du topic "jeuxvideo.com" par "jvarchive.com". La démarche est la même pour obtenir le [[lien permanent]] d'un message du 18-25, ou bien le profil d'un utilisateur ayant posté au moins une fois sur le forum.
[[Fichier:Capture d’écran 2022-09-13 à 12.37.56.png|vignette|L'erreur 500 sur le site. Comme souvent un sticker est pour illustrer.]]
Pour des raisons légales évidentes, le site n'est pas hébergé dans l'Union européenne.  


=== Admin ===
Il est possible d'effectuer une recherche de topic dans toute la base de donnée, mais aussi de trouver tous les topics créés par un forumeur particulier en cherchant son pseudo. Pour l'instant les résultats ne sont classables que par un seul paramètre : si ils ont été supprimés sur jeuxvideo.com ou non. Il n'est pas encore possible d'effectuer une recherche par message, ou par date.
L'admin de JvArchive a gardé un anonymat parfait et ne peut être joint qu'à travers l'adresse mail laissée sur le site : ''jvarchive @ protonmail.com.''


=== Utilisation ===
=== Hébergement et détails ===
[[Fichier:Capture d’écran 2022-09-13 à 12.37.56.png|vignette|L'erreur 500 sur le site. Comme souvent un sticker est là pour illustrer.]]D'après le [https://who.is/whois/jvarchive.com WHOIS] du site, le [https://www.wikiwand.com/fr/Registrar registraire] est [https://www.wikiwand.com/fr/Tucows Tucows]


Pour obtenir la version archivée d'un topic du 18-25, il suffit de remplacer dans l'url du topic "jeuxvideo.com" par "jvarchive.com". Notons que l'astuce fonctionne aussi pour un pseudo ou un message particulier.  
Pour des raisons légales évidentes, le site n'est pas hébergé dans l'Union européenne. Selon certains il est hébergé aux États Unis ou en Finlande<ref>https://www.jeuxvideo.com/forums/message/1232139067</ref>. <blockquote>''Il faut savoir que les archives JVC type JVA, ça utilise des IP rotatives. En fait, quand le script qui gère l'archivage fait une requête vers JVC, il change immédiatement d'IP. Donc le ban IP est impossible, et la localisation de la source aussi. Les IP sont majoritairement des proxys random trouvés sur Internet, souvent créés accidentellement.''</blockquote>


'''Exemple:'''
=== Modération et Admin ===
''https://www.jeuxvideo.com/forums/42-51-65395814-1-0-1-0-officiel-tournoi-des-6-nations-2021.htm''
Le site indique procéder à une modération légère: Fraude, pédopornographie et terrorisme uniquement. À noter qu'en cas de suppression, c'est uniquement les posts concernés qui sautent et non les topics entiers.


devient
L'admin de JvArchive a gardé un anonymat parfait et ne peut être joint qu'à travers l'adresse mail laissée sur le site : ''jvarchive @ protonmail.com.''
 
''https://www.jvarchive.com/forums/42-51-65395814-1-0-1-0-officiel-tournoi-des-6-nations-2021.htm''


Sinon, il est possible d'utiliser la barre de recherche et rechercher par mots-clés le titre du topic.
=== API et Données publiques ===
JvArchive met à disposition du public une API utilisable gratuitement<ref>https://jvarchive.com/swagger-ui</ref>. En dehors du site, elle est notamment utilisée par les userscripts [[Deboucled|Déboucled]] et l'extension officielle "''JvArchive Compagnon''".


=== API ===
Le site propose également des [https://jvarchive.com/backup bases de données publiques] sous format CSV, accessibles sur la Wayback Machine.
JvArchive met à disposition du public une API utilisable gratuitement. <ref>https://jvarchive.com/swagger-ui</ref>
En dehors du site, elle est notamment utilisée par les userscripts [[Deboucled|Déboucled]] et l'extension officielle "[[Jvarchive Compagnon|JvArchive Compagnon]]".


==Histoire==
==Histoire==
Ligne 63 : Ligne 53 :
===2021===
===2021===


* Le 26 février le nom de domaine est enregistré.
* Le 4 mars 2021, le premier topic diffusant l'URL est créé.
* Le 4 mars 2021, le premier topic diffusant l'URL est créé.


Ligne 68 : Ligne 59 :


==== Webedia contre-attaque ====
==== Webedia contre-attaque ====
* Le 13 juillet 2022, un message d'alerte est affiché sur la page d'accueil de JvArchive. Ce message indique que le crawler utilisé pour extraire les données en provenance du forum 18-25 de Jeuxvideo.com a été bloqué par Webedia, rendant l'archivage des topics impossible.
* Le 13 juillet 2022, un message d'alerte est affiché sur la page d'accueil de JvArchive. Ce message indique que le crawler utilisé pour extraire les données en provenance du forum 18-25 de Jeuxvideo.com a été bloqué par [[Webedia]], rendant l'archivage des topics impossible.
* Le 17 juillet 2022, l'accès au site est rétabli (soit une interruption de 5 jours), mais le crawler de JvArchive se voit de nouveau très rapidement bloqué par Webedia.
* Le 17 juillet 2022, l'accès au site est rétabli (soit une interruption de 5 jours), mais le crawler de JvArchive se voit de nouveau très rapidement bloqué par Webedia.
* Le 21 juillet 2022, un message d'alerte est de nouveau affiché sur la page d'accueil de JvArchive, pour le même motif que le 13 juillet (blocage par Webedia). Les blocages menés par Webedia sont basés sur la protection applicative du service Cloudflare : lorsqu'une requête ou une IP source est suspecte, la requête HTTP est interceptée et réclame un captcha ou est tout simplement bloquée ([[Erreur 1020]]), bloquant en conséquence le crawler de JvArchive. A partir de cette période, le crawler de JvArchive commence à rencontrer de sérieuses difficultés pour atteindre le 18-25 : on peut constater des archivages totalement aléatoires, à n'importe quelle heure de la journée, de très courte durée.
* Le 21 juillet 2022, un message d'alerte est de nouveau affiché sur la page d'accueil de JvArchive, pour le même motif que le 13 juillet (blocage par Webedia). Les blocages menés par Webedia sont basés sur la protection applicative du service Cloudflare : lorsqu'une requête ou une IP source est suspecte, la requête HTTP est interceptée et réclame un captcha ou est tout simplement bloquée ([[Erreur 1020]]), bloquant en conséquence le crawler de JvArchive. A partir de cette période, le crawler de JvArchive commence à rencontrer de sérieuses difficultés pour atteindre le 18-25 : on peut constater des archivages totalement aléatoires, à n'importe quelle heure de la journée, de très courte durée.
Ligne 90 : Ligne 81 :
=== 2023 ===
=== 2023 ===


==== Compteur de connectés ====
* Le '''20 Mars 2023''', un compteur de connectés est ajouté au site.
Le 20 Mars 2023, un compteur de connectés est ajouté au site.  
* Le '''24 septembre 2023''', un mode [[fic]] est ajouté au site. Il permet d'afficher uniquement les posts de l'[[auteur]] afin de pouvoir suivre les topics plus facilement


== Critiques ==
== Critiques ==
Ligne 106 : Ligne 97 :
Beaucoup de forumeurs pensent y voir la fin proche du site, quand pour d'autres, il ne s'agirait que d'un problème transitoire.
Beaucoup de forumeurs pensent y voir la fin proche du site, quand pour d'autres, il ne s'agirait que d'un problème transitoire.


Il se pourrait qu'à l'avenir, Webedia en vienne à prendre d'autres mesures visant à casser le script d'archivage (HTML, paramètres de protection contre les bots etc.) tout en maintenant les autres mesures de protection, provoquant un épuisement des développeurs, une stratégie déjà utilisée par Webedia pour [[JV Parallele|JV Parallèle.]] et qui serait probablement applicable à JvArchive.
Il se pourrait qu'à l'avenir, [[Webedia]] en vienne à prendre d'autres mesures visant à casser le script d'archivage (HTML, paramètres de protection contre les bots etc.) tout en maintenant les autres mesures de protection, provoquant un épuisement des développeurs, une stratégie déjà utilisée par Webedia pour [[JV Parallele|JV Parallèle.]] et qui serait probablement applicable à JvArchive.
 
== Archives publiques ==
 
JvArchive propose des archives complètes du 18-25 comprenant l'intégralité des messages depuis le début de Respawn (donc aux alentours de 2014). On y obtient également les topics, des flags qui indiquent si les topics ont été supprimés ou non par l'auteur ou la modération, et on a également une liste de pseudos avec leur ID associé.
Il est possible d'importer les archives en question dans une base PostgreSQL afin de pouvoir les traiter comme désiré.
Les archives étant au format CSV, elles peuvent être importées dans des tables avec la fonction COPY de PostgreSQL.
 
Voici un schéma facilement compatible avec les dumps JvArchive : https://pastebin.com/EzNgjqKG
 
Notez que les dumps étants lourds (environ 50 Go de messages à traiter), il est recommandé d'utiliser au maximum des index et le tout sur une machine haute performance côté disque (de préférence un RAID de disques SAS, ou du NVMe).
 
A noter qu'il est inutile d'importer chaque dump pour obtenir l'intégralité des messages du 18-25. Le dernier dump publié sur le site, comprend l'intégralité des messages du 18-25.


== Bases de données publiques ==
== Miroirs ==


JvArchive propose des bases de données publiques sous format CSV, accessibles sur la Wayback Machine. Pour en savoir plus, le lien suivant liste les fichiers CSV : https://jvarchive.com/backup. Il existe une version non officielle de l'export contenant l'intégralité des bases de données de JVArchive jusqu'à juin 2023, celle-ci est en PostgreSQL et est [http://edwa.do/51.7z téléchargeable gratuitement en cliquant ici]. Les topics, messages et auteurs sont parsés et injectés dans des tables dédiées. N'oubliez pas d'ajouter des index aux contenus de la base de données afin d'optimiser les requêtes (il est recommandé d'utiliser des index de l'extension pg_trgm).
JvArchive rend ses données publiques. De fait, il est possible de créer des miroirs de JvArchive. A ce jour, le seul miroir connu de JvArchive est [[Geevey.com]].


== Liens externes ==
== Liens externes ==
Ligne 117 : Ligne 120 :
{{SectionRéférences}}
{{SectionRéférences}}


[[Catégorie:Site communautaire des forums]]
[[Catégorie:Site de la kheyosphère]]
{{TableauCatégorieSitesCommu}}
{{TableauCatégorieSitesCommu}}
Utilisateur anonyme