Aller au contenu

« Le 18-25 et l'IA » : différence entre les versions

360 octets ajoutés ,  hier à 23:18
précision
(section "le forum en tant que jeu de données")
(précision)
 
(3 versions intermédiaires par le même utilisateur non affichées)
Ligne 6 : Ligne 6 :


* Topics à l'aide d'IA
* Topics à l'aide d'IA
* Utilisation des données du forum dans des jeux de données d'entraînement : ''[[JVCGPT]] .''
 
== Découverte de l'IA ==
En novembre [[Histoire du Blabla 18-25 ans en 2022|2022]], les forumeurs découvrent en même temps que le reste du public mondial les LLMs publiquement accessibles comme ChatGPT<ref>https://www.jeuxvideo.com/forums/42-51-71312778-1-0-1-0-openai-je-suis-devenu-accro-a-chatgpt-et-minvente-des-histoires-de-cul.htm</ref><ref>https://www.jeuxvideo.com/forums/42-51-71280834-1-0-1-0-openai-pire-que-le-porn-ma-boucle-dure-depuis-des-jours.htm</ref>.


== Topics à l'aide de l'IA ==
== Topics à l'aide de l'IA ==
Ligne 16 : Ligne 18 :


== Le forum en tant que jeu de données ==
== Le forum en tant que jeu de données ==
Tout au long de la vie du forum, des initiatives visant à archiver les messages postés (rendus particulièrement éphémères suite à l'[[Nadia Daam|affaire Nadia Daam]] en [[Histoire du Blabla 18-25 ans en 2017|2017]]) sont apparues. Parmi celles-ci, [[JvArchive|JVArchive]] a la particularité de fournir une archive publique de la majorité des messages postés depuis fin [[Histoire du Blabla 18-25 ans en 2020|2020]]. Mis à jour mensuellement, ce ''dump'' contient plus de 120 000 000 de messages, répartis en 7 500 000 [[topics]] sur lesquels ont participé plus de 800 000 [[pseudos]]. Ces données ont été exploitées dans l'entraînement de plusieurs modèles de langage :  
Tout au long de la vie du forum, des initiatives visant à archiver les messages postés (rendus particulièrement éphémères suite à l'[[Nadia Daam|affaire Nadia Daam]] en [[Histoire du Blabla 18-25 ans en 2017|2017]]) sont apparues. Parmi celles-ci, [[JvArchive|JVArchive]] a la particularité de fournir une archive publique de la majorité des messages postés depuis fin [[Histoire du Blabla 18-25 ans en 2020|2020]]. Mis à jour mensuellement, ce ''dump'' contient plus de 120 000 000 de messages, répartis en 7 500 000 [[topics]] sur lesquels ont participé plus de 800 000 [[pseudos]]. Ces données ont été exploitées dans l'entraînement de plusieurs outils et modèles :  


=== JVCGPT ===
=== JVCGPT ===
Ligne 23 : Ligne 25 :


=== ToxiFrench ===
=== ToxiFrench ===
Mi-2025, le chercheur Axel Delaval publie un papier scientifique intitulé ''ToxiFrench: Benchmarking and Enhancing Language Models via CoT Fine-Tuning for French Toxicity Detection'' portant sur la construction d'une collection de phrases de ''benchmark'' utilisées pour mesurer la détection par LLM de phrases toxiques dans des messages en français. Un ''dump'' public de jeuxvideo.com y est cité comme source de ''contenu non-filtré portant sur des sujets variés''<ref>Axel Delaval et al., “ToxiFrench: Benchmarking and Enhancing Language Models via CoT Fine-Tuning for French Toxicity Detection,” arXiv.org, August 15, 2025, <nowiki>https://arxiv.org/abs/2508.11281</nowiki>.</ref>.{{SectionRéférences}}
Mi-2025, le chercheur Axel Delaval publie un papier scientifique intitulé ''ToxiFrench: Benchmarking and Enhancing Language Models via CoT Fine-Tuning for French Toxicity Detection'' portant sur la construction d'une collection de phrases de ''benchmark'' utilisées pour mesurer la détection par LLM de phrases toxiques dans des messages en français. Un ''dump'' public de jeuxvideo.com y est cité comme source de ''contenu non-filtré portant sur des sujets variés''<ref>Axel Delaval et al., “ToxiFrench: Benchmarking and Enhancing Language Models via CoT Fine-Tuning for French Toxicity Detection,” arXiv.org, August 15, 2025, https://arxiv.org/abs/2508.11281.</ref>.
{{SectionRéférences}}
[[Catégorie:Blabla 18-25 ans]]
[[Catégorie:Blabla 18-25 ans]]
3 085

modifications