Publicité
La bourse ferme dans 7 h 59 min
  • CAC 40

    8 116,01
    +23,90 (+0,30 %)
     
  • Euro Stoxx 50

    5 049,72
    +24,55 (+0,49 %)
     
  • Dow Jones

    39 671,04
    -201,95 (-0,51 %)
     
  • EUR/USD

    1,0828
    +0,0001 (+0,01 %)
     
  • Gold future

    2 364,80
    -28,10 (-1,17 %)
     
  • Bitcoin EUR

    64 232,19
    -124,54 (-0,19 %)
     
  • CMC Crypto 200

    1 514,70
    +12,04 (+0,80 %)
     
  • Pétrole WTI

    77,26
    -0,31 (-0,40 %)
     
  • DAX

    18 739,88
    +59,68 (+0,32 %)
     
  • FTSE 100

    8 364,18
    -6,15 (-0,07 %)
     
  • Nasdaq

    16 801,54
    -31,08 (-0,18 %)
     
  • S&P 500

    5 307,01
    -14,40 (-0,27 %)
     
  • Nikkei 225

    39 103,22
    +486,12 (+1,26 %)
     
  • HANG SENG

    18 920,53
    -275,07 (-1,43 %)
     
  • GBP/USD

    1,2728
    +0,0008 (+0,06 %)
     

OpenAI a instruit ChatGPT sans se soucier du droit d’auteur

Les modèles d’OpenAI, et notamment GPT-4, sont entraînés sur de nombreux livres, protégés en partie par le droit d’auteur. Une équipe de chercheurs de l’Université de Berkeley livre ses premières conclusions.

Pour produire des résultats cohérents et précis, les intelligences artificielles passent par une phase d’apprentissage intense (deep learning). Au cours de cette étape, les ingénieurs en charge de l’IA fournissent des ressources textuelles diverses et complexes.

Ainsi, lorsqu’on interroge ChatGPT sur ses données d’entraînement, le chatbot assure avoir emmagasiné des articles de journaux, de nombreux sites web, des corpus de textes spécifiques (universitaire ou collaboratif notamment), des conversations réelles (apprentissage par renforcement) ou encore des livres.

Les modèles derrières ChatGPT sont entraînés sur divers corpus.  // Source : Capture d'écran
Les modèles derrières ChatGPT sont entraînés sur divers corpus. // Source : Capture d'écran

Pour mieux comprendre le processus d’apprentissage et ses conséquences sur les réponses générées par l’IA, une équipe de chercheurs de l’Université de Californie à Berkeley (Kent Chang, Mackenzie Cramer, Sandeep Soni, et David Bamman) ont étudié la liste probable des livres connus par ChatGPT et GPT-4.

PUBLICITÉ

« Nous avons découvert que les modèles d’OpenAI ont mémorisé une vaste collection de matériaux protégés par le droit d’auteur et que le degré de mémorisation est lié à la fréquence à laquelle des extraits de ces livres apparaissent sur le web », expliquent les universitaires au sein d’un article scientifique publié

[Lire la suite]