De acordo com o The New York Times, a OpenAI supostamente transcreveu mais de um milhão de horas de vídeos do YouTube para treinar o GPT-4. O relatório surge poucos dias depois de o CEO do YouTube, Neil Mohan, ter dito numa entrevista à Bloomberg que usar vídeos do YouTube para treinar IA seria uma “violação clara” das suas políticas.

A reportagem do New York Times afirma que membros da equipe OpenAI, incluindo o presidente Greg Brockman, ajudaram pessoalmente a coletar vídeos do YouTube, segundo fontes. O artigo detalha como a OpenAI e muitas empresas de tecnologia estão enfrentando desafios na coleta de dados suficientes para treinar modelos massivos de IA. A OpenAI supostamente usou o Whisper, seu software de transcrição de IA, para coletar mais dados para treinar o GPT-4, o melhor e mais recente modelo por trás do ChatGPT.
O relatório do New York Times pode ter enormes implicações para a OpenAI e a batalha contínua da IA do Google. É improvável que o Google permaneça em silêncio se a OpenAI usar seu conteúdo para tornar o ChatGPT ainda melhor. No entanto, a empresa ainda não fez tais acusações. Em uma declaração ao The Verge neste fim de semana, um porta-voz do Google disse apenas que “viu relatos não confirmados” de treinamento OpenAI.
A diretora de tecnologia da OpenAI, Mira Murati, disse que “não tinha certeza” se os vídeos do YouTube foram usados para treinar o modelo de vídeo generativo de Sora quando questionada sobre isso pelo The Wall Street Journal em março. A reportagem do New York Times não diz nada sobre Sora ou os próprios trechos do YouTube.

O próprio New York Times está atualmente processando a OpenAI por direitos autorais. OpenAI e Meta também estão processando vários autores e editores por treinamento de IA em obras protegidas por direitos autorais.
Se estes relatórios se revelarem verdadeiros, poderão surgir questões inteiramente novas sobre os direitos de autor no mundo da IA.
Qual a sua opinião?