A Universidade de Harvard anunciou na quinta-feira que está lançando um conjunto de dados de alta qualidade de quase um milhão de livros de domínio público que poderia ser usado por qualquer pessoa para treinar grandes modelos de linguagem e outras ferramentas de IA. O conjunto de dados foi criado pela recém-formada Iniciativa de Dados Institucionais de Harvard, com financiamento da Microsoft e da OpenAI. Contém livros digitalizados como parte do projeto Google Livros que não estão mais protegidos por direitos autorais.
Cerca de cinco vezes o tamanho de o notório conjunto de dados Books3 que foi usado para treinar modelos de IA como Meta’s Llama, o banco de dados da Institutional Data Initiative abrange gêneros, décadas e idiomas, com clássicos de Shakespeare, Charles Dickens e Dante incluídos ao lado de obscuros livros didáticos de matemática tcheca e dicionários de bolso galeses. Greg Leppert, diretor executivo da Institutional Data Initiative, diz que o projeto é uma tentativa de “nivelar o campo de jogo”, dando ao público em geral, incluindo pequenos participantes da indústria de IA e pesquisadores individuais, acesso ao tipo de dados altamente refinados e repositórios de conteúdo com curadoria que normalmente apenas gigantes da tecnologia estabelecidos têm recursos para montar. “Ele passou por uma revisão rigorosa”, diz ele.
Leppert acredita que o novo banco de dados de domínio público poderia ser usado em conjunto com outros materiais licenciados para construir modelos de inteligência artificial. “Penso nisso da mesma forma que o Linux se tornou um sistema operacional fundamental para grande parte do mundo”, diz ele, observando que as empresas ainda precisariam usar dados de treinamento adicionais para diferenciar seus modelos dos de seus concorrentes.
Burton Davis, vice-presidente da Microsoft e vice-conselheiro geral de propriedade intelectual, enfatizou que o apoio da empresa ao projeto estava alinhado com suas crenças mais amplas sobre o valor de criar “conjuntos de dados acessíveis” para startups de IA usarem e que são “gerenciados no interesse do público”. Em outras palavras, a Microsoft não está necessariamente planejando trocar todos os dados de treinamento de IA que usou em seus próprios modelos por alternativas de domínio público, como os livros do novo banco de dados de Harvard. “Usamos dados disponíveis publicamente para treinar nossos modelos”, diz Davis.
Como dezenas de ações judiciais movidas pelo uso de dados protegidos por direitos autorais para treinar IA vento em seu caminho pelos tribunais, o futuro de como as ferramentas de inteligência artificial são construídas está em jogo. Se as empresas de IA ganharem os seus casos, poderão manter raspando a internet sem a necessidade de celebrar acordos de licenciamento com detentores de direitos autorais. Mas se perderem, as empresas de IA poderão ser forçadas a reformular a forma como os seus modelos são fabricados. Uma onda de projectos como a base de dados de Harvard está a avançar sob o pressuposto de que – aconteça o que acontecer – haverá um apetite por conjuntos de dados de domínio público.
Além do tesouro de livros, a Iniciativa de Dados Institucionais também está trabalhando com a Biblioteca Pública de Boston para digitalizar milhões de artigos de diferentes jornais agora em domínio público, e diz que está aberta a formar colaborações semelhantes no futuro. A forma exata como o conjunto de dados dos livros será divulgado não está definida. A Iniciativa de Dados Institucionais pediu ao Google para trabalhar em conjunto na distribuição pública, mas o gigante das buscas ainda não concordou publicamente em hospedá-lo, embora Harvard diga que está otimista de que o fará. (O Google não respondeu aos pedidos de comentários da WIRED.)