Neste artigo, irei apresentar uma maneira de se buscar esse objetivo.
Mas atenção: esteja ciente de que não há garantias de resultados 100%
eficazes através desse método. Continue a ler para entender a razão
disso e descobrir como o método funciona.
Como as IAs aprendem a partir do seu conteúdo?
Os
modelos de grande linguagem (LLMs) são treinados sobre dados que têm
múltiplas origens. Muitos desses bancos de dados são open source (código
aberto) e são livremente utilizados para treinar IAs.
Alguns exemplos de tipos de fontes utilizados:
– Wikipedia
– Registros governamentais
– Livros
– E-mails
– Websites rastreados
Existem
atualmente portais e websites oferecendo bancos de dados que
disponibilizam grandes quantidades de informação. Um desses portais é
hospedado pela Amazon, ofertando milhares de dados no Registro de Dados
Abertos da AWS. Só a Wikipedia aponta ao menos 28 portais para download
de milhares de conjuntos de dados, incluindo o Google Dataset.
Sobre conjuntos de dados utilizados para treinar o ChatGPT
O
ChatGPT é baseado no GPT-3.5, tecnologia também conhecida como
InstructGPT. Os conjuntos de dados utilizados para treinar o GPT-3.5 são
os mesmos utilizados no GPT-3. A maior diferença entre os dois é que o
GPT-3.5 utiliza a técnica conhecida como Aprendizagem de Reforço com
Feedback Humano (RLHF).
De acordo com o artigo científico “Language Models are Few-Shot Learners”, os cinco bancos de dados utilizados para treinar o GPT-3 e o GPT-3.5 estão descritos abaixo:
– Rastreamento comum filtrado (Common Crawl);
– WebText2;
– Books1;
– Books2;
– Wikipedia.
Desses cinco conjuntos de dados, dois são baseados no rastreio da internet – o Common Crawl e o WebText2.
Sobre o conjunto de dados WebText2
O WebText2 é um conjunto de dados privado da OpenAI (empresa dona do ChatGPT) criado a partir links publicados no Reddit que tiveram pelo menos três avaliações positivas. A premissa da lógica que utilizaram é simples: links a partir de três votos positivos tendem a ser confiáveis e fornecem conteúdo de boa qualidade.
Apesar de o WebText2 não
estar disponível publicamente, existe uma versão de código aberto
chamada OpenWebText2. Esse é um conjunto de dados públicos que utiliza
os mesmos padrões de rastreio, que presume oferecer um conjunto de dados
de URLs similar, se não for igual, ao do WebText2 da OpenAI.
Até
onde pesquisei, não foi possível identificar user-agent desses para
bloqueio nos rastreadores. Contudo, pode-se afirmar com bom grau de
certeza de que websites vinculados ao Reddit com ao menos três
avaliações positivas provavelmente estarão incluídos no conjunto de
dados WebText2 da OpenAI de código fechado, assim como na versão de
código aberto.
Caso seja de interesse de alguém, existe uma versão limpa do OpenWebText2 que pode ser baixada aqui, assim como a versão bruta, disponível aqui para ser analisada.
Sobre o Common Crawl (rastreamento comum)
Um
dos conjuntos de dados mais comumente utilizados que é constituído de
conteúdos da internet é o Common Crawl, criado por uma organização sem
fins lucrativos de mesmo nome.
Os dados do Common Crawl têm
origem no bot “CCBot”, que rastreia toda a internet. Os dados são
baixados por organizações que desejam utilizá-los, limpos de sites com
spam etc.
O CCBot obedece ao protocolo robots.txt, muito
utilizado por profissionais de SEO. Assim sendo, é possível solicitar o
bloqueio do Common Crawl através do robots.txt, evitando que conteúdos
de seu site – seja ele blog, site de notícias, e-commerce ou outro –
faça parte de outro conjunto de dados.
Caso seu website já tenha sido rastreado, é provável que ele já esteja presente em múltiplos conjuntos de dados. Todavia, ao bloquear o Common Crawl, é possível impedir que o conteúdo de seu website seja incluído em novos conjuntos de dados que tenham origem nos dados mais recentes do Common Crawl. E é exatamente por essa razão que o processo a ser apresentado a seguir não tem garantia de plena eficácia, ok?
A string do CCBot User-Agent é: CCBot/2.0
(Atenção: não execute as instruções a seguir sem antes ler as considerações).
Dessa forma, adicione as instruções a seguir no arquivo robots.txt do seu website para bloquear o CCBot do Common Crawl:
User-agent: CCBot
Disallow: /
Lembrando que o CCBot também segue as diretrizes da meta tag nofollow. Para isso, utilize em seu robots meta tag:
<meta name=”CCBot” content=”nofollow”>
Considerações antes que você decida prosseguir
Muitos
conjuntos de dados, incluindo o Common Crawl, podem ser utilizados por
empresas que filtram e categorizam URLs objetivando a criação de listas
de websites para publicidade segmentada.
O conjunto de dados é útil para, por exemplo, AdTechs e para uso de publicidade contextual. Para citar um caso, a Alpha Quantum é uma empresa que oferece um conjunto de dados de URLs categorizados usando Taxonomia do Interactive Advertising Bureau. Nesse sentido, a exclusão de conjuntos de dados como esse poderia causar ao website uma perda potencial com anunciantes.
Os
mecanismos de busca (tais como Google, Bing e outros) permitem que
websites optem por não serem rastreados, assim também faz o Common
Crawl. Contudo, atualmente não existe forma simples de remover o
conteúdo de um website de conjuntos de dados já existentes.
Hoje, há discussões a respeito do uso de dados de sites sem permissão por tecnologias de IA como o ChatGPT, mas se os editores de conteúdo terão voz para decidir como seus conteúdos são utilizados é algo que ainda não sabemos como ou se irá acontecer.
Para construir este artigo, além das fontes previamente citadas, realizei a tradução do conteúdo publicado aqui, que pode ser lido na íntegra para quem tiver interesse (em inglês).
E aí, o que achou? Aproveite para acompanhar o Portal Vovo GaTu no Twitter [1] [2], Instagram, Facebook, TikTok, Koo App e no Youtube!
Continue acompanhando o Portal Vovo GaTu
para ficar por dentro de outros conteúdos de entretenimento!
--------------------------------------------------------------------------------------
Enfim, gosta do Portal Vovo GaTu😍? Siga-nos nas redes sociais.
Fique por dentro das noticias, e nao perca nada!😄 Contamos consigo!
Herley costa: