this post was submitted on 02 Apr 2025
13 points (100.0% liked)

lemmy.eco.br (meta)

1209 readers
4 users here now

Esta Comunidade destina-se a postagens sobre o servidor Lemmy.eco.br.

Para obter suporte com problemas no Lemmy.eco.br, acesse a sala de suporte.

Para jogar conversa fora, utilize o !batepapo@lemmy.eco.br.

Para comentar noticias: !noticias@lemmy.eco.br.

Para comentar sobre política: !politica@lemmy.eco.br.

founded 2 years ago
MODERATORS
 

Opa gente boa noite, beleza?

Tô fazendo meu trabalho de conclusão de curso em cima do fediverse, e meus orientadores recomendaram crawlear as redes pra fazer algumas análises. Como entendo que tá todo mundo meio ferrado com esses scrappers pra GPTs da vida, queria saber se isso seria okay pelos admins e qual seria a forma mais "respeitosa" de coletar esses dados sem gerar custos pro hosting.

top 9 comments
sorted by: hot top controversial new old
[–] guilhermegnzaga 3 points 1 day ago (1 children)

Tem uma comunidade chamada artigos Artigos Científicos manda lá assim que terminar.

[–] r2castro 1 points 17 hours ago

Com prazer!

[–] bunitor 2 points 1 day ago (1 children)

primeiro de tudo: isso não teria que passar por conselho de ética não?

fora isso, a rigor, o que é público é público e ninguém pode te impedir de salvar o que quiser. mesmo assim, é de bom tom conseguir o consentimento de quem for afetado por esse scraping e deixar claro qual é o uso. muita gente pode se sentir exposta de ter todas suas conversas aleatórias salvas em um grande banco de dados. já fizeram coisa como um banco de dados público de busca por posts no fediverso inteiro e foi rechaçado com força.

seria de melhor tom ainda se você pedisse permissão para coletar os dados (opt-in) em vez de remover quem pedir (opt-out).

[–] r2castro 2 points 17 hours ago (1 children)

Esse opt-in seria a nível de instância ou de usuário? Acho que de usuário seria bem restritivo. Mas de toda forma, nada do que eu pretendo fazer necessitará a divulgação do banco de dados (eu espero). As análises serão todas feitas in-loco e agregadas preservando a privacidade de indivíduos. Mas ótimas pontuações, vou tentar conversar com meus orientadores sobre isso.

[–] bunitor 1 points 7 hours ago

tenta fazer o melhor que possível que ainda seja factível

[–] abobla@lemm.ee 5 points 1 day ago (1 children)

precisa ser um crawler? As apis são todas abertas, você pode requisitar qualquer tipo de informação que precisar.

[–] r2castro 2 points 1 day ago

Parece uma boa solução. Vou ter que estudar as APIs do lemmy e do masto, mas acho que é melhor isso do que sobrecarregar o server tendo que renderizar o front-end.

P.S. já tentei rodar um server de lemmy e o backend é eficiente pra caramba. O futuro é Rust.

[–] P4ulin_Kbana 2 points 1 day ago (1 children)

Não entendo de crawler, porém acho que depende do uso do conteúdo "scrappado". Se for pra arquivar coisas, tá tudo bem, desde que respeite o desejo de alguém ser removido, mas se for pra treinar IA, aí é paia.

[–] r2castro 2 points 1 day ago

De forma alguma é pra treinar IA, tenho ódio dessas porra. É pra fazer um estudo sobre dinâmicas sociais no Fediverse e como podem ser diferentes de dinâmicas em redes centralizadas.