You mentioned smaller models achieving better results than ChatGPT, but those models have trouble extending their knowledge to a wide variety of topics, which is shown by their subpar performance in GPQA (general knowledge) tests.
I agree. Coming together to build something scientifical or technological that doesn't involve the government doesn't necessarily mean coming up with corporate money to fund and exclude everyone but their personal interests.
This is a social endeavor like any other. You can't blaim bringing people together for the corporate interests of this kind of enterprise (the Network State).
I think it's important to come up with other forms of generating synthetic data that doesn't come from distilling other models. Translating documents, OCRing old documents and using Digital Twins to train visual models come to mind. I've never successfully trained any model text-related, but I think the quality of the original text should be critical in how it will perform.
Really liked the article.
Not only the big players extract data from the common citizen, but it also enforces information upon them. AI will make people interact through exchange of knowledge less, and concentrate all the "talk" and information on the hands of few. I think this is a big problem, especially as we near the quantum computation era. How can individuals and smaller organizations possibly compete in AI quality on that scenario? But maybe hardware power won't be the greatest force in Artificial Intelligence.
It isn't that bad. It also stated new facts to me, like that GTA is owned by Take-Two.
#ebooks is composed of datahoarders that have a lot of stuff available. You declare the data source you're getting the book from (e.g. Oatmeal) and then the name of the book.
This is common in rolling releases, but Pop OS isn't a rolling release distro. Maybe a package you installed or something similar?
Vira e mexe um dos mirrors para esses repositórios quebra, deixo a dica de visitar o Wikipédia quando isso acontece, que normalmente ele tem os links mais recentes.
O canal #ebooks do IRCHighWay também tem grandes datahoarders que deixam seus livros à disposição do público. Eles também têm um website aonde você pode pedir para que um livro da Amazon se torne disponível pra download.
Encontrei no XMPP alguns grupos que falam em espanhol que parecem ser argentinos, então me parece que há uma evolução por esse lado. Mas acho que o espanhol é a língua que tem mais chance de unificar uma comunicação latinoamericana. É mais fácil imaginar uma "Big Tech" latinoamericana, como por exemplo uma rede social em espanhol para unir as comunidades latinoamericanas, do que uma "Big Tech" em português com o mesmo fim. Talvez a tradução por computador não seja perfeita, mas é o que temos mais próximo para fazer com que as pessoas se entendam.
Como você disse, tem uma concentração da comunicação nessas empresas, e isso não é um molde fácil de quebrar, especialmente com um empresariado tão vendido aos interesses dos EUA. Como conseguir o investimento para criar uma empresa latinoamericana de rede social e tecnologia quando conversamos com pessoas que não entenderiam nem o fim que tal empresa teria? É muito difícil. E o Brasil se deixou estruturar por esses interesses. Tudo no Brasil é NVIDIA, Oracle e Microsoft - e olha que somos vistos como uma região de pouco interesse internacional em iniciativas empreendedoras nacionais, ao menos na tecnologia.
Lembro que a UOL e outras empresas chegaram a tentar, com o UOL Mais (era uma alternativa ao YouTube, que as pessoas criavam seus próprios vídeos) e o MinhaTeca (site de compartilhamento de arquivos que foi fechado pela Justiça), mas a voracidade do Google foi mais longe em acabar com a oposição.
O brasileiro comum tem que entender a importância de ter uma empresa nacional ou latinoamericana que faça esse serviço. Enquanto não houver, estaremos presos nesse cenário. Você conversa com pessoas da tecnologia, e elas estão sempre falando que produtos dos EUA são bons e China são xing-ling. Essa visão ainda é predominante no cenário tecnológico brasileiro e vai ser difícil chegarmos em algum lugar de destaque com essa visão. Para acessar esse tipo de visão, basta visitar os fóruns do Clube do Hardware ou o Adrenaline. É impressionante como estamos distantes de uma visão tecnológica nacional olhando por esse lado.
O cenário não é nada animador pra quem quer construir alguma coisa de importância para o Brasil, e a fuga (de correr para longe mesmo) de cérebros é real e as pessoas vão lá tentar a sorte na Europa. Precisamos que as pessoas fiquem e que sejam valorizadas ao tentar construir algo de valor para o Brasil. Vi o desenvolvedor do Tucano (uma LLM feita por um brasileiro usando um corpus brasileiro chamado GigaVerbo) apresentando o modelo e os questionamentos dos presentes na conversa não foram nada bons, com um representante da NVIDIA chegando a perguntar se eles (o projeto era de mais de uma pessoa) tinham usado tecnologia da NVIDIA para desenvolver o modelo. É um horror.
Mas tudo precisa começar em algum lugar. Acho que o Fediverso e o Open-Source, especialmente o conceito de Small Web, têm futuro para o Brasil, sendo necessário que a tecnologia brasileira ganhe destaque pelo menos no cenário nacional. O Brasil é bom de TI, temos o Elixir e a Lua, além de várias outras iniciativas brasileiras que foram importantes. Precisamos chegar em algum lugar.
É um mercado trilionário (se contar com o crescimento da NVIDIA), acho que eles conseguem compensar os autores de alguma forma.