Open source não é só código

Como um modelo de colaboração que nasceu na computação atravessou fronteiras, sustenta a infraestrutura digital do mundo e por que isso importa para o Instituto Forest.

Juliano Pádua · Forest Portal·

A Internet como a conhecemos não existiria sem software livre. Linux roda a maior parte dos servidores do planeta. Git é a espinha dorsal do desenvolvimento de software distribuído. Python e R, as duas linguagens mais usadas em ciência de dados, são projetos abertos com milhares de colaboradores. Antes de ser filosofia ou estratégia de negócios, open source é uma prática: publicar o código para que qualquer pessoa possa ler, modificar e redistribuir.

De onde veio o termo

Compartilhar código tem raízes anteriores à internet. Na ARPANET dos anos 1960, protocolos de rede se desenvolveram por revisão pública via RFC (Request for Comments), processo que segue ativo até hoje. A IBM dos anos 1950 distribuía código-fonte junto com seus sistemas operacionais. O compartilhamento de conhecimento técnico, nesse sentido, é mais antigo do que o software proprietário.

O termo "open source" em si surgiu em 1998. Christine Peterson cunhou a expressão durante uma reunião em Palo Alto, motivada pelo anúncio da Netscape de liberar o código do Navigator. Linus Torvalds apoiou o termo no dia seguinte. Eric Raymond e Bruce Perens fundaram a Open Source Initiative, que define critérios formais para que uma licença seja considerada de código aberto. O evento ficou conhecido como Open Source Summit, organizado pela O'Reilly Media, e reuniu nomes centrais do momento: Larry Wall, Guido van Rossum, Jamie Zawinski, entre outros.

O termo foi criado, em parte, para separar a prática de liberar código do movimento do "software livre" encabeçado por Richard Stallman e pela Free Software Foundation. A diferença é mais política do que técnica: Stallman defende liberdade como valor ético fundamental; a Open Source Initiative preferiu um enquadramento orientado ao desenvolvimento colaborativo e à adoção por empresas. Na prática, o código em ambos os casos é público e reutilizável.

Software e computação: o núcleo

Em computação, o impacto do open source é mensurável. O Battery Open Source Software Index (BOSS) mapeou, em 2017, os dez projetos de código aberto com maior valor econômico estimado, considerando atividade em discussões online, presença no GitHub, volume de buscas e influência no mercado de trabalho:

RankingProjetoEmpresa associadaValor estimado
1LinuxRed HatUS$ 16 bilhões
2GitGitHubUS$ 2 bilhões
3MySQLOracleUS$ 1,87 bilhão
4Node.jsNodeSourcenão estimado
5DockerDockerUS$ 1 bilhão
6HadoopClouderaUS$ 3 bilhões
7ElasticsearchElastic NVUS$ 700 milhões
8SparkDatabricksUS$ 513 milhões
9MongoDBMongoDB Inc.US$ 1,57 bilhão
10SeleniumSauce LabsUS$ 470 milhões

Esses projetos não são curiosidades acadêmicas. São a infraestrutura real sobre a qual correm bancos, governos, pesquisas científicas e boa parte da computação em nuvem. Linux é estimado em US$ 16 bilhões porque o mundo depende dele. Hadoop e Spark são a base do processamento distribuído de dados em larga escala. Git e Docker são ferramentas que qualquer engenheiro de software usa no dia a dia.

Três características definem o modelo no contexto do software. O código pode ser inspecionado e auditado por qualquer pessoa, o que distribui a responsabilidade sobre bugs e vulnerabilidades. Contribuições externas passam por revisão de manutenedores, criando um filtro baseado em mérito. Forks permitem que projetos sigam caminhos distintos quando há divergência de visão, sem que o conhecimento acumulado se perca.

Esse modelo produziu infraestrutura crítica que empresas privadas não teriam construído da forma como foi construída: sem dependência de fornecedor único, sem custo de licença, sem barreiras de acesso para pesquisadores e desenvolvedores em qualquer parte do mundo.

Além do software

O princípio open source migrou para outras áreas, com resultados concretos.

Hardware: O Arduino tornou o desenvolvimento de eletrônica acessível a hobbyistas, pesquisadores e artistas. A arquitetura RISC-V é um conjunto de instruções aberto que concorre com ARM e x86 em pesquisa e em dispositivos embarcados. O Open Compute Project, iniciado pelo Facebook, abriu projetos de data centers, servidores e sistemas elétricos.

Ciência e pesquisa: A OSGeo (Open Source Geospatial Foundation) mantém ferramentas como QGIS, GDAL e PostGIS, amplamente usadas em monitoramento ambiental, planejamento urbano e sensoriamento remoto. O Open Energy Modelling Initiative aplica o mesmo princípio a modelos energéticos usados em pesquisa e políticas públicas.

Agricultura e ecologia: A Open Source Ecology desenvolveu o Global Village Construction Set, um conjunto de 50 máquinas modulares com projetos totalmente abertos. A OpenSourceSeeds aplica copyleft a sementes, impedindo que variedades desenvolvidas coletivamente sejam patenteadas e retiradas do domínio público.

Medicina: Iniciativas de desenvolvimento farmacêutico aberto levaram à criação de consórcios voltados a doenças negligenciadas, como malária. Na bioinformática, o compartilhamento rápido de dados de sequenciamento durante o surto de E. coli em 2011 demonstrou como o modelo acelera respostas a crises.

O padrão se repete: onde há um bem comum que nenhum ator isolado tem incentivo para construir sozinho, o modelo aberto tende a emergir como alternativa viável.

O compromisso do Instituto Forest

O Instituto Forest nasce nesse contexto e não finge que é neutro em relação a ele. Nossos pipelines de dados, modelos e documentação são publicados com código aberto não como diferencial de comunicação, mas como método de trabalho: auditabilidade, reprodutibilidade e contribuição contínua fazem parte do que significa trabalhar com dados ambientais de forma séria.

Acreditamos que a comunidade open source é um bem comum que precisa ser alimentado, não apenas consumido. Isso significa aceitar contribuições, manter documentação viva e usar ferramentas abertas sempre que possível. Significa também reconhecer que os dados públicos que processamos pertencem à sociedade, e que tornar nosso trabalho reproduzível é uma obrigação, não uma concessão.