Pesquisa Python no Brasil 2022
Conteúdo
Pesquisa Python no Brasil 2022#
Mais uma vez no Telegram, fiquei com vontade de obter números para poder conhecer melhor a comunidade Python no Brasil. No grupo Python Brasil, temos mais de 5000 membros (Março/2022), porém muitos não participam das discussões, outros vem e vão. A ideia foi de circular uma pesquisa com Google Forms nos grupos e via Twitter. Qual a faixa etária? Que versão de Python utilizam? Qual IDE? Em que trabalham? Onde moram? O desafio é tentar achar um meio termo com um número de perguntas úteis para que mais pessoas participem da pesquisa.
Agradecimentos#
Primeiro gostaria de agradecer ao Felipe Cifali e o Paulo Haddad, administradores do grupo Python Brasil no Telegram, que deram um apoio logo no início, deixando usar o grupo para divulgar o formulário e reportar diariamente o progresso da pesquisa. O mesmo para o Eduardo Mendes que também apoiou a pesquisa no grupo Live de Python. Outras pessoas também ajudaram a divulgar via Twitter, como o Ingo (La Sombra), Helio Loureiro, entre outros, humanos e bots :-D.
Ao professor Fernando Masanori que nos incluiu em sua mega rede de seguidores e ajudou enormemente na divulgação da pesquisa. Aos professores do grupo PythonBrEdu (privado) que divulgaram maciçamente a pesquisa em suas instituições, fazendo com que o Rio Grande do Norte alcançasse o segundo lugar em participação, logo após São Paulo! Ao professor Adorilson Bezerra que fez spam entre os professores dos Institutos Federais. Aos professores Antonio Santos Jr (IFAM-AM) e Danielle Valente (UEA-AM) que ajudaram na divulgação da pesquisa no estado do Amazonas!
A todas as pessoas que ajudaram a pesquisa e principalmente a todos que responderam.
Declaração#
Fazer uma pesquisa não é tão fácil quanto parece. Com 897 respostas, apenas uma pessoa reclamou do login do Google. O login era solicitado para deixar a pessoa editar suas respostas e também para evitar que a mesma pessoa respondesse múltiplas vezes. Em momento algum o Google me enviou seu email, salvo se você o adicionou no campo para ser contactado. As respostas mais pessoais foram removidas, pois é impossível gerar gráficos e estatísticas com elas, mas estou lendo uma por uma. Todo cuidado foi tomado para deixar os resultados disponíveis e anônimos. Se você encontrar algo que é privado ou que não deveria ser divulgado, por favor me contacte no Telegram (@lskbr) que atualizo o arquivo. Algumas pessoas (2) incluíram seus e-mails em todos os campos da pesquisa, eu considerei isso como um teste.
Em algumas questões, o número de respostas não é igual ao número de participantes. Quando este número é superior ao de participantes, a questão provavelmente é de múltipla escolha e cada resposta conta. Quando este número é inferior ao de participantes, pode-se explicar por: remoção de respostas completamente sem sentido (nível Zé) e a participantes que não responderam a pergunta.
A versão do Google Data Studio é acessível a deficientes visuais.
Esta pesquisa foi realizada com o apoio da comunidade Python do Brasil e do exterior, porém não constitui uma pesquisa oficial e não tem qualquer relação com a Python Software Foundation ou com a Associação Python Brasil. Todas as opiniões e interpretações deste artigo foram baseadas nos dados coletados e na minha interpretação dos resultados.
A preparação dos dados#
Desde o início da pesquisa, fiquei preocupado em não recolher dados privados de quem participou. Durante a preparação dos dados, cada coluna foi analisada, com e-mails e outros identificadores sendo removidos. Um bom trabalho de normalização também foi realizado, pois os programas que visualizam os dados são sensíveis a mudança entre letras maiúsculas e minúsculas e outros detalhes. Os campos mais difíceis de trabalhar foram os sobre o nível profissional e o título atual. Você pode (baixar os dados) brutos, sem a normalização e a versão normalizada que utilizei para mostrar os resultados (links no fim do artigo).
Período de coleta#
A pesquisa ficou aberta entre 14/03/2022 e 31/03/2022. Todo dia, pela manhã, eu registrei o número de respostas recebidas até então. O log ficou no post (link removido) (a partir de 16/03). O apoio de várias pessoas para divulgar a pesquisa é muito importante. O anúncio deve ser feito diariamente para obter o maior número de respostas.
Numa próxima pesquisa, tentar trabalhar o apoio a pesquisa antes mesmo de iniciar a divulgação.
Resultados da pesquisa 2022#
Versão do Python utilizada#
Sem surpresas, a versão mais utilizada é a 3.10, a mais atualizada, seguida das versões anteriores (3.9 e 3.8). Felizmente muito poucos ainda usam a versão 2.7, sem suporte e com mais de dez anos. A utilização da versão mais nova também pode ser vista por um alto número de pessoas aprendendo Python agora, normalmente instalando a versão mais nova, disponível no site para download.
População#
A idade dos participantes também não é uma surpresa, a grande maioria está entre 26 e 35 anos, mas com uma parcela significativa entre os 36 e 50. Isso mostra que Python está muito ativa entre profissionais iniciantes, mas também com profissionais mais experientes. Já temos inclusive uma parte significativa em com mais de 51 anos.
A faixa entre 19 e 25 anos também conta com várias pessoas, nas idades chaves do primeiro curso superior e em busca do primeiro emprego.
A surpresa foi o baixo número de jovens entre 13 e 15 anos, mas acredito que este resultado seja afetado pelos canais que utilizamos para divulgar a pesquisa.
A maioria dos que responderam a pesquisa são profissionais de informática (ou áreas afins) e estudantes do ensino superior. Interessante constatar que Python é uma linguagem usada tanto profissionalmente como no ensino e pesquisa. É uma linguagem com excelente adoção em outras áreas também.
Equipamento#
A grande maioria usa o notebook para programar. Esta questão foi levantada pelo crescente número de pedidos de ajuda de quem utiliza o celular para programar.
Embora apenas 5.9% dos que participaram usem o celular, ainda é um número expressivo. Uma questão que resta é se a pesquisa estava acessível para dispositivos móveis (celulares) ou se a utilização destes inibiu ou desestimulou a participação na pesquisa.
Quanto ao sistema operacional, sem surpresas, temos a maioria usando o Microsoft Windows, mas um segundo lugar honrável para o Linux, com 38.1%.
Editores de texto#
Um dos assuntos mais delicados desta pesquisa, qual o editor de textos/IDE mais utilizado por quem programa em Python! Com 41.1% temos o Visual Studio Code da Microsoft em primeiro lugar, impressionante para um produto relativamente novo no mercado. Este sucesso pode ser explicado pelo número impressionante de extensões disponíveis para este editor.
Em segundo lugar temos o PyCharm com 27.9% e o velho Vim de guerra com 7.6%. Eu acredito que o PyCharm tenda a ser menos utilizado com o tempo, quando outras pessoas começarem a descobrir o VS Code. O Vim está há mais de 40 anos no mercado e não deve mudar tão cedo. Dos editores antigos, o Emacs foi representado com 0.7%.
Uso do Python#
Dada a população da pesquisa, o primeiro lugar do uso do Python ficou bem acirrado, tendo exercícios de lógica de programação e aplicações web em primeiro e segundo lugares respectivamente.
Seguidos de ciência de dados, banco de dados e scripts.
Infelizmente Ciências do mal continuam sendo representativos na pesquisa com 3% dos resultados. É importante notar que esta opção foi mais escolhida que segurança e que muitos participantes escreveram ramsonware em suas respostas. Este é um resultado que pode ser explicado por alguns fatores: piada, falta de noção, rebeldia. A piada é fácil de entender, a opção foi escrita para ser engraçada, embora o assunto seja sério. A falta de noção que estas atividades são criminosas espanta, mas não surpreende, dado os atos de rebeldia contra o sistema da juventude (constante, independente da época ou geração). A esperança é que estes 3% usem esse conhecimento para se aprofundar em questões como segurança e proteção de sistemas.
Formas de aprender#
Cursos livres (23.9%) ainda são a forma mais utilizada de aprender Python, seguidos dos autodidatas (23.7%), vídeos (19%) e livros (13.5%). Isto indica uma boa mudança na forma de estudar e aprender Python, principalmente se considerarmos que boa parte dos cursos são realizados a distância ou por vídeo. Em uma futura pesquisa, separar como a pessoa participou dos cursos e se estes foram grátis ou pagos pode ser interessante.
Um tópico para outra pesquisa é o que leva a pessoa a escolher uma determinada mídia. Eu acredito que sejam dois fatores: acesso e preço. É muito fácil acessar os vídeos e normalmente o conteúdo é grátis. Resta saber se as pessoas assistem ao curso inteiro, mas isso fica para 2023.
Grupo do Telegram#
Aqui, os resultados realmente surpreenderam. 41% dos que responderam sequer participam do grupo Python Brasil. Isto mostra a eficácia dos outros meios (Twitter) e confirma que conseguimos atingir mais pessoas que as que participam o grupo no Telegram. Além disso, mais de 30% dos participantes são membros há menos de 1 ano.
Entre os pontos positivos do grupo temos a troca de experiências e o ambiente amigável. Estes dois itens são em boa parte graças a comunidade Python e ao super trabalho dos moderadores que todo dia controlam o que é discutido no grupo.
A popularidade das ofertas de emprego foi uma surpresa, assim como o anúncio de cursos.
Já no que as pessoas não gostam, temos as comparações com outras linguagens, anúncios de blogs e anúncios de cursos (também presente na lista dos que mais gostam).
A Associação#
Outra surpresa foi o grande desconhecimento da existência da Associação Python Brasil.
Este resultado pode se explicar pelo fato da Associação ter sido criada para emitir notas fiscais para eventos e dar suporte ao recebimento de patrocínio. Dos que responderam a pesquisa, apenas 7.1% são membros da associação e 64% nem sabiam que ela existia. Numa futura pesquisa, podemos perguntar sobre grupos regionais e PyLadies também.
Python Brasil#
A maioria também nunca participou de uma Python Brasil, tanto on-line quando presencial. Talvez este número seja explicado pela grande quantidade de pessoas que participam do grupo do Telegram há menos de um ano.
Quanto a apresentar na Python Brasil, 6.3% já apresentaram alguma vez na conferência.
Outros 1.1%, submeteram mas não tiveram sua apresentação selecionada.
Salários e formação#
Sem dúvida, uma das partes mais interessantes da pesquisa.
Aqui podemos ver a participação por estado da federação. Quanto mais participantes, mais azul fica o estado.
A participação de cada estado não foi proporcional ao tamanho da comunidade ou mesmo da população de cada estado. O grande número de participantes do Rio Grande do Norte se deu por conta de uma campanha de divulgação mais intensa, o mesmo para o estado do Amazonas.
Ainda assim, tivemos participação em todos os estados do Brasil e contamos com 5 participantes no Acre e 2 em Roraima. O time do exterior também participou com 23 respostas.
As principais cidades também trazem resultados interessantes.
São Paulo como esperado, Natal e Manaus devido às campanhas de divulgação mais intensas, mas também cidades do interior como São José dos Campos (Masanori?) a frente de capitais como Rio de Janeiro e Recife.
O contrato mais utilizado ainda é o CLT, o emprego tradicional. Seguido das pessoas jurídicas. O grande número de desempregados pode ser relativo ao número de estudantes que participaram da pesquisa. Eu acredito que uma distinção entre estudante e desempregado deve ser salientada numa próxima pesquisa para deixar claro.
Quanto aos salários, a grande maioria ganha menos de R$2000,00 por mês. Uma grande parte ganha entre R$5.000,00 e R$10.000,00 por mês, valores influenciados pelo grande número de estudantes, estagiários e júniores que responderam a pesquisa.
Aqui, a utilização de filtras no Google Data Studio podem trazer luz a algumas questões. Como a remuneração muda com o tipo de contrato, você pode filtrar apenas contratos CLT ou PJ. Trabalhando com os filtros, vários cenários podem ser criados. A página e o link estão incluídos no final deste artigo e você pode criar filtros usando a página web.
Boa parte dos participantes é contratada como desenvolvedor, com um grande número de estagiários, seguidos dos analistas de sistemas e engenheiros.
O nível dos diplomas também é bem elevado. Tivemos mesmo 19 doutores respondendo a pesquisa, embora a confiabilidade destes resultados não seja muito grande (doutores com menos de 15 anos).
Grande parte dos profissionais tem nível superior ou estão cursando.
Outra pergunta difícil foi o nível do cargo. Aqui as pessoas realmente usaram toda a imaginação na resposta outros.
A grande maioria está em início de carreira, trabalhando como Júniores.
Os PUGs foram difíceis de normalizar, cada pessoa escreveu de uma forma diferente. Embora um esforço de uniformização tenha sido feito, os resultados ainda precisam de mais trabalho. Recomendo filtrar por estado para ter uma ideia.
Trabalhando alguns filtros#
Usando o Google Data Studio, podemos responder algumas perguntas específicas. Por exemplo, onde moram as pessoas que ganham mais que R$20.000,00 por mês?
Ganhando mais de R$20.000,00 por mês#
Em quais estados?
Em quais cidades?
Com qual nível de formação?
Em qual contrato de trabalho?
Quanto ganha uma pessoa contratada como PJ em São Paulo?
Com qual diploma?
Em quais cidades?
Salários no Exterior#
Com qual formação?
Salários no Nordeste do Brasil#
Salários no Norte do Brasil#
Salários no Sul do Brasil#
Salários no Centro-Oeste do Brasil#
Salários no Sudeste do Brasil#
Lições aprendidas#
Pensar muito antes de permitir campos com múltipla escolha.#
Eles não permitem priorizar as escolhas e cada vez que alguém escolhe mais de uma opção, é como se alguém votasse duas vezes. Outro problema é que o Google Sheets realmente não gosta da ideia de ter vários valores em uma só célula. Para facilitar a análise desses dados, outras planilhas foram criadas (via script), repetindo-se os campos e colocando cada múltipla escolha em uma linha única. Há uma opção onde a pessoa pode ordenar as opções da resposta que merece ser explorada.
Deixar muito claras as perguntas#
O entendimento das perguntas pode variar enormemente. Por exemplo, cidade onde mora não ficou claro. Algumas pessoas preencheram onde nasceram. O objetivo era saber onde estavam quando responderam à pesquisa. A diferença fica clara quando comparamos com os grupos que a pessoa participa.
A questão do desempregado e estudante também ficou ambígua. No meu entendimento, desempregado é quem procura um emprego e não está trabalhando no momento. O estudante estuda para depois procurar emprego. Profissionais procurando requalificação também não deixaram claro se estão atualmente empregados em outras áreas ou desempregados e procurando emprego.
A lógica usada para responder estas questões é fácil de entender. As questões precisam ser melhor explicadas. Provavelmente um pequeno texto após cada questão ajude a deixar mais claro o objetivo.
Cadeia de perguntas#
Algumas perguntas deveriam ser saltadas quando uma resposta fosse escolhida. Por exemplo, quando a pessoa é estudante, pular a parte de profissão. O mesmo para pessoas sem emprego.
Campo outros#
Em várias questões, um campo outros foi disponibilizado. Aqui as pessoas escreveram de tudo um pouco. Problemas com a classificação abundaram, mas a normalização ajudou a resolver. Por exemplo, desempregado e sem emprego ou apenas estudo em vez de estudante.
Trabalhos futuros#
Para 2023, provavelmente, precisaremos substituir o Google Forms por outro programa e de novas perguntas. Embora tenha sido difícil trabalhar com o campo outros, eles ajudam a descobrir valores não considerados durante a criação das opções.
Ficam como ideias perguntar sobre pacotes utilizados para desenvolver as aplicações, mais detalhes sobre remuneração e como a pessoa aprendeu Python. Nem chegamos a tocar no que as pessoas acharam mais difícil e nos materiais que faltam para ajudar a aprender mais rápido.
Algumas pessoas me contactaram para incluir opções de gênero com objetivo de ter uma ideia de inclusão e também de disparidade salarial. Eu não me sinto competente para elaborar tal pesquisa, mas ajudo como puder quem queira organizar tais pesquisas. Acredito que um pesquisador da área de humanas seja necessário para elaborar corretamente tais questões e tratar os dados de forma adequada. São assuntos bem mais sérios e considero não poderem ser tratados de forma amadora.
Conclusões#
A enorme maioria das pessoas tratou a pesquisa de forma muito positiva. Claro, não dá para agradar a todos, mas acredito que a pesquisa tenha sido muito bem recebida.
Os resultados mostram que um pesquisa futura talvez precise de um software mais robusto que o Google Forms.
Para uma primeira pesquisa, o resultado e a abrangência foram muito bons. Com o apoio da comunidade, acredito que a pesquisa de 2023 será mais interessante ainda. A exploração dos dados brutos pode também apresentar resultados inesperados.