O Crunchbase é um conjunto de dados global atualizado diariamente que contém informações sobre empresas e as pessoas envolvidas nos negócios, como por exemplo agentes financiadores e os fundadores dessas empresas (EUGENE; YUAN, 2012; DALLE et al., 2017). Essa plataforma possibilita descobrir empresas altamente inovadoras em diversas partes do mundo (CRUNCHBASE, 2020). Como um banco de dados parcialmente crowdsourcing, o Crunchbase é cada vez mais usado para fins acadêmicos e comerciais (DALLE et al., 2017). Foi adquirida uma licença comercial durante os anos de 2018 e 2019 que permitiu acesso ilimitado aos dados, além de funções avançadas de pesquisa no Crunchbase. Desse modo, foram procuradas empresas em todos os 26 estados brasileiros e mais o distrito federal. A primeira coleta foi realizada em agosto de 2018, obtendo-se 3.661 empresas, e a segunda coleta foi realizada cerca de 1 ano depois, em julho de 2019, obtendo-se 8.995 companhias. Nessa pesquisa, empregaram-se os dados da segunda coleta por estarem mais atualizados, além disso todas as empresas da primeira coleta estava contidas na segunda coleta. Os dados coletados de cada empresa são listados abaixo:
• Nome. Nome fantasia da startup.
• Categoria. Setor de atuação da startup (atributo “Categories”), por exemplo, “serviços financeiros”, “agricultura”, “cuidados médicos“, etc.
• Localização da sede. Identificação da cidade e estado brasileiro onde se localiza a sede da startup.
• Situação de operação. Situação atual da startup no período da coleta, por exemplo, “em atividade” ou “fechada”.
• Número de fundadores. Número de sócios fundadores da startup.
• Número de empregados. Quantidade de funcionários empregados na startup.
• Total de investimentos recebidos. Total de investimentos recebidos (USD1) desde a criação da startup até a data da coleta.
4.1.1 Startups
Uma sequência de procedimentos foi aplicada para obter um conjunto final de 5.586 startups (figura 3). A partir do conjunto inicial de 8.995 empresas, consideraram-se como startupsaquelas com no máximo 15 anos de idade desde a data de sua fundação contada até a data da coleta de dados, resultando em 6.331 startups. Em seguida, aplicou-se o filtro em startupscom situação de operação “fechada” mas sem data de fechamento por se tratarem de registros inconsistentes, obtendo-se 6.129 startups.
O componente Google Place é uma Application Programming Interface (API) disponí- vel na Plataforma de serviços em nuvem da Google, do inglês Google Cloud Platform (GCP) e possibilita extrair dados de mais de 150 milhões de lugares do mundo (GOOGLE, 2020a). O serviço permite buscar informações como endereço e geolocalização de um lugar usando um termo como chave de busca. Empregando-se o termo “nome da startup + estado brasileiro” de sua localização no Crunchbase, foi possível coletar o endereço e a geolocalização de 4.299 startups.
Na etapa final de seleção, um filtro sobre a localização da sede informada no Crunchbase foi aplicado para detectar lugares inconsistentes (por exemplo, “Salvador, São Paulo”, “Porto Alegre, Mato Grosso”, “João Pessoa, Bahia”, etc.), resultando em um total 1.127 registros. Empregando-se os dados obtidos pelo Google Place, foi possível resolver a localização de 584 startupscom problema e, como resultado, o conjunto final de registros válidos continha 5.586 startups, incluindo as situações “em atividade” (5.519) e “fechada“ (67).
Figura 3 – Filtros aplicados no conjunto de dados do Crunchbase para obtenção das startups.
Fonte: Autoria própria.
4.1.2 Setor de Atuação das Startups
O Crunchbase provê informações sobre os setores de atuação das startups através do atributo “Categories”, alguns exemplos são mostrados na tabela 1. Entretanto, o formato original não contribuiu para a categorização das startups pois cada uma delas vinha rotulada com dois ou mais setores. Desse modo, aplicou-se o modelo de tópicos LDA (Seção 3.4).
Tabela 1 – Exemplos do atributo “Categories” das startups que vieram do conjunto de dados do Crunchbase.
Startup Categories
00k-e-commerce-tools ecommerce, information services, marketing, online portals, software 1001-cupom-de-descontos coupons, ecommerce, internet, software
120mm-studio-manager enterprise resource planning, photography, project management, software 1234enter advertising, analytics, ecommerce, education, small and medium businesses 123carros automotive, internet, peer to peer, service industry
Fonte: Autoria própria.
Seja um documento w = {𝑤1,𝑤2,...,𝑤𝑁} onde w representa uma startup e as palavras 𝑤1,𝑤2,...,𝑤𝑁 representam as 𝑁 categorias dessa startup, e seja o corpusD o conjunto de docu- mentos representando as 5.519 startups em ativadade coletadas no Crunchbase. Primeiramente, foram realizados alguns ajustes em palavras que sozinhas não apresentariam sentido na extração dos tokens (tabela 2).
Tabela 2 – Ajuste das palavras durante a preparação do conjunto de dados e posterior emprego do LDA.
Palavra original Palavra ajustada
e-commerce ecommerce
e-learning elearning
information and communications technology tic
information technology tic
enterprise resource planning erp
peer to peer p2p
internet of things iot
information services info_services Fonte: Autoria própria.
Em seguida, um exame inicial identificou algumas palavras com elevada frequência 𝑛 mas que não contribuíam para a análise dos setores de atuação (figura 4(a)), as palavras foram eleitas como stopwords para serem eliminadas no pré-processamento do corpus (figura 4(b)2). Figura 4 – Exame preliminar de palavras para preparação do conjunto de dados e posterior aplicação do
LDA.
(a) Wordcloud das categorias de startups.
(b) Identificação das stopwords indesejáveis mar- cadas em vermelho.
Fonte: Autoria própria.
As stopwords elegidas foram “software”, “tic”, “internet”, mais aquelas próprias da língua inglesa como “and”, entre outras que podem ter aparecido. Depois dessa limpeza, foram extraídos os radicais das palavras na etapa de stemming. Alguns exemplos estão na tabela 3:
2 Somente as TOP 30 palavras foram exibidas no gráfico ordenado pela frequência 𝑛, por isso nem todas as
Tabela 3 – Exemplos de stemming das palavras e extração do radical utilizando o idioma inglês. Palavra Radical ecommerce ecommerc marketing market online onlin portals portal coupons coupon advertising advertis enterprise enterpris resource resourc planning plan photography photographi
Fonte: Autoria própria.
Foi empregado o algoritmo de Hornik e Grün (2011) para determinar a quantidade de tópicos do modelo e o melhor ajuste foi com 𝑘 = 30 (gráfico 1).
Gráfico 1 – Resultado do algoritmo de Hornik e Grün (2011) para determinar o melhor ajuste do LDA, foram sugeridos o uso de 30 tópicos.
Fonte: Autoria própria.
Os tópicos foram gerados (Apêndice B, gráfico 18) e as startups foram rotuladas com o tópico para o qual elas apresentaram maior probabilidade. Em seguida, para cada tópico foram plotadas as 10 categorias mais frequentes das startups rotuladas (Apêndice B, gráfico 19). Esse procedimento permitiu checar os tópicos, melhorar a interpretação de cada um e com isso interpretar o setor de atuação que melhor sintetizasse o tópico. Na checagem final, observou-se que 136 startups ficaram sem rótulo, das quais 15 porque não possuíam o atributo “Categories” preenchido e o restante porque as categorias correspondiam a “software”, “tic” e “internet”, que foram as stopwords eleitas no pré-processamento. No primeiro caso, as startups foram rotuladas
com “Outro” e no segundo, “Tecnologia da Informação”. O resultado final da categorização em tópicos LDA e a interpretação deles é apresentado no Apêndice B, tabela 19.