É de fundamental importância uma correta seleção das variáveis de entradas (insumos) e saídas (produtos) que constituirão na análise dos desempenho de eficiência técnica de cada DMU, pois a escolha de maneira errada de qualquer variável pode acarretar em modelos pobres e que descriminem pouco as DMUs (BARROS et al., 2010; FERREIRA; GOMES, 2009). Essa eficiência é definida como a razão da soma ponderada das saídas (produtos /
outputs) pela soma ponderada das entradas (insumos / inputs). Pouco se tem discutido sobre a
problemática da seleção de variáveis utilizadas na modelagem na literatura, sendo que a maioria dos trabalhos publicados abordam a seleção das variáveis segundo a disponibilidade dos dados e através da opinião de especialistas (SENRA et al., 2007).
Esse conjunto de variáveis de entradas e saídas são admitidas tradicionalmente como valores não negativos e diferentes de zero (KERSTENS; VAN DE WOESTYNE, 2011; SUEYOSHI; GOTO, 2013), devendo compor uma ampla lista de fatores (qualitativos, quantitativos, controláveis ou não), podendo ser fatores externos ou internos que influenciam nos resultados alcançados (inputs) ou fatores que medem os objetivos e resultados obtidos (outputs) (PAIVA JUNIOR, 2000). De acordo com os objetivos da análise a ser executada, será realizado um processo de refinamento, de forma a mostrar claramente o desempenho das DMUs e reduzindo a quantidade de variáveis da lista (PAIVA JUNIOR, 2000).
Entretanto, pode ser aplicado de uma maneira geral que as variáveis que se desejam minimizar são classificadas de inputs e as variáveis que se desejam maximizar são consideradas
outputs (GOMES; MANGABEIRA, 2004). É de extrema importância que os possíveis
conjuntos de variáveis sejam analisados antecipadamente em conjunto com especialistas e decisores (SENRA et al., 2007). Ferreira e Gomes (2009, p. 147) também citam que a
... primeira condição para essa seleção é o conhecimento profundo da atividade em análise. Eventualmente, pode-se recorrer a especialistas que orientam na escolha e seleção das variáveis. Contudo, o conhecimento da atividade é imprescindível para que se analisem os resultados obtidos com o modelo de Análise Envoltória de Dados escolhido.
A DEA admite flexibilidade na escolha dos pesos das entradas e saídas, sendo que quanto maior o número de fatores incluídos, menor será discriminação (DYSON et al., 2001). Ao se aumentar de maneira indiscriminada a quantidade de variáveis, os desempenho de eficiência tendem a aumentar gradualmente, em virtude das DMUs se aproximarem dos limites possíveis de produção (FERREIRA; GOMES, 2009).
Não existe uma norma definida para a quantidade de unidades a serem utilizadas, porém, quanto maior a quantidade de unidades analisada, maior será a capacidade discriminatório do modelo (PEÑA, 2008). Para que se tenha um nível de discriminação razoável, existe uma recomendação empírica de que número de DMUs seja pelo menos o dobro ou o triplo do produto do número de inputs e outputs (DYSON et al., 2001; GOMES; MANGABEIRA, 2004).
Desta forma, ocorre a necessidade de uma análise quantitativa que busque levantar os parâmetros estatísticos dos dados relacionados a cada variável e sua correlação, auxiliando assim na seleção e classificação das variáveis listadas (PAIVA JUNIOR, 2000). A correlação entre as variáveis é o principal parâmetro a ser avaliado (KASSAI, 2002; PAIVA JUNIOR, 2000), pois o seu coeficiente de correlação mede o grau de associação entre as variáveis que estão sendo analisadas, o qual é composto por um número que varia entre -1 e 1 (FERREIRA; GOMES, 2009).
Quando o grau de correlação é linear entre as duas variáveis numéricas, utiliza-se o coeficiente de correlação de Pearson. Entretanto, quando os dados observados entre essas variáveis não possuem uma distribuição normal bidimensional, uma alternativa não paramétrica para o cálculo de correlação é o coeficiente de correlação de Spearman (VIEIRA, 2010, 2016). O Quadro 7 apresenta uma regra prática para a classificação de correlações, onde r representa a correlação.
Quadro 7 – Regra prática para classificação de correlações (Adaptado de VIEIRA, 2016).
Correlação Classificação
Pequena 0 < r < 0,25 -0,25 < r < 0 Fraca 0,25 < r < 0,50 -0,50 < r < -0,25 Moderada 0,50 < r < 0,75 -0,75 < r < -0,50 Forte 0,75 < r < 1,00 -1,00 < r < -0,75
Através da elaboração de uma matriz de correlação linear, é possível determinar as variáveis redundantes ou irrelevantes, bem como os inputs e outputs. Também é possível determinar quais variáveis possuem alta ou baixa correlação, ou ainda se ela possui uma correlação positiva ou negativa (PAIVA JUNIOR, 2000). Quando ocorrer uma alta correlação para cada par de variáveis de input e para cada par de variáveis de outputs, deve-se excluir uma delas (FERREIRA; GOMES, 2009).
Estas informações são de grande importância para verificar se algum output possui correlação negativa com um input, visto que não é permitida essa tal correlação no método DEA (DYSON et al., 2001; PAIVA JUNIOR, 2000). Entretanto, vale ressaltar conforme explicado por Ferreira e Gomes (2009, p. 148) que
O coeficiente de correlação isoladamente não mede a relação causa-efeito entre as variáveis, embora essa relação possa existir. Isto quer dizer que não se pode concluir que um valor alto desse coeficiente (por exemplo, próximo de 1) garante que variações (aumentos ou diminuições) da variável X1 provoque variações na variável X2; a correlação entre as variáveis pode resultar, por exemplo, de uma variável oculta que não faz parte do conjunto analisado.
Deve-se evitar a eliminação de variáveis simplesmente por razões de correlações, sendo que nessas situações a escolha de qual variável deve permanecer ser de extrema importância, podendo diferir de maneira significativa os resultados da avaliação de eficiência (DYSON et al., 2001).
Em virtude disso, torna-se de extrema relevância a utilização de métodos que visem selecionar variáveis para a utilização dos modelos em DEA, de maneira a auxiliar na decisão dessas variáveis. Estes métodos de seleção admitem diferentes níveis de intervenção do decisor, sendo os métodos que exigem nenhum ou pouco conhecimento subjetivo, os mais adequados quando ocorrem dúvidas ou não consigam ser emitidas opiniões pelo decisor (SENRA et al., 2007).