Onde está a Inteligência de Dados?
Ao longo dos anos tive a oportunidade de trabalhar na implementação de analytics em diversas empresas de grande porte que já tinham tinham tido iniciativas no uso de machine learning e AI, mas que foram mal sucedidas. Aliás, estes não foram casos isolados, segundo predição do site VentureBeat, 87% dos projetos de data science nunca alcançarão a produção. Já o Gartner antevia que a maior parte dos projetos de AI não escalariam e a menor parte deles trariam resultados para o negócio.
Existem diversas razões que explicam esse cenário desanimador, algumas de escopo estratégico e outras de escopo técnico e operacional, as do escopo estratégico incluem principalmente a falta de definição clara do problema a ser resolvido com analytics e o engajamento insuficiente dos gestores e alta liderança das empresas na adoção de uma cultura de dados. Já as do escopo técnico e operacional incluem falta de sinergia das equipes de TI com as de Data Science e má qualidade dos dados devido a silos e feudos departamentais além de múltiplas fontes de dados não integradas, internas e externas, que sustentam as mais diversas aplicações de negócio de uma companhia.
A minha idéia neste artigo é propor uma hipótese em que as questões do escopo estratégico não existam ou tenham sido resolvidas — que os gestores da empresa fomentem e deem autonomia para uma cultura de dados e que tenham uma agenda clara de quais são as prioridades no uso de analytics — mas que as questões do escopo técnico e operacional permaneçam, de forma que eu possa endereçar suas causas.
Quando observamos a natureza, nos organismos dotados de inteligência verificamos formas distintas de organização do conhecimento e aprendizado, mamíferos por exemplo possuem cérebros complexos e bem desenvolvidos cuja inteligência permite quase que completa autonomia e independência de seus pares, embora muitos se utilizem das relações entre si para exceder os resultados da inteligência individual. Já insetos como abelhas e formigas, com cérebros menos desenvolvidos — embora igualmente interessantes — se apoiam mais na inteligência coletiva (ou de enxame) do que na inteligência de cada indivíduo e dessa forma perpetuam suas colônias e criam uma rede sensorial e de resposta à eventos extremamente eficiente.
Gosto de traçar esse paralelo com a natureza para promover o questionamento de onde está a inteligência de dados das empresas. Pois o meu argumento sobre por que os projetos de analytics falham nas empresas sob o escopo técnico e operacional, reside nesta discussão. A inteligência de dados está em algo como um grande cérebro virtual? A inteligência de dados está em pequenos cérebros distribuídos mas com atuação coletiva? Ou não existe armazenamento de tal inteligência, e tudo que é feito depende unicamente da experiência dos colaboradores e da memória deles de como minerar pequenas porções de dados dispersas por toda a empresa?
Me parece que ao longo dos anos de implementação de diversos sistemas nunca houve a preocupação e priorização do uso de uma arquitetura de dados unificada (como um cérebro único), cada sistema em si trazia o seu próprio banco de dados, com uma representação distinta de dados. Mas esse não seria um problema tão sério, seria admissível que cada sistema possui sua própria inteligência através dos dados que manipula, mas que como formigas, a comunicação entre os sistemas possibilitasse uma inteligência coletiva, mas não é o que tenho visto, pois não existe essa tal comunicação entre os sistemas, pois isso também não foi previsto ou priorizado. É claro que é possível que digam, que à época não havia tecnologia para tal comunicação, no entanto, é comum que as empresas nem ao menos tenham um dicionário comum de classes de dados, que definem sua operação, e dados simples como datas, nomes de processos e eventos tenham representações diferentes em diferentes sistemas.
Eu poderia até dizer que partes de inteligência podem ser encontradas, em fragmentos, dentro e também fora da empresa — uma vez que hoje muitos sistemas estão em nuvem de cada fornecedor, mesmo com o risco que isso traz — e que existe uma vontade genuína de unir esses fragmentos, minimamente para acelerar os processos do cotidiano. No entanto, desta vontade, surge o uso desenfreado das planilhas eletrônicas, na maioria das vezes, do Excel. A planilha Excel se tornou numa moeda transacional, dados de diversos sistemas e ERPs são unidos em planilhas e estas representam resultados, projeções, planejamentos, sem a menor garantia de imutabilidade de valores. É como uma nota promissória assinada em papel de pão, vulnerável a qualquer referência histórica ou política de acesso. Pior do que isso é o uso dessas mesmas planilhas como fontes de dados para BIs. Portanto, o uso do Excel deve ser visto como sintoma: quanto maior uso e presença de planilhas em uma empresa, mais claro fica que a inteligência de dados está sendo diluída e perdida.
Ainda assim, existem cientistas de dados extremamente qualificados, com experiência em desenvolvimento e em outras áreas da computação, que conseguem exportar e transformar dados de sistemas e planilhas e então criar modelos de machine learning capazes de trazer resultados objetivos para o negócio em um determinado período, mas sem a certeza de conseguir reproduzi-los ao longo do tempo e de forma automatizado. Isso inclusive explica por que PoC de iniciativas de inovação com analytics obtém sucesso, mas a implementação em produção, não. Como citado pela previsão do Gartner: “80% dos projetos de IA permanecerão como uma alquimia, dirigidos por magos cujos talentos não serão escalados na organização.”
Portanto, os desafios da implementação contínua de analytics em grandes empresas, não são apenas aqueles inerentes à tecnologia em si, como os modelos de inteligência artificial e data science. Na verdade, os desafios começam muito antes e são infra estruturais. As empresas precisam inicialmente garantir a disponibilidade, integridade e qualidade dos seus dados sob uma governança clara. Para isso, o departamento de TI deve evoluir de suas obrigações de sustentação e sinergicamente com engenheiros e cientistas de dados, criar os fundamentos para adoção contínua analytics de sua empresa.
Mas em um ambiente como o que foi descrito, não existe uma solução bala de prata, não é este ou aquele produto das Big Techs que resolverão problemas complexos gerados em situações específicas de cada setor e indústria. O que eu recomendo é o desenho de uma arquitetura de analytics, baseada em um mapeamento de classes dados do negócio (também chamado de ontologia), com enterprise data warehouse e data lake, mediada por um barramento de APIs e que possa ser implementada em fases, direcionadas pelas demandas estratégicas de analytics da empresa. Através desta arquitetura inicial a empresa passa a ter um repositório pronto para receber os dados, de diversos tipos e fontes, em processos periódicos de ETL, ou de algoritmos de sanitização e pré-processamento, sejam de sistemas internos ou externos já existentes, bem como de dados oriundos de novos fornecedores que poderão se utilizar do barramento de APIs para armazenar os dados debaixo do domínio do cliente. Dessa forma a empresa passa a consolidar sua inteligência de dados, incrementalmente e disponibilizá-la consistentemente para as iniciativas de analytics.
É claro que uma arquitetura como a que sugeri não é simples, e eu não quero ser reducionista, mas os pontos que citei servem de norteadores para os recursos principais, a serem priorizados, de acordo com as necessidades da empresa e o retorno objetivo que uma arquitetura como esta pode trazer ao negócio.
Autor: José Ricardo Damico – CEO da SciCrop