Como começar seu primeiro projeto de Machine Learning

Sempre que pensamos em inovação, em criação de produtos disruptivos, em algum momento esbarramos com nomes como Machine Learning, Inteligência Artificial, Big Data, Internet das coisas (IoT), Blockchain. Esse movimento vem crescendo tanto nos últimos anos que quando uma empresa diz que está utilizando uma destas tecnologias, automaticamente entende-se que estamos de fato falando de uma empresa moderna, indústria 4.0, Data-Driven, entre outros termos. Mas já se perguntou no que é necessário para começar um projeto que usa essas tecnologias? Neste artigo irei focar em como fazer isso para Inteligência Artificial e Machine Learning.

Esse processo de busca dessas tecnologias, parecido com as hypes das redes sociais, levou a um fenômeno engraçado onde empresas querem utilizar te Machine Learning como fim, não como meio. A busca da técnica pela técnica, em geral, não gera valor efetivo para o negócio. Ao começar um projeto dessa forma, existe uma grande chance de estarmos entrando em um vortex que desperdício de recursos sem resultado útil, sem valor. Ai vai a primeira máxima para nossa Jornada em Machine Learning:

1 – Machine Learning não é uma motivação, e sim uma ferramenta

Entendida nossa primeira máxima, qual deveria então ser a motivação para um projeto desse? O Motivador deveria ser um problema de negócio, mas não qualquer problema, um problema que em geral não é resolvido de forma mais fácil, mais barata, e mais otimizada de outra forma.

Sabendo disso, uma pergunta deve surgir na mente do leitor: Como sei então se devo partir para Machine Learning ou tentar outras coisas primeiro?

Ótima pergunta e ótimo momento para entrarmos na nossa segunda máxima, que nada mais é de uma definição quanto ao uso de Machine Learning.

2 – Machine Learning resolve problemas muito complexos para abordagens tradicionais ou onde não existam algoritmos conhecidos para resolvê-los

Para exemplificar a frase acima, pense em um problema de recomendação, os do tipo que empresas como a Netflix enfrenta ao te recomendar uma série, ou um problema de segmentação de clientes de uma corretora de investimentos. Nossa intuição pode nos levar a pensar que, em termos mais simples, poderíamos construir um programa cheio de IF’s e Else’s para olhar o histórico de visualização dos usuários da Netflix e recomendar um filme, ou olhar o histórico de transações financeiras dos clientes para mapear um perfil de investidor.

O grande problema disso é que esse tipo de problema é tão complexo, exige tantas regras, tantas exceções, que é praticamente inviável para qualquer negócio construir uma máquina de regras tão complexa, que suporte alterações conforme o tempo passa e os gostos de séries dos assinantes mudam. A impossibilidade de criar e/ou manter tal máquina de regras nos leva a pensar em modelos estatísticos, ou seja “inteligentes”, que se baseiam nos dados disponíveis e criar um modelo que “entende” os padrões dos dados e nos dizem que existem alguns grupos de clientes que são mais parecidos do que outros, e esses grupo possivelmente seria uma boa classificação para mapear um perfil de investidor. Da mesma forma, um modelo de recomendação de séries nos diz que existe um pessoas com gostos parecidos tendem a gostar de coisas parecidas então se temos dois assinantes parecidos, se um viu uma série e gostou, porque não indicar a mesma série para o segundo assinante?

Já no ponto de vista de problemas onde não existam algoritmos conhecidos para resolvê-los, podemos citar o reconhecimento de padrões em imagens. Empresas do ramo do Agronegócio, por exemplo, têm desafios no ponto de vista de mapear a qualidade de frutas por imagem, contar produção, contar a quantidade de gados em um pasto. Para esse tipo de problema, não existe um algoritmo conhecido. As técnicas de hoje, dado o estado da arte da pesquisa científica, que melhor resolvem esse tipo de problema são as técnicas de Inteligência artificial.

Alguns outros possíveis problemas que são geralmente resolvidos utilizando inteligência artificial são:

Criação de propagandas personalizadas
Análise de comportamento de clientes
Otimização de rotas de transportadoras
Cálculo de Score de crédito
Detecção de fraudes financeiras
Previsão para operar na bolsa de valores

Isto entendido, podemos passar para segunda parte artigo: Como são estruturados os projetos de Machine Learning?

A metodologia mais utilizada na indústria para projetos desse tipo é o Cross Industry Standard Process for Data Mining (CRISP-DM).

O CRISP-DM tem objetivo de criar um processo iterativo para solucionar problemas de negócio utilizando dados. O CRISP-DM é dividido em 6 fases:

Business Understanding, onde nos aprofundamos no problema de negócio a ser resolvido.
Data understanding, que é o processo onde avaliamos o entendimento do negócio e do problema com os dados disponíveis.
Data Preparation, que é o momento de preparar os dados para o formato que um modelo espera como entrada
Modeling, onde os modelos são desenvolvidos. Perceba que um loop nesse processo de Data Preparation e Modeling é normal para adequar os dados de entrada para o modelo as modificação no decorrer do desenvolvimento do modelo.
Evaluation, onde depois de validar que o modelo está performando de modo satisfatório, baseado em métricas.
Deployment, onde o modelo validado é colocado em produção

A figura acima mostra a existência de diversos loops dentro do diagrama do CRISP-DM para nos orientar que esse processo é contínuo. Os dados mudam, o comportamento das pessoas muda, os produtos mudam, isso leva a necessidade constante de atualização dos modelos, novo entendimento do negócio, entendimento dos dados, criação, avaliação e publicação de novos modelos. O modelo deve ser algo vivo, monitorável, e quando ele degrada, devemos ser capaz de melhorá-lo com os novos dados que foram gerados no seu período de vida útil. Boa frase para nossa terça máxima:

3 – O modelo deve ser vivo, monitorável e melhorável

Alcançar maturidade nesse processo é um desafio para qualquer organização. Segundo o modelo de pilares de maturidade utilizado pela AWS, chegar a esse nível é estar no nível 4 de 5 na jornada de Inteligência Artificial (ou seja, estar na maturidade 4 de Otimização), onde:
1. Explicação: Explorando o que IA pode realizar pela empresa. Nesse momento, a organização ainda não possui um modelo ou solução de IA em produção
2. Experimentação: Experimentando soluções com provas de conceitos e projetos pilotos. A empresa ainda está tentando utilizar soluções de IA em produção de formas limitadas.
3. Formalização: Evolução de uma prova de conceito ou projeto piloto para uma solução de Inteligência Artificial em produção.
4. Otimização: Implementando soluções de IA em escala e de maneira otimizada na maneira que a quantidade de modelos de IA aumenta. Nesse momento, a empresa está se aproximando de uma fábrica de implementação de modelos de IA.
5. Transformação: Transformação da organização através da Inteligência Artificial. A empresa utiliza IA na operação e em áreas críticas do negócio.

Como começar seu primeiro projeto de Machine Learning

1 – Machine Learning não é uma motivação, e sim uma ferramenta

2 – Machine Learning resolve problemas muito complexos para abordagens tradicionais ou onde não existam algoritmos conhecidos para resolvê-los

3 – O modelo deve ser vivo, monitorável e melhorável

Estratégia

Dados

Tecnologia

Pessoas

Governança

4 – Mais vale bons dados e modelos medianos do que excelentes modelos e péssimos dados

5 – Os dados são os ativos mais valiosos de uma organização

Artigos Relacionados:

Entre em Contato

SERVIÇOS

POLÍTICAS