Notícias

Inteligência artificial: antes de ensinar uma máquina devemos entender como ela aprende

A responsabilidade que todo profissional deveria ter

Pexels edmond dant%c3%a8s 4339471

As máquinas ainda possuem dificuldades em diferenciar um gato de um cachorro. São necessários milhares ou até milhões de imagens de exemplos com variações de fundo, cores dos animais, posições, distância, foco, textura para que se consiga algum resultado razoável de classificação para um modelo de inteligência artificial.

Já para um ser humano, em seu estágio de criança, basta oferecer somente alguns exemplos dessas duas espécies de animais e pronto. Já adquirem uma capacidade absurda de generalização para distinguirem quase 100% de gatos e cachorros de todo o planeta.

O que foi descrito anteriormente traz um choque de realidade bem interessante. Ao mesmo tempo que veículos autônomos são possíveis atualmente (graças, inclusive, aos avanços de aprendizados de máquina), novos remédios e materiais são descobertos a partir de análises e interações químicas e grandes avanços na medicina, segurança, jornada espacial, transporte, alimentação vêm acontecendo a partir de modelos de IA; algumas tarefas básicas realizadas por uma criança ainda são desafios para a máquina.

Pode parecer um paradoxo, mas não o é. O que falta é um melhor entendimento de como uma máquina aprende.

Inicialmente, vamos fazer uma reflexão sobre o que pode ser considerado aprendizado pela máquina. Para a máquina, é considerado “aprender” quando, a partir da experiência, ela seja capaz de generalizar.

Vamos entender melhor o que significa experiência no contexto de um algoritmo de aprendizado de máquina. Experiência significa eventos registrados que aconteceram e que estão acontecendo. Esses eventos são representados pelos dados. Note, portanto, que experiência, no contexto da máquina, são os dados.

Vamos falar agora de aprendizado. Uma máquina aprende quando, a partir de novas experiências (ou seja, novos dados), seja capaz cometer erros tão baixos quanto os erros que obteve no processo de treinamento com os dados conhecidos. Neste momento, ela adquire a capacidade de generalizar. Generalizar, neste contexto, é aprender.

Dadas as definições anteriormente, vamos diferenciar agora “algoritmo” de “modelo”. Um algoritmo de IA é um conjunto de instruções claras e bem definidas que permite, a partir de dados de entrada, identificar padrões e associações de forma a gerar um código de saída. Esse código é o que chamamos de modelo. E o código é suportado por uma equação matemática. Note que interessante. Todo o aprendizado que uma máquina adquire é convertido em uma equação matemática, a qual também chamamos de modelo de inteligência artificial.

Concluímos, portanto, a partir das reflexões anteriores, que um modelo nada mais é do que uma equação matemática que foi gerada a partir de dados (experiência) e com uma capacidade mínima de generalização (aprendizado). E existe um trabalho intelectual humano enorme para o tratamento desses dados e o direcionamento (sintonia) desses algoritmos de forma a gerarmos bons modelos.

Agora vem o insight:

Se não oferecermos uma experiência adequada a um algoritmo de IA, correremos riscos de lidar com uma generalização ruim.

E generalização ruim pode prejudicar pessoas, animais e plantas, trazer danos financeiros, em saúde e educação, péssimas tomadas de decisão e eventos inesperados! E, no melhor dos casos, teremos um modelo com baixa performance.

Entendendo o que foi descrito, fica a pergunta:

Os algoritmos são os responsáveis?

Após toda a contextualização anterior, a resposta é muito simples e clara: não, os algoritmos não são os responsáveis. Lembre-se que um algoritmo muitas vezes não consegue diferenciar um gato de um cachorro; muito menos analisar responsabilidades em suas decisões. Tudo depende de como ele é treinado, de seu processo de generalização e de quais dados são fornecidos ao mesmo. Uma boa variabilidade dos dados e um cuidado em seus ajustes de parâmetros durante o treino para se evitarem vieses é primordial.

E quem faz isso somos nós, humanos. Há pessoas por trás do desenvolvimento dessas técnicas. Além de pessoas, há empresas, culturas, pontos de vista. Incluir diferentes visões em projetos que envolvam dados, principalmente aqueles cujas decisões afetam seres vivos, é extremamente importante.

Encontramos exemplos de equívocos ao desprezarmos a diversidade em pesquisas e projetos de inteligência artificial. Podemos citar um relevante, na área de saúde. Na área de radiologia, especificamente em tarefas de detecção de tumores, a máquina já é capaz de superar a habilidade de um médico treinado para identificação destes corpos estranhos. Para isso, como explicamos, é preciso de uma ampla base de dados para que o processo de aprendizado da máquina obtenha boa performance. E, nesse campo, há diversas pesquisas em detecção de câncer de mama em exames radiológicos. Uma ampla base de dados é coletada e organizada por anos e utilizada em diversas pesquisas.

Mas houve um porém. Pesquisadores descobriram que o tecido de mulheres possuía densidade diferente de mulheres brancas. E, como grande parte dessas bases são coletadas em países de origem anglo-saxônica, as bases de dados constituíam, em sua maioria, de exames de mulheres brancas. E isso passou a ser preocupante. A partir do momento que se detecta variações nesses tecidos, a distribuição de dados em radiografia de mulheres de diferentes origens étnicas passou a ser influente e estava interferindo no processo de performance em detecção de câncer de mama nestas mulheres.

Nota-se que o interessante é que ninguém sabia dessa diferença entre os tecidos. Além disso, muitas bases de dados médicos são construídas em países europeus. Por mais que se imagine que partes internas do organismo fossem iguais para diferentes origens de seres humanos, para esse problema em específico mostrou-se influenciar. Descoberto o problema, pesquisadores do MIT passaram a coletar dados de radiografias de mulheres com as maiores variações étnicas possível, e de diferentes países.

O exemplo acima é um modo muito claro para entender que se incluímos não só pesquisadores, mas diferentes partes do globo para um mesmo grupo de pesquisa, corremos menores chances de deixar de lado certas variabilidades em dados as quais poderíamos, até sem querer, oferecer informações enviesadas para a máquina. Neste caso, pessoas de diferentes origens perceberiam e questionariam facilmente a não inclusão desta diversidade. Ou até mesmo, na fase de coleta de amostras, coletaria em seus países e/ou grupos de origem.

Por este e outros motivos, se espera que o ser humano seja responsável pelos produtos que constrói. E alguns cuidados, de antemão, podem ser tomados para se garantir que os modelos criados possibilitem tomadas de decisão responsáveis e tenham uma capacidade de generalização sem desfavorecer ou favorecer certos grupos.

Alguns cuidados podem ser levados em consideração para minimizar esses riscos na construção de bons modelos:

- Envolva na equipe pessoas com diversos níveis culturais, sociais e sexo. Visões distintas evitam análises com vieses em dados e abordagens.

- Tomadores de decisão e lideranças em empresas que utilizam inteligência artificial precisam estudar o tema e conhecer conceitos de variância, vieses, caráter probabilísticos desses sistemas e interpretação de sistemas de visualização. Apenas uma métrica estatística pode não representar ou descrever um problema. E uma ação de tomada de decisão pode ser equivocada se o mínimo de conhecimento técnico desses gestores não estiver refinado. Esses gestores precisam aprender a se comunicar com a equipe técnica.

- Cientistas de dados, estatísticos e engenheiros de machine learning precisam entender a trabalhar também com entrega de valor ao negócio e ao problema a ser solucionado. E possuírem uma visão crítica sobre o problema. Nem sempre métricas técnicas são suficientes para o sucesso de um projeto. Ter bons resultados em problemas de predição de acidentes, por exemplo, podem não significar que seja possível evitá-los. Profissionais técnicos precisam aprender a se comunicar com a equipe estratégica.

- A todos, um modelo pode tomar decisões prejudiciais e com excelente performance e qualidade. Isso significa que fatores éticos devem ser considerados em projetos desse tipo. Modelos são criados com dados. Dados são experiências. Experiências ruins podem criar modelos “ruins”.

Há muito ainda a se evoluir no setor. Muitas empresas estão ainda aprendendo a trabalhar com esta nova tecnologia que, apesar de quase 100 anos de vida, ganhou potencial recentemente com as novas descobertas, capacidade computacional e disponibilidade em massa de dados.

Importante ficar como mensagem que é uma área que será necessária nova alfabetização. Um profissional que não saiba lidar com dados em breve precisará passar por um processo de reeducação para bom uso das novas tecnologias. Além disso, não se pode delegar tomadas de decisão a modelos de inteligência artificial. Os mesmos devem ser acompanhados desde antes de sua concepção (no preparo e seleção dos dados) até toda a sua existência. Há muito mais benefícios do que malefícios que a tecnologia pode gerar. E tudo isso depende do nível de qualificação necessário dos profissionais e usuários habilitados a utilizar o sistema.

 


Radix Engenharia e Software

Por Gibram Raul, Global Head de Ciência de Dados e IA da Radix. Ele desenvolve tecnologias de ponta e inovações na área de engenharia eletrônica e processamento de sinais. Formado em Engenharia Elétrica com pós-graduação em IA e Machine Learning, também é graduado pelo MIT Sloan e MIT CSAIL em Inteligência Artificial: Implicações para programas de estratégias de negócios. Gibram possui patentes internacionais em 152 países.

 

Quer conversar sobre as necessidades específicas do seu negócio? Entre em contato conosco.