Anotação manual para uma Inteligência Artificial mais assertiva

minutos de leitura

29 de dezembro de 2021

Escrito por
Daniele Polotow

O treinamento de uma inteligência artificial passa também pela qualidade dos dados que o algoritmo recebe. Aqui vamos falar sobre como foi a construção de uma base de dados de currículos em Espanhol exclusiva da Gupy e para que ela serve.

Você pode não perceber, mas provavelmente você usa dezenas de algoritmos de inteligência artificial todos os dias. Toda a vez que você lê o seu e-mail e o filtro de spam faz a moderação de conteúdos indesejados, isso é um algoritmo de inteligência artificial em ação.

manual-ia-assertiva-1

Toda vez que você usa uma ferramenta de busca como o Google ou o Bing, um dos motivos destas ferramentas funcionarem tão bem é porque um algoritmo de inteligência artificial é capaz de classificar as melhores páginas da internet. Cada vez que um aplicativo de foto reconhece você ou seus amigos em uma imagem, isso também é resultado de um algoritmo de inteligência artificial.

Atualmente, temos uma quantidade enorme de informação em formato textual sendo produzida diariamente no mundo. Todos os dados contidos nestes textos são chamados de informação não estruturada, já que são dados que não estão organizados como, por exemplo, uma tabela. Apesar da falta de organização, estes dados podem conter informações valiosas.

Existe um ramo da inteligência artificial que se dedica a inventar e aprimorar métodos automáticos para gestão e extração de informações de textos não estruturados. É o que chamamos de processamento de linguagem natural (em inglês: NLP ou natural language processing). Na Gupy, o processamento de linguagem natural é muito importante, já que lidamos com uma grande quantidade de dados textuais não estruturados, na forma de currículos ou descrição de vagas.

Um algoritmo para encontrar todas as entidades

Um desses métodos de análise de texto é o REM ou reconhecimento de entidade mencionada (em inglês: NER ou named-entity recognition). Um sistema REM é capaz de descobrir elementos textuais e determinar a categoria deste elemento. O sistema lê a frase (ou as frases) e destaca as entidades importantes no texto. O objetivo final pode ser a extração de dados importantes para entender o sentido de um texto ou para simplesmente coletar informações e armazená-las em uma base de dados.

Exemplos de entidades mais comuns são nomes de pessoas, localidades, nomes de empresas, datas, valores monetários, porcentagens, nome de produtos, entre outros. Para estas entidades gerais, já existem bases de dados pré-processadas para utilização, como Stanford NER ou SpaCy. Então, quando processamos a frase  “A Gupy foi fundada em 2015 na cidade de São Paulo”, estas bases de dados pré-processadas encontrariam três entidades: a empresa “Gupy”, o ano “2015” e a cidade “São Paulo”.

Diferente do exemplo acima, os dados que o Gupy recebe são muito mais complexos do que os modelos oferecidos por estas bases de dados pré-processadas. Portanto, precisamos criar a nossa própria base de dados, com um grande número de exemplos relevantes e treinar uma inteligência artificial específica para estes dados. No caso da Gupy, usamos o REM para analisar e processar um enorme volume de dados não estruturados: os currículos dos candidatos.

Como essa tecnologia beneficia o candidato que usa plataforma Gupy?

Todo o processo começa quando o candidato faz o envio do currículo na plataforma da Gupy. Cada currículo tem os mesmos tipos de informações, mas geralmente estão organizados e formatados de maneira única: um exemplo clássico de dados não estruturados.

Para facilitar a vida de cada candidato, o sistema deve encontrar o dado correto no texto fornecido para preencher a plataforma de candidatura. O primeiro passo então é a extração textual. Quanto mais complexa é a estrutura do currículo, maiores são as chances de erros neste passo. Elementos estruturais como colunas, listas com marcadores, tabelas, e outros elementos, podem dificultar o processo, resultando em um texto final desorganizado.

Por outro lado, se a extração textual funcionou e o texto manteve sua integridade, chega a hora de encontrar as entidades com o REM. Para que uma inteligência artificial encontre palavras com um sentido específico em um texto, precisamos mostrar muitos exemplos relevantes do que estamos procurando. Como todo treinamento, a repetição é importante. Quanto mais exemplos anotados, mais eficiente será a inteligência artificial.

Outro ponto importante é que a inteligência artificial é específica para cada língua. A inteligência artificial que encontra entidades em Português está em uso desde 2020. O meu projeto inicial na Gupy, foi criar uma base de dados de anotações e treinar uma inteligência artificial para encontrar entidades em Espanhol. No futuro, vou repetir o processo para o Inglês. Um exemplo de anotação manual em Espanhol pode ser visto abaixo:

anotacao-manual

ó um aviso: este não é um currículo real. É apenas um exemplo fictício do tipo de dado que recebemos na Gupy. ;-)

O processo de anotação manual acima foi repetido para centenas de currículos em Espanhol. Utilizamos 14 tipos de entidades, como formação acadêmica, experiências de trabalho e conquistas. Algumas entidades têm mais variações no conteúdo que outras e, portanto, são mais propensas a erros, como cursos, palestras e workshops. Isso não significa que você deve retirar estas informações do seu currículo! Mas pode ser que a nossa inteligência artificial precise de uma ajuda do candidato no preenchimento destes campos na plataforma.

No final, todos os currículos anotados manualmente foram utilizados para treinar uma inteligência artificial, que agora pode encontrar as principais entidades em um currículo em Espanhol. Sucesso!

Isso é magia ou tecnologia?

Aprendizado de máquina e inteligência artificial muitas vezes são usados como sinônimo de algo glamoroso e quase sobrenatural. Como aquele granulado colorido em cima do bolo de aniversário, você apenas precisa jogar um pouco de inteligência artificial no seu negócio e uma solução mágica vai surgir.

Na realidade, poucas empresas realmente são capazes de aplicar inteligência artificial para resolver problemas complexos, com benefícios reais para os usuários. Aqui na Gupy, a inteligência artificial é o pilar central do negócio, formado pela Gaia e por todos os sistemas de inteligência artificial que suportam os seus resultados, como o REM que tratamos neste post.

Se você quiser aprender um pouco mais sobre inteligência artificial e como dados de qualidade são essenciais, eu indico o curso gratuito do Andrew Ng no Coursera.

Já é da área de tecnologia e quer trabalhar na Gupy? Acesse nossa página de carreiras e venha trabalhar com a gente!