Como extrair texto de PDF automaticamente sem codificação!

Aplicativos neste fluxo de trabalho

Como funciona

Crie seu extrator automatizado de PDF para texto em um minuto! A solução perfeita para quem lida com grandes quantidades de currículos recebidos ou outros documentos! Extraia dados de documentos usando o fluxo de trabalho remoto em Latenode.com!

‍
Neste artigo, você verá como criar um fluxo de trabalho automatizado sem código que extrairá dados dos arquivos PDF no Google Drive usando a API e o Chat GPT e preencherá o formulário do Google Sheet com os dados.

Além disso, você pode obter o modelo desse cenário, que pode ser copiado e usado gratuitamente!

Você pode atualizar esse modelo ou usá-lo não apenas para extração de texto em PDF.

Visão geral do cenário

Primeiro, vamos dar uma olhada em todo o cenário do raspador de PDF e, em seguida, detalhar cada etapa.

‍

Como funciona esse cenário de extração de pdf? Uma vez por hora, você recebe todos os currículos em formato pdf do Google Drive, converte-os em arquivos txt usando uma solicitação HTTP e, em seguida, o assistente do chatGPT extrai os dados necessários e preenche a planilha do Google.

Principais etapas do cenário:

Acionador de programação. Ativa o cenário em um período de tempo definido.
Google Drive. Aqui temos dois nós: Localizar arquivo e Baixar arquivo.
Javascript. Usaremos nós de Javascript com copiloto de IA para formatação de arquivos em todo o cenário. Primeiro, pedi à IA que me fornecesse o código que converte arquivos do Google Drive para o formato base64.
Solicitação HTTP. Use a API para extrair texto de pdf usando documentos de API de serviços de terceiros testados.
ChatGPT. O assistente do ChatGPT extrai os dados do texto.
Planilhas do Google. Você preenche a planilha com essas informações,

Detalhamento do cenário

E aqui está uma instrução passo a passo para você que deseja aprender o processo. Lembre-se de que você encontrará modelos gratuitos e prontos para uso no final do artigo.

Preparativos

Para esse cenário, você precisará ter a capacidade de usar o Open AI Assistants e qualquer conversor de API.

Assistente da OpenAI

Isso é simples. Faça login em sua conta da OpenAI e vá para assistentese clique no botão "criar" no canto superior direito. Você verá o painel de configurações do assistente.

Ilustração das configurações corretas do assistente de IA

Aqui você precisa:

Dê um nome ao seu assistente
Dê a ele instruções sobre como você deseja que ele responda e algum contexto. Recomendamos que você peça que ele use arquivos anexados, pois, caso contrário, ele pode se esquecer de fazer isso.
Escolha um modelo
Selecione as ferramentas disponíveis e adicione arquivos que o assistente possa usar. Não se esqueça de ativar a recuperação para possibilitar a adição de arquivos.

Copie o ID do assistente (você o verá na coluna Nome) e, em seguida, vá para Chaves de APIcriar uma e salvá-la.

Conversor de PDF para TXT

Use o que você preferir. Eu escolhi o ConvertAPI porque ele tem uma avaliação gratuita e fornece muitas informações.

‍

Ilustração do aplicativo ConvertAPI para criar um conversor automático de PDF para texto

Criar cenário

Agora, mudamos para Latenode.com. Aqui, temos que criar o cenário de conversão de PDF para texto: (Você não precisa criá-lo do zero, basta copiar o modelo no final do artigo)

Acionador de programação

Clique em "Add node" (Adicionar nó) na guia scenario (cenário) e escolha "Schedule" (programação) na lista. Clique no nó para configurá-lo. Especifique o intervalo e o fuso horário e salve as alterações. Também adicionei um acionador em Run once, apenas por conveniência.

Nós do Google Drive

Clique em "Add node" (Adicionar nó), pesquise a pasta Google Drive na guia Actions (Ações) e escolha o nó "Find file" (Localizar arquivo).
Para que isso funcione, você precisa fazer login na conta do Gmail para obter o token de acesso, escolher a unidade e o nome da pesquisa. Nesse caso, quero extrair dados de arquivos que tenham CV em seus nomes.

‍

Em seguida, adicione "Download file" (Baixar arquivo) da mesma pasta de ações do Google Drive.

Ilustração de como fazer o download do arquivo que você precisa para criar o conversor AI pdf-texto

Use a id dos resultados do nó anterior e, em seguida, clique em executar o nó uma vez para salvar as alterações e fazer com que os dados fluam pelo cenário. Você obterá o arquivo na saída.

Javascript nº 1: converter para base64

Ilustração do código JS que você precisa para extrair o texto

Esse é o código que a IA me forneceu. Você pode pegá-lo aqui(#1). Substitua const fileContentPath por seu objeto do nó anterior.

Solicitação HTTP

Encontre a solicitação HTTP na lista de ações. Para saber como criá-la, visite a documentação da ConvertAPI. Aqui você pode obter informações sobre como configurar a solicitação.

Esta é a aparência da minha solicitação de conversão de pdf para txt.

Ilustração das configurações corretas de solicitações HTTP

‍

Eu uso um objeto do nó Localizar arquivo do Google Drive para especificar o nome do arquivo baixado e o conteúdo do arquivo em base64 do nó Javascript. E adiciono o par Content-Type=application/json em Headers.

Execute o node uma vez para obter o arquivo da solicitação HTTP.

Javascript #2

Outro nó de código, nº 2 aqui.

Dessa vez, solicitei à IA que extraísse o texto do arquivo txt.

Nós do ChatGPT

Você encontrará 3 nós GPT aqui:

Criar thread
Criar mensagem
Criar execução

Cada nó executa uma ação com o OpenAI.

Primeiro, criamos um thread ou uma conversa com o GPT Assistant

Ilustração de como criar nós do ChatGPT e como usar a chave AP

Insira sua chave da API do Open AI e pronto! Execute o nó uma vez e obtenha o ID do thread criado na saída.

Criar mensagem:

ilustração de como criar a massagem certa para o AI Support Assistent

Aqui você precisa de uma chave de API novamente. No campo ID do thread, você colocará o resultado do nó anterior. Você o verá na janela auxiliar depois de clicar no campo de entrada.

Em "Message content" (Conteúdo da mensagem), forneça algumas instruções adicionais se você quiser e coloque o conteúdo do arquivo do último nó do Javascript. Você está mais perto de obter um extrator de PDF automatizado!

Criar execução

Ilustração Como criar sua corrida para ver o resultado

Esse nó recebe a resposta do raspador de PDF.

Especifique o nó da mesma forma que seu assistente OpenAI e use o ID do assistente GPT.

Javascript #3

Aqui, usamos o nó JS pela última vez, para criar três objetos json separados a partir da resposta dos assistentes.

Aqui está o exemplo, basta você colocar seus dados em content const.

Planilhas Google

Vamos colocar esses dados em algum lugar. O Google Sheets é uma boa opção para esse cenário de extração de dados de pdf em latenode.com.

Faça login na conta do gmail mais uma vez para obter o token de acesso, escolha a unidade e a planilha e coloque os jsons nos campos, salve o cenário e clique em executar uma vez para executar ou implantar o cenário para ativar o acionador de agendamento.

Resultados

Após uma execução bem-sucedida do cenário, esse fluxo de trabalho extrairá o texto do arquivo PDF no Google Drive e o colocará na planilha do Google.

É assim que você pode criar um extrator de PDF sem código em latenode.

Conforme prometido, aqui está o modelo desse fluxo de trabalho. Basta você copiá-lo e seguir este artigo de guia para configurá-lo.

Há um vídeo sobre isso, não se preocupe em ler!

Se você quiser que alguém o ajude, confira nosso canal no Discord, onde temos alguns desenvolvedores prontos para ajudar!

‍

Obtenha este modelo

Categorias

TI e desenvolvimento

Publicidade e marketing

PERGUNTAS FREQUENTES

Posso usar o site Latenode se não estiver familiarizado com programação?

Sim, o Latenode foi projetado para usuários de todos os níveis de habilidade. Ele oferece recursos avançados para quem domina o JavaScript e ferramentas visuais intuitivas e assistência de IA para iniciantes. Não importa se você é um desenvolvedor experiente ou um novato, o Latenode oferece uma experiência fácil de usar, adaptada ao seu nível de habilidade.

O site Latenode pode ser integrado a serviços e APIs de terceiros?

Sim, o Latenode oferece suporte à integração com uma ampla gama de serviços e APIs de terceiros. Você pode conectar o Latenode a várias plataformas on-line, bancos de dados e sistemas de software para automatizar transferências de dados, acionar ações e otimizar fluxos de trabalho. O Latenode também fornece ferramentas e recursos para facilitar o processo de integração.

Existe uma versão gratuita do Latenode disponível?

Sim, o Latenode oferece uma versão gratuita que permite que você explore seus recursos. Essa versão inclui um subconjunto dos recursos do Latenode, permitindo que você comece com a automação e experimente seus benefícios. Em seguida, você pode decidir se deseja fazer upgrade para um plano pago para obter recursos e funcionalidades adicionais.

O que é Latenode?

Latenode é uma ferramenta de automação visível e intuitiva, projetada para capacitar os clientes a simplificar seus fluxos de trabalho por meio da automação. Ela permite que os clientes criem estratégias informatizadas por meio da conexão de diversas ofertas e dispositivos da Internet, permitindo que eles automatizem as obrigações e decorem a produtividade com sucesso.

Como o site Latenode ajuda a maximizar as oportunidades?

Ao integrar todas as suas ferramentas de marketing em um só lugar por meio da integração de dados, o Latenode ajuda você a ter uma visão abrangente das suas operações. Isso permite que você identifique oportunidades potenciais com mais facilidade e tome decisões informadas com base em dados precisos.