Nesse artigo você encontrará as seguintes informações:
Introdução ao analisador de texto (Text parser)
Raspagem de dados (Data Scraping)
Transformadores
⚠️ Aviso!
Os nomes dos campos de diálogo dos módulos exibidos em negrito (no cenário Toolzz Connect, não neste artigo de documentação) são obrigatórios!
Obter elementos de HTML
Recupera os elementos desejados de um código HTML.
Continue the execution of the route even if the module returns no results | Se ativado, o cenário não será interrompido por este módulo. |
Element type | Selecione o tipo de elemento que deseja recuperar do código HTML, como imagem, link ou elemento(s) iframe. |
HTML | Insira o código HTML do qual deseja recuperar os tipos de elementos especificados. |
Padrão de correspondência
O módulo "Match pattern" permite localizar e extrair elementos de string correspondentes a um padrão de pesquisa de um determinado texto. O padrão de pesquisa é uma expressão regular (também conhecida como regex ou regexp), que é uma sequência de caracteres na qual cada um é um metacaractere, com um significado especial, ou um caractere regular com significado literal.
A lista completa de metacaracteres pode ser encontrada no site de documentos da web do MDN .
Para obter um tutorial sobre como criar expressões regulares, recomendamos o site RegexOne .
Para um gerador de regex fácil e rápido, experimente o gerador de expressões regulares .
Para experimentar expressões regulares, recomendamos o site de expressões regulares 101. Apenas se certifique de marcar ECMAScript (JavaScript) FLAVOR no painel esquerdo
Pattern | Insira o padrão de expressão regular. Por exemplo,
❗ Observação O padrão conterá pelo menos um grupo de captura entre parênteses "( )" para que o pacote (bundle) de saída contenha alguns itens. Se o padrão não contiver nenhum grupo de captura, o pacote de saída estará vazio.
|
Global match | Se ativado, o módulo recupera todas as correspondências no texto. Se desativado, o módulo recupera apenas a primeira entrada. |
Case sensitive | Você pode desativar a distinção entre maiúsculas e minúsculas desativando esta opção (padrão = distinção entre maiúsculas e minúsculas). |
Multiline | Se marcado, os metacaracteres de início e fim ( ^ e $ ) corresponderão ao início ou ao fim de cada linha, não apenas ao início ou ao fim de toda a string de entrada. |
Continue the execution of the route even if the module returns no results | Se ativado, o cenário não será interrompido por este módulo. |
Text | Digite o texto que você deseja que corresponda ao padrão. |
Substituir
Pesquisa o texto digitado para um valor especificado ou expressão regular e substitui o resultado pelo novo valor.
Pattern | Insira o termo de pesquisa. Você também pode usar uma expressão regular. |
New value | Insira um valor que substituirá o termo de pesquisa. |
Global Match | Se esta opção estiver habilitada, o módulo encontrará todas as correspondências em vez de parar após a primeira correspondência. Cada correspondência será produzida em um pacote separado. |
Case sensitive | Se esta opção estiver ativada, a pesquisa fará distinção entre maiúsculas e minúsculas. |
Multiline | Se marcada, os metacaracteres de início e fim ( ^ e $) corresponderão ao início ou fim de cada linha, não apenas ao início ou fim de toda a string de entrada. |
Text | Digite o texto a ser pesquisado. |
Raspagem de dados (Data Scraping)
A raspagem de dados, às vezes chamada de raspagem da web, extração de dados ou colheita na web, é simplesmente o processo de coletar dados de sites e armazená-los em seu banco de dados ou planilhas locais.
Se você deseja extrair dados de um site e não está familiarizado com expressões regulares, pode usar uma ferramenta de extração de dados:
O Apify é uma excelente ferramenta e já a temos integrada
Se a ferramenta de coleta de dados fornecer uma REST API, você poderá se conectar a ela por meio de nosso HTTP universal e módulos Webhooks.
Pronto! Agora você já sabe tudo sobre a ferramenta "Analisador de texto" do Toolzz Connect.