Shu_Zhen

out 30 2024

Introdução

A SAP, está na vanguarda da integração da IA em aplicativos e plataformas empresariais. Embora a generative AI tenha um potencial imenso para desbloquear valor sem precedentes, traduzir essa tecnologia inovadora em soluções de negócios práticas apresenta desafios. Isso exige uma rigorosa adesão a requisitos de confiabilidade, transparência e ética para alcançar valor real para o negócio.

O desenvolvimento de aplicações de generative AI situa-se na interseção entre a tecnologia de IA e o conhecimento profundo do domínio empresarial. Os desafios de engenharia nesse desenvolvimento diferem do software tradicional devido às necessidades exclusivas de dados, exigência de métricas de avaliação especializadas, considerações éticas e processos de desenvolvimento iterativo próprios da generative AI. Trata-se de um processo minucioso que evolui por meio de hipóteses, experimentação, validação de resultados e iterações com feedback — cada etapa é uma pedra angular para a entrega de uma IA corporativa. Por outro lado, compreender o domínio empresarial é fundamental para melhorar a eficiência, a experiência do usuário e o valor global para os usuários de negócios.

Este artigo foca nas melhores práticas de engenharia que sustentam o desenvolvimento de casos de uso de IA empresarial na SAP. Para ilustrar a abordagem, destacamos a integração da generative AI nos aplicativos empresariais do SAP SuccessFactors, com a funcionalidade de discussões de compensação assistidas por IA como um caso específico.

Melhores práticas de engenharia para generative AI

Na SAP, as equipes estão desenvolvendo uma ampla gama de casos de uso, incluindo question answering, geração de texto, classificação, sumarização, geração de código, e explorando o potencial de paradigmas emergentes, como os workflows agentic. Ao conduzir processos críticos para os clientes, as equipes da SAP seguem um conjunto comum de melhores práticas de engenharia para garantir qualidades de nível empresarial, discutidas a seguir.

  1. Pilares fundamentais para melhores práticas

A Figura 1 apresenta os pilares centrais das melhores práticas, cujas especificidades serão exploradas com profundidade no caso de uso da próxima seção. Por exemplo, as discussões sobre qualidade de dados incluirão a análise contrafactual, enquanto os testes de desempenho serão examinados por meio de benchmarks de prompt e modelo. Além disso, questões de segurança e ética serão abordadas por meio de revisões de ética em IA.

Figura 1: Visão geral dos principais pilares abordados pelas melhores práticas

Vamos explorar cada um desses pilares.

Qualidade dos dados: No centro de uma IA empresarial relevante, responsável e confiável, está a fidelidade dos dados gerados pelos aplicativos empresariais da SAP. Somente com dados de alta qualidade e ricos semanticamente é possível garantir uma saída relevante. As práticas de governança e os padrões de dados da SAP asseguram essa qualidade.

Avaliação de viés: É essencial identificar e mitigar qualquer viés potencial nos dados ou nas previsões dos modelos. Esse cuidado garante que a aplicação seja também “responsável”, um dos três “R’s” destacados pelo CEO Christian Klein em seu blog post.

Desempenho e testes: A avaliação e os testes rigorosos garantem resultados precisos e confiáveis. As aplicações devem atender aos critérios de desempenho em seus domínios específicos, e esses aspectos devem ser incluídos no início do desenvolvimento para evitar custos com ajustes posteriores. A seleção das métricas de desempenho é guiada pelos objetivos empresariais e características dos dados.

Monitoramento e manutenção: O monitoramento contínuo permite identificar e resolver problemas que possam surgir durante o uso, como degradação de desempenho. Com a tecnologia e ferramentas mais recentes, buscamos melhorar continuamente as capacidades com base em feedback e pesquisas com usuários para obter os melhores resultados.

Segurança e privacidade: A segurança é projetada desde o início. Com os padrões rigorosos de segurança e políticas de privacidade de dados da SAP, implementamos autenticação robusta, autorização, modelagem de ameaças e auditorias regulares para proteger processos e dados empresariais.

Explicabilidade: Nosso produto é desenvolvido com foco na explicabilidade, promovendo maior confiança e engajamento do usuário. Diferente de uma “caixa preta” que gera resultados sem justificativas, permitimos que usuários autorizados entendam as bases dos resultados, por meio de logs relevantes ou visualização dos dados brutos em chamadas de inferência.

Ética: Nosso compromisso de longa data com as diretrizes éticas da IA assegura que os casos de uso passem por avaliações rigorosas de ética, incluindo respeito aos direitos humanos, desenvolvimento centrado nas pessoas, esforço por um ambiente empresarial sem vieses, transparência e compromisso com qualidade e segurança. Isso está alinhado com o nosso propósito de ajudar o mundo a funcionar melhor e melhorar a vida das pessoas.

2. Seguindo uma arquitetura comum para generative AI

Para que as equipes internas possam seguir as melhores práticas de forma eficiente, os casos de uso são desenvolvidos com base em uma arquitetura comum, descrita no primeiro post desta série. Essa arquitetura fornece às equipes ferramentas e componentes tecnológicos na SAP BTP, incluindo o generative AI hub no SAP AI Core, o motor vetorial do SAP HANA Cloud e o SAP Joule. O generative AI hub no SAP AI Core oferece acesso confiável a Large Language Models (LLMs), fundamentação empresarial para LLMs e uma plataforma de exploração para LLMs, como explicado detalhadamente em nosso segundo post da série.

Análise aprofundada do caso de uso: compensação assistida por IA no SAP SuccessFactors

Nesta seção, vamos examinar em profundidade a funcionalidade de compensação assistida por IA no SAP SuccessFactors, para ilustrar como as melhores práticas orientam o desenvolvimento de casos de uso de IA empresarial na SAP. Esse processo inclui uma avaliação rigorosa que incorpora uma revisão ética de IA.

 

Figura 2: Foco em três pilares – qualidade dos dados, avaliação de viés e desempenho/testes

Neste aprofundamento, daremos prioridade a três categorias fundamentais: qualidade dos dados, avaliação de viés e desempenho/testes. Dentro dessas categorias, nosso foco será especialmente voltado para qualidade e imparcialidade, com os tópicos principais ilustrados na Figura 2. Nas seções seguintes, vamos explorar essas perspectivas em detalhe, abordando aspectos como precisão da solução, robustez, mecanismos de redução de custos e mitigação de vieses.

1. Contexto do caso de uso

As discussões sobre compensação entre gerentes e seus subordinados diretos são delicadas e exigem consideração cuidadosa. Cada conversa sobre remuneração é única, demandando a análise de diversos dados, como perfil do cargo, histórico de compensação e faixas salariais da organização para entender o perfil de remuneração do colaborador. Os gerentes precisam dedicar tempo analisando várias fontes de dados e preparando pontos de discussão específicos para cada funcionário. O sistema de compensação assistido por IA do SAP SuccessFactors facilita uma abordagem equitativa e eficiente, fornecendo aos gerentes insights personalizados sobre a compensação de cada colaborador, permitindo conversas sensíveis com acesso simplificado a dados e pontos de discussão direcionados.

Os Large Language Models (LLMs) oferecem um potencial significativo para simplificar e tornar esse processo mais eficiente. Com suas capacidades de extrair automaticamente pontos-chave, sumarizar e identificar temas a partir de dados históricos extensos, os LLMs geram insights valiosos, capacitando usuários de negócios, como os gerentes, a tomar decisões rapidamente.

No entanto, conforme mencionado anteriormente, usar LLMs para analisar dados de compensação apresenta desafios. Embora sejam treinados com grandes volumes de dados e consigam gerar textos de aspecto humano, os LLMs enfrentam dificuldades para entender o contexto específico e podem produzir conteúdo incorreto ou enganoso. A falta de compreensão completa do contexto de compensação dificulta a captura de faixas salariais específicas de uma empresa, país ou setor. Além disso, os LLMs não são habilidosos em cálculos matemáticos complexos, o que pode resultar em erros na apresentação de aumentos e métricas quantitativas. O SAP SuccessFactors também utiliza dados tabulares extensos. Diferentemente de texto e código, que são unidimensionais, dados tabulares são bidimensionais, o que amplia a complexidade para LLMs com dificuldades de compreender essa estrutura. Garantir imparcialidade também é um desafio significativo, pois vieses podem estar embutidos no treinamento do modelo ou nas entradas dos usuários, levantando questões éticas importantes.

Seguindo as melhores práticas, implementamos um método baseado em LLM para revisão de compensação de funcionários, combinando pré-processamento de dados tabulares e técnicas avançadas de prompt. Utilizamos serialização de tabelas para reduzir a contagem de tokens e tornar os dados mais compreensíveis para o LLM. Avaliamos amplamente precisão, robustez e vieses, assegurando que a solução seja relevante e responsável. Veja a Figura 3 para um exemplo de insights de compensação assistida por IA.

 

Figura 3: Ilustração dos insights de compensação assistida por IA

2. Aumentando a relevância com prompting avançado e seleção de modelo

A precisão das previsões de IA é essencial para gerar valor para nossos usuários de negócios. Em diversos casos de uso, as equipes aplicam uma variedade de práticas recomendadas de engenharia de prompt e ajuste fino para incorporar conhecimentos de domínio e informações específicas dos clientes. Esse método é personalizado para garantir que cada caso de uso atenda aos requisitos empresariais e alcance a qualidade de solução desejada. Por exemplo, técnicas avançadas de prompting, como o Chain of Thought (CoT), facilitam a geração de respostas mais controladas, precisas e relevantes por meio de um processo de orientação passo a passo. Outra estratégia, como o ReAct, capacita os LLMs a utilizar ferramentas para aprimorar a precisão.

Vamos ilustrar como as melhores práticas para técnicas avançadas de prompting com contextos de instruções longas e curtas aumentam a precisão na funcionalidade de compensação assistida por IA do SAP SuccessFactors.

Para criar insights de compensação, o contexto com instruções e dados de referência sobre o colaborador é fundamental. A fim de que a análise de compensação realize operações aritméticas precisas, as instruções dos prompts devem ser específicas e bem alinhadas com os dados contextuais pertinentes.

A Figura 4 compara a precisão das quantidades obtidas com prompts CoT de contextos longos e curtos e uma combinação de CoT e ReAct. Para garantir a precisão das respostas específicas de cada prompt, verificamos manualmente a exatidão das quantidades. Os resultados mostram que todas as três técnicas de prompting atingiram pontuações altas de precisão para extração de quantidades. O prompt CoT com contexto curto obteve a melhor precisão em cálculos aritméticos, demonstrando que o uso de técnicas avançadas de prompting resulta em alta acurácia para extração de números e cálculos aritméticos.

Figura 4: Aumentando o desempenho ao aplicar conhecimento de domínio com técnicas avançadas de prompting

Após a otimização da versão do prompt, selecionamos o modelo mais adequado a partir de uma variedade de modelos próprios da SAP e de parceiros. No nosso caso de uso, realizamos uma série de experimentos para comparar o desempenho dos modelos. Continuando com o prompt CoT de contexto curto, conduzimos testes adicionais para avaliar a capacidade do LLM de categorizar funcionários em “sub-remunerados”, “super-remunerados” e “remuneração justa” com base em seus históricos de compensação (Figura 5). Entre os cinco LLMs anonimizados mostrados abaixo, o Modelo A apresenta um desempenho significativamente superior aos outros, alcançando maior precisão em todas as três categorias.

A combinação das técnicas mencionadas acima dá suporte a um processo assistido por LLM que é bem especializado e preciso na análise de dados de compensação de funcionários. Essa abordagem também pode ser adaptada para outros cenários.

Figura 5: Comparação da capacidade de classificar “sub-remunerado”, “super-remunerado” e “remuneração justa” a partir dos dados de compensação de funcionários

3. Testes específicos de cenário para resultados confiáveis e robustos

Para garantir que os resultados atendam aos padrões de precisão e relevância, realizamos testes específicos para cada cenário. Esses testes ajudam a avaliar a confiabilidade e robustez da solução em diferentes situações, ajustando o modelo e os prompts de acordo com as necessidades exclusivas de cada caso de uso.

Vamos prosseguir nesse tema na próxima semana! Aguarde!

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *