Shu_Zhen

nov 06 2024

O texto que segue é a continuação da tradução que pode ser lida aqui.

3. Testes específicos de cenário para resultados confiáveis e robustos

Para garantir que os resultados atendam aos padrões de precisão e relevância, realizamos testes específicos para cada cenário. Esses testes ajudam a avaliar a confiabilidade e robustez da solução em diferentes situações, ajustando o modelo e os prompts de acordo com as necessidades exclusivas de cada caso de uso.

Tabela 1: Qualidade dos resultados LLM em diferentes cenários de dados de entrada

4. Otimização e serialização de dados de entrada para aumentar a relevância e velocidade

Além dos testes específicos por cenário, a integração de dados empresariais em casos de uso de AI é fundamental para resultados relevantes. Para esses casos empresariais, os dados geralmente são apresentados em formato tabular e com contexto semântico adicional, como fornecido pelas aplicações de negócios da SAP. Isso também precisa ser otimizado.

Começamos garantindo que os dados de contexto oferecidos para gerar insights sejam abrangentes, representando o tempo de serviço do colaborador e sua progressão salarial. Portanto, otimizar o consumo de tokens de nossos dados de entrada é uma etapa necessária para otimizar a velocidade. Simultaneamente, outro objetivo é aumentar a precisão estruturando os dados tabulares de maneira que maximize o nível de compreensão pelos LLMs.

A Tabela 2 mostra um conjunto de dados simulado, representando a progressão salarial de um colaborador. Assim como muitas outras aplicações projetadas especificamente para o SAP SuccessFactors, os dados sobre informações dos colaboradores são armazenados em formato tabular (dados estruturados). No entanto, LLMs naturalmente não têm uma boa compreensão de dados tabulares quando integrados nos prompts. Isso ocorre porque a conexão entre os cabeçalhos de coluna e os valores correspondentes das células se perde quando lida sequencialmente. Por exemplo, se enviarmos “2021” da segunda linha da Tabela 1 para o LLM, ele não reconhecerá que o valor “2021” se refere à coluna “Ano”.

Tabela 2. Exemplo de dados tabulares simulados usados para revisão de compensação de colaboradores

Para aprimorar a compreensão dos dados tabulares pelos LLMs, utilizamos um modelo de texto para serializar esses dados antes de incluí-los no prompt. A serialização segue modelos predefinidos. Um modelo simples, por exemplo, pode seguir o formato: “O {nome_da_coluna} é {valor_da_célula}.” Nossos testes demonstram que o método de serialização proposto permite que o LLM compreenda as relações internas dos dados tabulares, mantendo um tamanho de token reduzido, o que gera resultados mais rápidos e precisos (aproximadamente 25% menos tokens comparado ao formato JSON original).

5. Compreensão e mitigação de vieses inerentes com desvio focado no prompt

LLMs tendem a produzir respostas enviesadas devido a desequilíbrios no conjunto de dados de treinamento. Evitar a propagação de viés em aplicações de AI generativa apresenta desafios únicos, devido à sua natureza de geração de conteúdo, como no caso da ferramenta de compensação que gera pontos de discussão. No entanto, práticas recomendadas são aplicadas para identificar e mitigar viés, utilizando técnicas como engenharia de prompts específica ou fine-tuning.

Para ilustrar esse processo no contexto do nosso caso de uso, examinamos potenciais vieses involuntários ao simular ajustes salariais recomendados entre diferentes grupos de gênero. Isso é realizado alternando entre nomes masculinos e femininos nos parâmetros de entrada, representando os respectivos grupos de gênero, que, por sua vez, são utilizados para chamadas de API LLM. Observa-se que o ajuste salarial não é incluído nos resultados finais apresentados aos usuários; é utilizado exclusivamente para fins de cálculo e avaliação interna.

Os resultados dessas chamadas são então analisados para uma avaliação estatística.

Figura 6: Comparação de cenários diferenciados por gênero na entrada de dados e estilo de prompting

A Figura 6 ilustra o fluxo de avaliação para diferentes cenários baseados no gênero presente nos dados de entrada e em variados estilos de prompting. Especificamente, adotamos e avaliamos o estilo de prompting orientado para pensamento, através de instruções adicionais que explicitamente instruem o modelo a permanecer imparcial.

Na Figura 7, comparamos as distribuições dos resultados obtidos antes e depois do uso de um estilo de prompting imparcial e da remoção de pronomes de gênero. Observa-se que o uso de prompting adequado reduz o viés, proporcionando distribuições de resultados similares para casos masculinos e femininos, com intervalos de variação mais estreitos. Quando o gênero foi incluído diretamente no prompt, aqueles identificados como não-binários foram, em geral, favorecidos pelo LLM.

Figura 7: Distribuições de resultados por grupo com base em gênero: antes e depois (as barras verticais representam intervalos e os pontos representam valores atípicos)

O efeito da redução de viés é ilustrado na Figura 8. Deduímos o viés a partir das discrepâncias observadas entre os dois grupos de gênero. Especificamente, calculamos a discrepância entre as distribuições dos resultados com base em gênero, medindo a diferença entre seus valores médios em uma escala padronizada. Nesta figura, por exemplo, ao empregar um prompt básico, temos uma diferença de 0,162 entre os grupos de gênero com o Modelo B. No entanto, essa diferença pode ser reduzida para um valor muito menor de 0,049 ao utilizar o prompt final.

Figura 8: Efeito da redução de viés com base na discrepância dos valores médios dos grupos de gênero

Com base nessas avaliações das medidas de mitigação de viés, ajustamos ativamente nossa abordagem para minimizar o viés na implementação em produção. Isso inclui a remoção de informações de gênero dos dados contextuais no prompt e a adoção de um estilo de prompt imparcial.

6. Garantindo uma IA confiável e responsável por meio de processos de revisão ética

No contexto da IA generativa, as considerações éticas são fundamentais devido ao seu potencial de uso para geração de conteúdo, resumo e casos de uso em classificação. Assegurar a equidade, transparência e responsabilidade no processo de geração é essencial para mitigar vieses, respeitar os direitos de privacidade e promover a aplicação responsável de IA para negócios. Na SAP, nossa política de ética em IA exige que as aplicações de IA generativa sigam três pilares fundamentais: “Supervisão e Agência Humana”, “Endereçamento de Viés e Discriminação” e, por último, “Transparência e Explicabilidade”.

Figura 9: Pilares da política de ética em IA da SAP

O SAP SuccessFactors possui uma estrutura de reconhecimento de IA que os usuários precisam aceitar antes de utilizar ou visualizar qualquer capacidade de IA. Além disso, os padrões de produto e o processo de avaliação de riscos garantem que todos os dados pessoalmente identificáveis sejam tratados de maneira apropriada e anonimizada. Controles de acesso aos dados são aplicados com base em permissões por função, e as informações são limitadas ao que o usuário tem autorização para acessar. Conforme o tipo de aplicação e os dados processados, os casos de uso de IA são classificados internamente por nível de risco e revisados pelo comitê de ética em IA da SAP, a fim de abordar qualquer questão de viés ou segurança de dados. O caso de uso de discussão assistida por IA sobre compensação foi cuidadosamente revisado pelo comitê de ética da SAP. Esse processo resultou no aprimoramento de avisos, do conteúdo dos prompts e das informações para reduzir o viés.

As melhorias implementadas incluem evitar inferências sobre desempenho presumido, evitar declarações genéricas e criar pontos de ação claros e específicos. Seguindo nossas melhores práticas, os usuários podem visualizar todas as fontes de dados utilizadas para gerar insights, promovendo a explicabilidade e transparência. Este processo é descrito detalhadamente no manual de ética em IA da SAP.

Além disso, garantimos a conformidade com o Ato de IA da União Europeia, que classifica a manipulação de comportamento cognitivo, pontuação social, identificação biométrica e categorização baseada nesses dados como “riscos inaceitáveis”. Há também requisitos de transparência bem definidos para sistemas de IA de uso geral. Nossas soluções, incluindo a revisão assistida por IA para compensação, passam nesses critérios, graças ao rigoroso processo de revisão ética em IA mencionado anteriormente.

Conclusão

Na SAP, nossas melhores práticas de engenharia são orientadas para desenvolver aplicações de IA generativa éticas, resilientes e escaláveis. Essa sinergia nos permite desbloquear o potencial da IA generativa dentro de nossas aplicações e plataforma de negócios, ampliando a eficiência e produtividade para nossos clientes.

Neste artigo, exploramos o ponto crítico de interseção entre o conhecimento específico de negócios do SAP SuccessFactors e a especialização em IA generativa. Compartilhamos exemplos de melhores práticas de engenharia aplicadas ao desenvolvimento do cenário de discussão de compensação assistida por IA, detalhando a eficácia quantitativa de cada prática a partir de perspectivas como relevância, robustez, confiabilidade e mitigação de viés. Além disso, descrevemos a revisão ética de IA a que este caso de uso foi submetido.

Coautoria de Dr. Shu Zhen, Gayatri Gopalakrishnan, Dr. Jan Dumke e Akhil Agarwal

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *