Uma cartilha sobre ChatGPT, grandes modelos de linguagem e IA generativa

O que significa esta palavra sopa para o contact center?
O ChatGPT está na imprensa como uma bola de confete explodindo. As empresas de tecnologia falam sobre como isso vai transformar o software. As empresas de jogos prevêem que ele adicionará uma capacidade de fala dinâmica e humana aos seus personagens. Os professores estão tentando reimaginar a educação agora que o plágio se tornou indetectável da noite para o dia. O Bing da Microsoft de repente parece um concorrente do Google com sua funcionalidade ChatGPT integrada. E os agentes virtuais para atendimento ao cliente e análise de conversação estão prestes a dar um grande salto à frente.
O ciclo de notícias tem sido tão rápido que é difícil acompanhar toda a terminologia. Dependendo de qual artigo você lê, você pode ver os termos ChatGPT, GPT, GPT-3, GPT-4, modelos de linguagem grandes (LMM) ou IA generativa, todos usados de forma intercambiável. E você não seria culpado por se sentir confuso sobre o que significa o quê ou o que faz o quê. Neste post, explicarei os termos com foco no impacto no contact center.
ChatGPT
ChatGPT é o termo que você verá mais usado e mal utilizado. ChatGPT é um aplicativo de bate-papo que pode manter uma conversa humana sobre quase qualquer tópico. Foi construído por uma startup com fins lucrativos chamada OpenAI, que recebeu um investimento significativo da Microsoft. É este aplicativo que gerou a agitação da imprensa e entusiasmo, por dois motivos:
Parece mágica
É acessível a todos.
Parece mágica porque parece humano. Você faz uma pergunta sobre café expresso e recebe uma resposta coloquial como se fosse de um barista. Você faz uma pergunta sobre epilepsia e recebe uma resposta coloquial como se fosse de um pesquisador médico. E quando comparada às experiências de muitas pessoas com chatbots que parecem dizer principalmente: “Desculpe, não entendi”, essa experiência parece uma alquimia.
Em segundo lugar, é acessível às pessoas comuns. Embora esse tipo de recurso possa estar disponível para pesquisadores e cientistas de dados, o ChatGPT é o primeiro aplicativo disponível e compreensível para o público em geral. Seja você um garoto de 10 anos fazendo o dever de casa (mas não trapaceando!) Ou um engenheiro procurando conselhos sobre codificação, o ChatGPT é acessível e fácil de usar.
Desde fevereiro de 2023, o ChatGPT não está disponível para uso no contact center (ou por qualquer outro setor). Ele não possui uma API – embora haja uma lista de espera na qual o OpenAI está coletando interesse – e não pode ser usado fora da interface de bate-papo. Aliás, também está sob alta carga e muitas vezes indisponível (a OpenAI lançou uma versão paga que promete velocidades mais rápidas e maior disponibilidade). Mas a soma disso é que o ChatGPT não é algo que um contact center possa usar prontamente.
Ver mais: ChatGPT e seu potencial no contact center
Grandes modelos de linguagem
Então, do que as pessoas estão falando quando dizem que o ChatGPT vai transformar o setor de contact center (ou qualquer outro)? Eles estão falando sobre o tipo de modelo de IA que sustenta o ChatGPT. Esse tipo de modelo é chamado de modelo de linguagem grande ou LLM. É grande porque está fazendo um grande número de cálculos sob o capô para cada previsão que faz. Os modelos também são treinados em uma quantidade igualmente grande de dados, como quase todas as palavras escritas digitalizadas, como toda a Internet. É um modelo de linguagem porque seu foco é prever sequências de palavras.
O que isso significa é que, quando recebe um prompt, o modelo pode prever o que vem a seguir. Portanto, se você fornecer o prompt “Rema, rema, rema seu __“, o modelo pode prever que a próxima palavra é “barco”. Esta última safra de grandes modelos de linguagem pode prever muito mais do que uma palavra, no entanto. Quando recebe um prompt como “O impacto dos IVRs na qualidade do atendimento ao cliente foi…”, um LLM pode prever ou completar alguns parágrafos de um texto bastante razoável descrevendo o impacto histórico dos IVRs no atendimento ao cliente. Por esse motivo, esses modelos também são chamados de modelos de conclusão de texto. Dados todos os dados que o modelo “leu” anteriormente, ele pode completar a próxima frase lógica, parágrafo ou ensaio com uma qualidade humana.
Os LLMs não trabalham com imagens, não fazem análises estatísticas, não fazem cálculos e não verificam os fatos. Eles apenas operam no domínio da linguagem – a palavra escrita. Para qualquer setor que lide principalmente com o idioma – como o contact center – focar apenas no idioma é muito! O contact center ajuda as pessoas a resolver problemas por meio de linguagem falada ou digitada. O idioma está no centro do que o contact center faz e é por isso que o impacto dos LLMs no atendimento ao cliente é tão profundo.
GPT
Todos nós sabemos o que significa bate-papo. Mas o que é GPT? GPT significa transformador pré-treinado generativo. Ele descreve uma família de LLMs que foram construídos de uma maneira particular (os LLMs podem ser construídos de várias maneiras).
No momento, o ChatGPT utiliza uma versão não divulgada do GPT criada pela OpenAI, que foi aprimorada para ter um bom desempenho em conversas do tipo bate-papo. Existem muitos outros tipos de LLMs. E sim, existe um GPT-1, um GPT-2 e haverá um GPT-4 em breve. Cada geração desses modelos tem um número crescente de “parâmetros”, que você pode imaginar como neurônios no cérebro. O GPT-1 tem 117 milhões de parâmetros, o GPT-3 tem 175 bilhões de parâmetros e o GPT-4 terá muito mais parâmetros.
Até o momento, adicionar mais parâmetros resultou em modelos mais capazes. Se você já jogou com o ChatGPT, usando o GPT-3 sob o capô, sabe que as conclusões de texto são muito boas. Em particular, foi a mais recente iteração dos modelos GPT, conhecida como GPT 3.5 DaVinci, que cruzou o abismo de interessante para incrível; no entanto, se você jogasse com GPT-1, não ficaria tão impressionado.
Embora o ChatGPT não esteja disponível fora da interface de bate-papo no site da OpenAI, muitos desses modelos de GPT estão disponíveis na OpenAI por meio de APIs pagas. Por causa de seu relacionamento amigável com a Microsoft, essas APIs também estão disponíveis para uso pago via Microsoft Azure. Esse fato é significativo para os contact centers, porque o Azure adiciona os tipos de fatores de segurança, confiabilidade, conformidade e privacidade de dados exigidos pelos contact centers.
No entanto, existem muitos outros modelos GPT e LLM disponíveis de outros fornecedores, também em código aberto. O Google, por exemplo, lançou seu LLM, chamado Bard, e anunciou um investimento de US$ 300 milhões na Anthropic – uma startup que constrói LLMs. Outro LLM popular de código aberto é chamado Bloom. Resumindo, há uma grande variedade de opções para construir software com LLMs. OpenAI não é o único jogo na cidade.
IA generativa
Isso nos leva ao nosso termo final, IA generativa. IA generativa é um termo abrangente, que se refere a qualquer um dos modelos de IA que geram uma nova saída com base em uma entrada, geralmente chamada de prompt. Este termo mais amplo abrange modelos que produzem linguagem, imagens visuais e áudio.
Você pode ter ouvido falar sobre o Dall-e, outro produto da OpenAI, que pode produzir belas imagens quando solicitado. Ou Jukebox que gera música como áudio bruto. Esses modelos de IA generativa não usam necessariamente LLMs, mas alguns incorporam LLMs em um esforço para entender o significado de um prompt. Para o contact center, os modelos de áudio e visual são menos interessantes no momento. No entanto, os modelos que produzem saídas de áudio certamente atingirão seu ritmo nos próximos anos, o que terá um impacto transformador na conversação por voz. Os modelos de geração de voz pegam uma pequena amostra da conversa de voz gravada e criam uma voz simulada que pode ser usada programaticamente por sistemas de software.
Embora ChatGPT seja o termo que dominou as notícias, ele foi usado junto com esses outros termos em uma confusa sopa de palavras. Espero que tudo esteja fazendo mais sentido. O importante para quem trabalha no contact center é que os LLMs se tornaram muito bons em prever palavras, frases e parágrafos. E como muito do que fazemos no contact center é dar respostas razoáveis aos clientes com base na linguagem, o impacto é profundo. Isso significa que os sistemas automatizados alcançaram uma qualidade comparável à de um ser humano em muitos casos.