Joscha Bach: https://twitter.com/Plinz/status/1529013919682994176
O direito de se gabar está em constante fluxo, ao que parece. Sobre se esses modelos multimodais de IA fazem alguma coisa para resolver as críticas sobre a utilização e o viés de recursos, embora não se saiba muito neste momento, com base no que se sabe as respostas parecem ser “provavelmente não” e “mais ou menos”, respectivamente. E a parte da inteligência real? Vamos olhar sob o capô por um momento.
A OpenAI observa que “DALL·E 2 aprendeu a relação entre as imagens e o texto usado para descrevê-las. Ele usa um processo chamado “difusão”, que começa com um padrão de pontos aleatórios e gradualmente altera esse padrão em direção a uma imagem quando reconhece aspectos específicos dessa imagem”.
O Google observa que sua “descoberta chave é que LLMs genéricos (por exemplo, T5), pré-treinados em corpora somente de texto, são surpreendentemente eficazes na codificação de texto para síntese de imagem: aumentar o tamanho do modelo de linguagem no Imagen aumenta a fidelidade da amostra e a imagem -alinhamento de texto muito mais do que aumentar o tamanho do modelo de difusão da imagem”.
Embora o Imagen pareça depender muito de LLMs, o processo é diferente para o DALL-E 2. No entanto, tanto o pessoal da OpenAI quanto o do Google, bem como especialistas independentes, afirmam que esses modelos mostram uma forma de “compreensão” que se sobrepõe à compreensão humana. A revisão do MIT Technology chegou a chamar o astronauta a cavalo, a imagem que se tornou icônica para DALL-E 2, um marco na jornada da IA para entender o mundo.
Gary Marcus, no entanto, continua não convencido. Marcus, cientista, autor de best-sellers e empresário, é bem conhecido nos círculos de IA por sua crítica em vários tópicos, incluindo a natureza da inteligência e o que há de errado com o aprendizado profundo. Ele foi rápido em apontar deficiências tanto no DALL-E 2 quanto no Imagen, e se engajar no diálogo público, inclusive com pessoas do Google.
Marcus compartilha seus insights em um título apropriadamente Ensaio “Astronauta cavalga”. Sua conclusão é que esperar que esses modelos sejam totalmente sensíveis à semântica no que se refere à estrutura sintática é uma ilusão e que a incapacidade de raciocinar é um ponto de falha geral dos métodos modernos de aprendizado de máquina e um local fundamental para procurar novas ideias.
Por último, mas não menos importante, em maio de 2022, DeepMind anunciou Gato, um modelo generalista de IA. Como ZDNet's próprias notas de Tiernan Ray, Gato é um tipo diferente de modelo multimodal de IA. O Gato pode trabalhar com vários tipos de dados para executar vários tipos de tarefas, como jogar videogames, conversar, escrever composições, legendar fotos e controlar blocos de empilhamento de braços robóticos.
Como Ray também observa, Gato faz um trabalho mais ou menos em muitas coisas. No entanto, isso não impediu as pessoas da equipe DeepMind que construiu Gato de exclamar que “O jogo acabou! Trata-se de tornar esses modelos maiores, mais seguros, eficientes em computação, mais rápidos na amostragem, memória mais inteligente, mais modalidades”.
Linguagem, objetivos e poder de mercado de poucos
Então, onde tudo isso nos deixa? Exagero, crenças metafísicas e explosões de entusiasmo à parte, o estado atual da IA deve ser examinado com sobriedade. Enquanto os modelos que foram lançados nos últimos meses são feitos de engenharia realmente impressionantes e às vezes são capazes de produzir resultados surpreendentes, a inteligência que eles apontam não é realmente artificial.
A inteligência humana está por trás da impressionante engenharia que gera esses modelos. É a inteligência humana que construiu modelos que estão ficando cada vez melhores no que o artigo fundamental de Alan Turing, Máquinas e Inteligência Computacional chamado de “jogo da imitação”, que ficou conhecido popularmente como “o teste de Turing”.
Como Diretora Executiva do Centro de Privacidade e Tecnologia (CPT) da Georgetown Law Emily Tucker escreve, Turing substituiu a pergunta “as máquinas podem pensar?” com a questão de saber se um humano pode confundir um computador com outro humano.
Turing não oferece a última questão no espírito de uma heurística útil para a primeira; ele não diz que pensa que essas duas questões são versões uma da outra. Em vez disso, ele expressa a crença de que a pergunta “as máquinas podem pensar?” não tem valor e parece esperar afirmativamente por um futuro próximo em que é de fato muito difícil, se não impossível, que os seres humanos se perguntem.
De certa forma, esse futuro pode estar se aproximando rapidamente. Modelos como Imagen e DALL-E quebram quando apresentados a prompts que exigem inteligência do tipo que os humanos possuem para processar. No entanto, para a maioria das intenções e propósitos, esses podem ser considerados casos extremos. O que os DALL-Es do mundo são capazes de gerar está no mesmo nível dos artistas mais habilidosos.
A questão então é: qual é o propósito de tudo isso. Como um objetivo em si, gastar o tempo e os recursos que algo como o Imagen requer para poder gerar imagens legais à vontade parece bastante equivocado.
Ver isso como um objetivo intermediário para a criação de IA “real” pode ser mais justificado, mas apenas se estivermos dispostos a concordar com a noção de que fazer a mesma coisa em uma escala cada vez maior levará de alguma forma a resultados diferentes.
Sob essa luz, a intenção declarada de Tucker de ser o mais específico possível sobre o que é a tecnologia em questão e como ela funciona, em vez de usar termos como “inteligência artificial e “aprendizagem de máquina”, começa a fazer sentido em algum nível.
Por exemplo, escreve Tucker, em vez de dizer “o reconhecimento facial usa inteligência artificial”, poderíamos dizer algo como “empresas de tecnologia usam conjuntos de dados maciços para treinar algoritmos para combinar imagens de rostos humanos”. Onde uma explicação completa é disruptiva para o argumento maior, ou além da experiência da CPT, eles direcionarão os leitores para fontes externas.
Verdade seja dita, isso não soa muito prático em termos de legibilidade. No entanto, é bom ter em mente que quando dizemos “IA”, é realmente uma convenção, não algo a ser tomado pelo seu valor nominal. Na verdade, são empresas de tecnologia que usam grandes conjuntos de dados para treinar algoritmos para realizar – às vezes úteis e/ou impressionantes – imitações da inteligência humana.
O que inevitavelmente leva a mais perguntas, como fazer o quê e para benefício de quem. Como Erik Brynjolfsson, economista por formação e diretor do Stanford Digital Economy Lab escreve, o foco excessivo na IA semelhante à humana reduz os salários da maioria das pessoas “mesmo que amplifique o poder de mercado de alguns” que possuem e controlam as tecnologias.
Nesse sentido, A IA não é diferente de outras tecnologias que a antecederam. O que pode ser diferente desta vez é a velocidade com que as coisas estão se desenrolando e o grau de amplificação do poder de poucos.
Inteligência artificial
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- Fonte: https://www.zdnet.com/article/resisting-the-urge-to-be-impressed-and-knowing-what-we-are-talking-about-when-we-talk-about-ai/#ftag=RSSbaffb68