banner
Lar / Notícias / A maioria dos dados de treinamento de IA poderão ser sintéticos no próximo ano
Notícias

A maioria dos dados de treinamento de IA poderão ser sintéticos no próximo ano

Jun 09, 2023Jun 09, 2023

Os dados sintéticos permitem que os modelos de IA sejam treinados em um conjunto de dados maior do que seria possível com dados puramente orgânicos.

Por Ryan Morrison

A maioria dos dados usados ​​para treinar modelos de aprendizado de máquina serão sintéticos e gerados automaticamente, prevê um novo relatório do Gartner. Apenas 1% de todos os dados de treinamento de IA eram sintéticos em 2021, mas os analistas sugerem que poderia atingir 60% até o final de 2024. A governança e a vigilância sobre preconceitos são essenciais para evitar que esses dados sofram os mesmos desafios que os dados orgânicos, disse um especialista ao Tech. Monitor.

Os dados sintéticos são gerados pela IA para preencher lacunas em informações do mundo real, como imagens médicas ou informações sobre padrões de doenças específicas. Em uma nova pesquisa sobre tendências em ciência de dados, publicada esta semana, o Gartner prevê que até 2024 mais de 60% de todos os dados de treinamento de modelos de IA serão sintéticos, algo que, segundo ela, levará a melhores sistemas de IA.

Esta mudança de dados de treinamento orgânicos para dados de treinamento sintéticos faz parte de uma mudança mais ampla em direção à IA centrada em dados, como aquelas usadas para produzir grandes modelos de linguagem e de base. “Soluções como gerenciamento de dados específicos de IA, dados sintéticos e tecnologias de rotulagem de dados visam resolver muitos desafios de dados, incluindo acessibilidade, volume, privacidade, segurança, complexidade e escopo”, afirma o relatório do Gartner.

Um relatório recente da GlobalData concluiu que as start-ups de dados sintéticos estavam “redefinindo o cenário da geração de dados”. Descrevendo-a como a “chave mestra para o futuro da IA”, Kiran Raj, chefe de prática de tecnologia disruptiva da GlobalData, disse que as start-ups estavam a romper os grilhões da qualidade e regulamentação dos dados. “À medida que a procura por dados fiáveis, económicos, eficientes em termos de tempo e que preservam a privacidade continua a acelerar, as start-ups imaginam um futuro alimentado por dados sintéticos, inaugurando uma nova era de progresso na aprendizagem automática”, disse Raj.

Tem potencial para ter impactos positivos em vários setores. Na área da saúde, já está a ser utilizado para aumentar dados reais de pacientes para formação de médicos, melhoria da descoberta de medicamentos e otimização de sistemas. No setor dos serviços financeiros, está a ajudar a mitigar riscos e a detetar fraudes. E no retalho, está a melhorar a previsão da procura, o marketing personalizado e a deteção de fraudes.

As outras tendências principais observadas pelo Gartner incluem uma mudança em direção ao processamento de ponta para IA. O processamento de dados no ponto de criação ajudará as organizações a obter insights em tempo real e a detectar novos padrões, de acordo com o relatório. Também tornará mais fácil cumprir requisitos cada vez mais rigorosos de privacidade de dados. A organização prevê que mais de 55% da análise de dados por redes neurais ocorrerá em um sistema de ponta até 2025.

Os analistas do Gartner prevêem que haverá uma maior ênfase na IA responsável. Isto inclui garantir que a tecnologia seja utilizada como uma força positiva e não como uma ameaça à sociedade. Inclui garantir que as empresas façam escolhas éticas ao adotarem a IA que aborde o valor social, o risco, a confiança, a responsabilidade e a transparência. Estes são os requisitos básicos que constituem muitas das regulamentações de IA que estão sendo desenvolvidas em todo o mundo, inclusive no Reino Unido.

As organizações devem adotar uma “abordagem proporcional ao risco” ao investimento e implantação de IA, alertaram os analistas. Isto inclui ter cuidado ao aplicar soluções e modelos e procurar garantias dos fornecedores para garantir que estão a gerir os seus próprios riscos e obrigações de conformidade. Isso ajudará a protegê-los de perdas financeiras e ações legais.

Alguns modelos de base e organizações de IA generativa estão oferecendo graus de indenização por esses riscos. A Adobe afirma que cobrirá os custos associados a reivindicações de direitos autorais decorrentes do uso de seu modelo de imagem generativa de IA Firefly. Isso ocorre porque a empresa está confiante de que o modelo é treinado exclusivamente em dados licenciados e autorizados que não produzirão resultados suspeitos de direitos autorais.

Peter Krensky, analista diretor da Gartner, disse: “À medida que a adoção do aprendizado de máquina continua a crescer rapidamente em todos os setores, os dados estão evoluindo do foco apenas em modelos preditivos para uma disciplina mais democratizada, dinâmica e centrada em dados. Isto agora também é alimentado pelo fervor em torno da IA ​​generativa. Embora riscos potenciais estejam surgindo, também estão surgindo muitas novas capacidades e casos de uso para cientistas de dados e suas organizações.”