Regulação de IA no Brasil: o que muda em 2026

Por SAFIE · 1 de maio de 2026 · 4 min de leitura

Uma reportagem da MIT Technology Review Brasil revelou uma prática que cresce silenciosamente: trabalhadores informais na Nigéria e na Índia prendem iPhones à cabeça e gravam a si mesmos realizando tarefas domésticas, como lavar louça, dobrar roupas e varrer o chão. O objetivo é fornecer dados de movimento humano para empresas que desenvolvem robôs humanoides.

O trabalho é pago por tarefa, sem vínculo empregatício, sem contrato formal e, na maior parte dos casos, sem qualquer explicação clara sobre como os dados coletados serão usados, por quanto tempo serão armazenados ou com quem serão compartilhados. É a chamada economia de bicos aplicada ao treinamento de inteligência artificial.

Para o mercado brasileiro de IA, a notícia não é apenas uma curiosidade tecnológica. Ela ilustra um ponto cego que muitas startups brasileiras também enfrentam: a ausência de governança sobre a origem dos dados usados para treinar modelos. E isso, em 2026, tem consequências jurídicas e contábeis concretas.

Contexto jurídico e regulatório

LGPD e o dado de treinamento: quem é o controlador?

A Lei Geral de Proteção de Dados (Lei 13.709/2018) define como controlador qualquer pessoa física ou jurídica que toma decisões sobre o tratamento de dados pessoais. Quando uma empresa brasileira contrata um serviço externo de anotação ou coleta de dados, mesmo que a coleta ocorra no exterior, ela pode ser enquadrada como controladora se determinar a finalidade e os meios do tratamento.

Imagens de rosto, padrões de movimento corporal e voz são dados biométricos, classificados pela LGPD como dados sensíveis (art. 11). O tratamento de dados sensíveis exige consentimento específico e destacado, ou outra base legal expressa. Contratos genéricos de prestação de serviço não cobrem essa exigência.

A ANPD (Autoridade Nacional de Proteção de Dados) já sinalizou, em seu Guia Orientativo sobre Inteligência Artificial (publicado em 2024), que a fase de treinamento de modelos está sujeita às obrigações da LGPD. Isso inclui o registro das operações de tratamento, a avaliação de impacto à proteção de dados (RIPD) e a adoção de medidas técnicas e administrativas de segurança.

Marco Legal da IA: obrigações para sistemas de alto risco

O PL 2.338/2023, aprovado no Senado e em tramitação na Câmara dos Deputados ao longo de 2025, classifica sistemas de IA voltados a robótica autônoma com interação física como de alto risco. Para esses sistemas, o texto exige documentação técnica detalhada, incluindo a descrição dos conjuntos de dados usados no treinamento, os critérios de qualidade dos dados e os mecanismos de supervisão humana.

Empresas que comercializam ou implantam esses sistemas no Brasil, mesmo que os modelos tenham sido treinados fora do país, estão sujeitas às regras do Marco Legal. A territorialidade segue o critério de efeito: se o sistema opera ou afeta pessoas no Brasil, a lei se aplica.

A ausência de rastreabilidade sobre a origem dos dados de treinamento pode configurar descumprimento das obrigações de transparência e documentação técnica previstas no projeto de lei. Isso representa risco regulatório direto, especialmente para startups que buscam contratos com o governo federal, onde os critérios de conformidade devem ser mais rígidos.

Impacto prático

Para founders e CTOs de startups de IA no Brasil, o modelo descrito pela MIT Technology Review levanta uma questão operacional imediata: você sabe exatamente de onde vieram os dados que treinaram seu modelo? Se a resposta for não, ou se os dados vieram de fornecedores terceiros sem auditoria, o risco jurídico já existe.

Do ponto de vista contábil, dados de treinamento obtidos de forma irregular podem invalidar ativos intangíveis registrados no balanço. O CPC 04 (R1), que trata de ativos intangíveis, exige que o ativo seja identificável e controlável. Se a empresa não consegue demonstrar que detém os direitos sobre os dados ou que os coletou de forma legalmente válida, o registro contábil do modelo como ativo pode ser questionado por auditores ou pelo Fisco.

Investidores em deep tech também precisam incluir a due diligence de dados nos processos de avaliação de startups. Um modelo com boa performance técnica mas com cadeia de dados opaca representa passivo oculto relevante, especialmente em rodadas que antecipam saída por aquisição ou IPO.

Considerações finais

A economia de bicos para treinamento de IA não é exclusividade da Nigéria ou da Índia. Plataformas como Scale AI, Appen e similares operam globalmente, e startups brasileiras já as utilizam. O que muda em 2026 é o ambiente regulatório: com o Marco Legal da IA avançando e a ANPD mais ativa, ignorar a origem dos dados de treinamento deixou de ser uma opção estratégica aceitável.

A boa prática recomendada é realizar agora uma auditoria de proveniência dos dados usados em cada modelo em produção ou desenvolvimento. Esse trabalho, feito de forma preventiva, custa muito menos do que responder a uma notificação da ANPD ou perder um contrato por falha de compliance.

Perguntas frequentes

O Brasil já tem uma lei específica para regulação de IA?

Ainda não está completamente promulgada. O PL 2.338/2023 foi aprovado no Senado em 2023 e tramitou na Câmara dos Deputados durante 2024 e 2025. Paralelamente, a LGPD (Lei 13.709/2018) já se aplica ao tratamento de dados pessoais em qualquer fase do ciclo de vida de sistemas de IA, incluindo coleta e treinamento.

Dados biométricos usados para treinar robôs precisam de consentimento expresso no Brasil?

Sim. A LGPD classifica dados biométricos como sensíveis (art. 11) e exige consentimento específico, destacado e para finalidade determinada. Contratos genéricos de prestação de serviço não substituem esse consentimento. A ausência dele expõe a empresa a sanções da ANPD, que podem chegar a 2% do faturamento no Brasil, limitado a R$ 50 milhões por infração.

Uma startup brasileira que usa dados coletados no exterior precisa seguir a LGPD?

Sim, se a startup está estabelecida no Brasil ou se os dados são de titulares brasileiros, independentemente de onde a coleta ocorreu. O critério de aplicação territorial da LGPD inclui o local de estabelecimento do controlador, o que abrange praticamente todas as empresas brasileiras que operam com dados de treinamento obtidos por terceiros.

Como registrar corretamente dados de treinamento de IA no balanço contábil?

Dados de treinamento podem integrar o custo de desenvolvimento de um ativo intangível (modelo de IA), conforme o CPC 04 (R1). Para ser registrado, o ativo precisa ser identificável, controlável e capaz de gerar benefícios econômicos futuros. Se os dados foram obtidos sem base legal adequada, o controle jurídico sobre o ativo é questionável, o que pode inviabilizar ou comprometer o registro.

O que é uma auditoria de proveniência de dados e quando minha startup precisa fazer uma?

É o processo de rastrear e documentar a origem, a forma de coleta, as licenças e as bases legais de cada conjunto de dados usado no treinamento de um modelo. É recomendável fazer antes de lançar um produto em produção, antes de captar uma rodada de investimento e antes de assinar contratos com o governo. Empresas que desenvolvem sistemas classificados como de alto risco pelo Marco Legal da IA terão essa documentação como exigência legal.