Uma reportagem da MIT Technology Review Brasil revelou uma prática que cresce silenciosamente: trabalhadores informais na Nigéria e na Índia prendem iPhones à cabeça e gravam a si mesmos realizando tarefas domésticas, como lavar louça, dobrar roupas e varrer o chão. O objetivo é fornecer dados de movimento humano para empresas que desenvolvem robôs humanoides.
O trabalho é pago por tarefa, sem vínculo empregatício, sem contrato formal e, na maior parte dos casos, sem qualquer explicação clara sobre como os dados coletados serão usados, por quanto tempo serão armazenados ou com quem serão compartilhados. É a chamada economia de bicos aplicada ao treinamento de inteligência artificial.
Para o mercado brasileiro de IA, a notícia não é apenas uma curiosidade tecnológica. Ela ilustra um ponto cego que muitas startups brasileiras também enfrentam: a ausência de governança sobre a origem dos dados usados para treinar modelos. E isso, em 2026, tem consequências jurídicas e contábeis concretas.
Contexto jurídico e regulatório
LGPD e o dado de treinamento: quem é o controlador?
A Lei Geral de Proteção de Dados (Lei 13.709/2018) define como controlador qualquer pessoa física ou jurídica que toma decisões sobre o tratamento de dados pessoais. Quando uma empresa brasileira contrata um serviço externo de anotação ou coleta de dados, mesmo que a coleta ocorra no exterior, ela pode ser enquadrada como controladora se determinar a finalidade e os meios do tratamento.
Imagens de rosto, padrões de movimento corporal e voz são dados biométricos, classificados pela LGPD como dados sensíveis (art. 11). O tratamento de dados sensíveis exige consentimento específico e destacado, ou outra base legal expressa. Contratos genéricos de prestação de serviço não cobrem essa exigência.
A ANPD (Autoridade Nacional de Proteção de Dados) já sinalizou, em seu Guia Orientativo sobre Inteligência Artificial (publicado em 2024), que a fase de treinamento de modelos está sujeita às obrigações da LGPD. Isso inclui o registro das operações de tratamento, a avaliação de impacto à proteção de dados (RIPD) e a adoção de medidas técnicas e administrativas de segurança.
Marco Legal da IA: obrigações para sistemas de alto risco
O PL 2.338/2023, aprovado no Senado e em tramitação na Câmara dos Deputados ao longo de 2025, classifica sistemas de IA voltados a robótica autônoma com interação física como de alto risco. Para esses sistemas, o texto exige documentação técnica detalhada, incluindo a descrição dos conjuntos de dados usados no treinamento, os critérios de qualidade dos dados e os mecanismos de supervisão humana.
Empresas que comercializam ou implantam esses sistemas no Brasil, mesmo que os modelos tenham sido treinados fora do país, estão sujeitas às regras do Marco Legal. A territorialidade segue o critério de efeito: se o sistema opera ou afeta pessoas no Brasil, a lei se aplica.
A ausência de rastreabilidade sobre a origem dos dados de treinamento pode configurar descumprimento das obrigações de transparência e documentação técnica previstas no projeto de lei. Isso representa risco regulatório direto, especialmente para startups que buscam contratos com o governo federal, onde os critérios de conformidade devem ser mais rígidos.
Impacto prático
Para founders e CTOs de startups de IA no Brasil, o modelo descrito pela MIT Technology Review levanta uma questão operacional imediata: você sabe exatamente de onde vieram os dados que treinaram seu modelo? Se a resposta for não, ou se os dados vieram de fornecedores terceiros sem auditoria, o risco jurídico já existe.
Do ponto de vista contábil, dados de treinamento obtidos de forma irregular podem invalidar ativos intangíveis registrados no balanço. O CPC 04 (R1), que trata de ativos intangíveis, exige que o ativo seja identificável e controlável. Se a empresa não consegue demonstrar que detém os direitos sobre os dados ou que os coletou de forma legalmente válida, o registro contábil do modelo como ativo pode ser questionado por auditores ou pelo Fisco.
Investidores em deep tech também precisam incluir a due diligence de dados nos processos de avaliação de startups. Um modelo com boa performance técnica mas com cadeia de dados opaca representa passivo oculto relevante, especialmente em rodadas que antecipam saída por aquisição ou IPO.
Considerações finais
A economia de bicos para treinamento de IA não é exclusividade da Nigéria ou da Índia. Plataformas como Scale AI, Appen e similares operam globalmente, e startups brasileiras já as utilizam. O que muda em 2026 é o ambiente regulatório: com o Marco Legal da IA avançando e a ANPD mais ativa, ignorar a origem dos dados de treinamento deixou de ser uma opção estratégica aceitável.
A boa prática recomendada é realizar agora uma auditoria de proveniência dos dados usados em cada modelo em produção ou desenvolvimento. Esse trabalho, feito de forma preventiva, custa muito menos do que responder a uma notificação da ANPD ou perder um contrato por falha de compliance.