Alimentar o corpus – como os engenheiros de Linguística chamam a base de dados de linguagem – se tornou vital para alguns países, assim como para o aprendizado do equipamento. O Google recentemente acrescentou cazaque à sua lista depois que um membro do governo do país em questão foi à TV para pedir ajuda.
Apesar disso, alguns especialistas se preocupam com o fato de as máquinas já analisarem o uso individual de interpretação por meio de detalhes como entonação e humor. O que pode acontecer se essas conversas forem usadas por anunciantes e pelas autoridades? Olivier Fontana, diretor de marketing de produto do projeto Skype, garante que as conversas são divididas em dois arquivos diferentes antes que se verifique a qualidade da tradução. “Não tem jeito de saber quem disse o quê. Nem a NSA (Agência de Segurança Nacional dos EUA) conseguiria decifrar.”