Na pesquisa linguística, não é raro encontrar línguas sobre as quais nada se sabe, como ocorre com expedições que fazem contato com tribos indígenas pela primeira vez. Diante de uma língua que é uma verdadeira “caixa-preta”, sobre a qual não temos informação prévia (não sabemos nada de sua gramática ou vocabulário nem a que família pertence), por onde começar a estudá-la?
Para solucionar o problema, desenvolveram-se técnicas de análise, como a tagmêmica, proposta pelo americano Kenneth Pike na década de 1940 para estudar as línguas ameríndias. A tagmêmica e outras tecnologias similares partem do princípio de que todas as línguas, mesmo aquelas que ainda não conhecemos, têm características universais, como a presença de estruturas fonológicas, morfológicas e sintáticas que obedecem a certas leis gerais.
O primeiro passo nesse tipo de pesquisa consiste em gravar a maior quantidade possível de amostras de fala (línguas de comunidades tribais nunca têm expressão escrita) e analisar o material coletado, muitas vezes com o auxílio de softwares especiais.
Em primeiro lugar, procura-se reconhecer os sons da língua, isto é, as realizações articulatórias que se repetem sistematicamente nas amostras. A partir da comparação entre as falas de vários informantes, é possível determinar quais os sons distintivos de significado (ou seja, os fonemas) e suas variantes (chamadas de alofones). É possível até descobrir quais são variantes pessoais (ligadas aos hábitos articulatórios de um dado falante) e quais são contextuais (determinadas pelo contexto em que ocorre o fonema, isto é, os fonemas que o precedem ou sucedem). Num momento seguinte, pode-se deduzir a estrutura silábica da língua a partir das combinações recorrentes de fonemas.
Na medida em que certas sequências de fonemas se repetem na fala, deduzem-se as palavras. Há dois tipos de palavras que tendem a se repetir num ato de fala: as gramaticais, como artigos, pronomes, preposições, etc., e as palavras-tema, aquelas diretamente ligadas ao assunto da fala. É possível ainda depreender de certas sequências que diferem por um único elemento afixos, desinências e demais marcadores de flexão das palavras.
Reconhecidas as estruturas fonológica e morfológica do idioma em questão, passa-se ao reconhecimento das estruturas sintáticas: determina-se o limite das frases e, sabendo-se previamente quais são as palavras lexicais e gramaticais, procura-se descobrir como elas se combinam, num processo semelhante à análise sintática que se faz nas aulas de português.
Por fim, resta a semântica do texto. Quando pesquisadores interagem com os informantes a fim de obter o registro de sua fala, geralmente apontam objetos ou deixam que os falantes apontem. Com isso, começa-se a relacionar palavras com coisas: o processo evidentemente parte de conceitos mais concretos e corriqueiros até chegar a abstrações complexas.
Uma situação semelhante a esse tipo de investigação são os métodos de decifração de códigos secretos. A lógica deles é a mesma das tecnologias de descrição de línguas desconhecidas, com a diferença de que os códigos secretos se apresentam em mensagens escritas (geralmente numa simbologia também secreta).
Exemplo disso é o código Voynich, um misterioso manuscrito, datado pela técnica do carbono 14 como sendo do século 15 ou 16, escrito num alfabeto desconhecido e ilustrado com imagens de plantas, mapas astronômicos e mulheres nuas imersas em vasos de líquido escuro. O manuscrito leva o nome do livreiro americano de origem polonesa Wilfrid Michael Voynich, que o adquiriu em 1912 na Itália.

O caso Voynich
O documento está redigido da esquerda para a direita (é possível deduzir isso a partir do alinhamento da última linha de cada parágrafo) num alfabeto de cerca de 40 caracteres, alguns dos quais aparecem uma única vez em todo o texto (mais ou menos como k, w e y aparecem raramente nos textos em português). Todas as tentativas de decifrá-lo fracassaram, até as dos maiores especialistas em criptografia que atuaram na Segunda Guerra Mundial.
Chegou-se a cogitar que o manuscrito não passasse de um embuste, um texto sem nexo escrito no século 16 num alfabeto fictício para ser oferecido às cortes europeias, que então pagavam fortunas por obras esotéricas. Uma carta de 1666 adquirida junto com o documento afirmava ter ele pertencido ao imperador germânico Rodolfo II e sido escrito pelo filósofo medieval inglês Roger Bacon. A novidade é que cientistas têm utilizado técnicas de estatística linguística para verificar se a distribuição dos caracteres e palavras no texto é compatível com o padrão das línguas naturais.
Um artigo publicado há alguns anos por físicos brasileiros na revista PLoS One (mais informações em revistapesquisa.fapesp.br/2013/08/13/o-codigo-voynich) explica como eles utilizaram algoritmos que permitem detectar palavras-chave no texto (mais ou menos como faz o Google em suas buscas), bem como elaboraram redes de dispersão que medem o grau de proximidade ou distância entre palavras.
Até agora, os resultados apontam para padrões compatíveis com os de textos dotados de significado. O problema, neste caso, é que o manuscrito Voynich não está relacionado a nenhum referencial externo – exceto as próprias figuras do texto –, o que dificulta o reconhecimento de uma semântica subjacente.
Muitas hipóteses já foram aventadas sobre sua origem, desde a transcrição fonética por um europeu, num alfabeto inventado, de um texto ditado por um nativo do Leste asiático, até a atribuição da autoria do manuscrito a sábios medievais e charlatães renascentistas. Recentemente, um historiador britânico afirmou ter descoberto a chave para decifrar o enigmático documento. Mas isso é assunto para a próxima semana.
O que importa é que a busca pelo significado do código Voynich tem representado um belo exercício de aplicação das teorias linguísticas a um fim particular – no caso, a decifração de um texto engenhosamente criptografado.
Qualquer que seja a língua na qual o código foi redigido, se é uma língua natural, então deve obedecer aos princípios fonológicos e morfossintáticos que regem todos os idiomas, e, portanto, a utilização de tecnologias de análise como a tagmêmica deve produzir resultados satisfatórios também nesse caso.