Um Ngram, também chamado de N-gram, é uma análise estatística do conteúdo de texto ou fala para encontrar n (um número) de algum tipo de item no texto. O item de pesquisa pode ser todos os tipos de coisas, incluindo fonemas, prefixos, frases e letras. Embora um Ngram seja obscuro fora da comunidade de pesquisa, ele é usado em uma variedade de campos e tem muitas implicações para desenvolvedores que estão codificando programas de computador que entendem e respondem à linguagem falada natural. No caso do Google Books Ngram Viewer, o texto a ser analisado vem do vasto número de livros de domínio público que o Google digitalizou para preencher seu mecanismo de busca Google Books. Para o Visualizador de Ngram do Google Livros, o Google se refere ao corpo do texto que você vai pesquisar como o corpus. O Ngram Viewer agrega por idioma, embora você possa analisar separadamente o inglês britânico e americano ou agrupá-los.
Como funciona o Ngram Viewer
-
Acesse o Visualizador de Ngram do Google Livros em books.google.com/ngrams.
-
Digite qualquer frase ou frases que deseja analisar. Separe cada frase com uma vírgula. O Google sugere “Albert Einstein, Sherlock Holmes, Frankenstein” para você começar. Nas pesquisas do NGram Viewer, os itens diferenciam maiúsculas de minúsculas, ao contrário das pesquisas na web do Google.
-
Selecione um intervalo de datas. O padrão é 1.800 a 2.000.
-
Escolha um corpus. Você pode pesquisar textos em idiomas estrangeiros ou em inglês e, além das opções padrão, você pode notar entradas como “English (2009)” ou “American English (2009)” no final da lista. Esses são corpora mais antigos que o Google atualizou desde então, mas você pode ter algum motivo para fazer suas comparações com conjuntos de dados antigos. A maioria dos usuários pode ignorá-los e focar nos corpora mais recentes.
-
Defina o nível de suavização. A suavização se refere à suavidade do gráfico no final. A representação mais precisa reflete um nível de suavização de 0, mas essa configuração pode ser difícil de ler. O padrão é definido como 3. Na maioria dos casos, você não precisa ajustá-lo.
-
Aperte Pesquise muitos livros.
Usando o Ngram Viewer do Google, você pode detalhar os dados. Se você gostaria de pesquisar o verbo peixe em vez do substantivo peixe, você pode fazer isso usando tags. Neste caso, você pesquisaria por fish_VERB.
O Google fornece uma lista completa de comandos e outras documentações avançadas para uso com o Ngram Viewer em seu site.
O que o Ngram está mostrando?
O Visualizador de Ngram do Google Books gera um gráfico que representa o uso de uma frase específica em livros ao longo do tempo. Se você inseriu mais de uma palavra ou frase, cada uma é representada por uma linha codificada por cores para contrastar com os outros termos de pesquisa. Isso é semelhante ao Google Trends, apenas a pesquisa cobre um período mais longo.
Estudo de caso
Considere o estudo de caso das tortas de vinagre. Eles são mencionados em Laura Ingalls Wilder Little House on the Prairie Series. Explorar com a pesquisa na web do Google para saber mais sobre tortas de vinagre revela que elas são consideradas parte da culinária sulista americana e, de fato, são feitas com vinagre. Eles lembram de tempos em que nem todos tinham acesso a produtos frescos em todas as épocas do ano, mas será que essa é a história toda? Pesquisar no Google Ngram Viewer por torta de vinagre, e você encontrará algumas menções ao bolo no início e no final dos anos 1800, muitas menções na década de 1940 e um número crescente de menções nos últimos tempos. No entanto, com um nível de suavização de 3, você vê um platô sobre as menções no século XIX. Como não havia muitos livros publicados durante esse tempo e como os dados estão configurados para suavizar, a imagem fica distorcida. Provavelmente, apenas um livro mencionou torta de vinagre, e foi calculada a média para evitar um pico. Definindo a suavização para 0, você pode ver que esse é exatamente o caso. O pico gira em torno de 1869 e há outro pico em 1897 e 1900. É improvável que ninguém falasse sobre tortas de vinagre no resto do tempo: provavelmente havia receitas flutuando por todo o lugar, mas as pessoas não escreviam sobre elas em livros, e essa é uma limitação importante das pesquisas Ngram.