terça-feira, 25 de novembro de 2008

There is truth in data!

Eu tenho ficado cada vez mais viciado em dados. Não, por enquanto eu ainda não fui a Las Vegas ou Atlantic City. Quando eu digo dados, eu quero dizer informação ou números em uma planilha, se você preferir dito dessa forma. Antigamente os estatisticos tinham um grande trabalho compilando varios livros, indo de casa em casa fazer entrevistas, contando coisas, ... e, se voce queria saber algo sobre você mesmo (em termos numéricos), a única saida era ser uma pessoa meticulosa e ficar anotando coisas como: quantas vezes tomei Coca Cola essa semana ou, quanto tempo eu demorei lendo o jornal hoje. Com a Web tudo isso mudou. Medir comportamentos é muito facil. Um anunciante na Web sabe exatamente quantas pessoas viram o seu anuncio, quantas dessas pessoas que viram, clicaram e quantas das que clicaram no anuncio de fato compraram o produto. Além do fato de o anunciante conseguir exibir anuncios só pras pessoas que interessam a ele. Ok, eles sempre conseguiram fazer isso de certa forma. Se eles queriam exibir anuncios para donas de casa, a novela das 6 era a mais indicada. Para pessoas que chegam do trabalho, talvez a novela das 8, pra crianças, no comercial de desenho animado, homens de 20 ou 30 anos no intervalo de jogos de futebol, e por aí vai. Mas nunca foi tão facil fazer isso como na internet. Os mecanismos de busca sabem o que o usuario esta buscando e podem exibir anuncios relacionados a isso. Embora Sponsored Search Auctions seja um assunto interessante, não é sobre isso que eu queria escrever.

Recentemente, percebi que o Google Reader tem uma opção trends onde dá pra ver o perfil de utilização do usuário. Normalmente eu olhos os feeds (news, blogs, comics,...) que eu assino quando estou meio cansado do trabalho. E em geral fico trabalhando no computador durante a tarde. Esse é meu perfil de utiizacao do Reader ao longo de um dia, ou seja, quantos posts eu leio a cada hora:


Impressionantemente tem um horario que eu perco bem mais tempo no Reader - que eh quando eu começo a ficar mais cansado de ficar programando, estudando ou seja lá o que eu estiver fazendo. Ainda, olhando meus posts de acordo com o dia da semana, dá pra ver que:


segunda feira eh o dia que fico mais tempo no Reader. Gosto muito dessa minha medida de ficar perdendo tempo quando eu deveria estar estudando.

(Uma nota: um aluno de primeiro ano de estatística seria tentado a logo imaginar que esses dados seriam uma gaussiana. Eu também pensava assim. Embora gaussianas sejam ubiquas por causa do Teorema Central do Limite, nesse caso não temos uma exatamente, mesmo tendo um volume grande de dados. Isso acontece porque vários fenômenos sociais interferem no horário que as pessoas mandam ou lêem posts)

Outro dado interessante eh a estatistica de acesso do meu site. Tenho um site com alguns cadernos que tinha na epoca do IME escaneados e o Google Analytics mantém estatísticas de acesso dele. Abaixo o grafico de acessos vindos do Rio de Janeiro:


Eu consigo predizer quando sao as provas no IME só olhando pro perfil de acesso do meu site. Achei essa estatistica bem interessante.

Nenhum comentário: