sábado, 29 de maio de 2010

Paixao por dados

Nos filmes de ficcao cientifica normalmente tem aquela imagem do futuro onde todo mundo tem um chip dentro de si que dah sua identidade e todos os seus dados e que tem todos os dados sobre voce. Em geral isso eh retratado como uma realidade sombria, mas para mim eh algo fascinante. Tem tanta coisa sobre mim que eu nao sei e que gostaria de saber:
  • quanto tempo eu passo em cada lugar
  • quanto tempo eu passo fazendo cada atividade (lendo email, estudando, enrolando, limpando a casa, ...)
  • como meus hormonios (adrenalina, serotonina, endorfina...) variam nas diversas situacoe
e varias outras coisas.... Deve ser essa minha mania de querer ficar otimizando as coisas. Ou melhor, de pensar como as coisas poderiam ser otimizadas, mesmo que eu efetivamente nao as faca. Na verdade o ponto nao eh necessariamente otimizar, mas aprender mais sobre voce. Quando voce olha para essas analises, voce comeca a ver coisas que voce nao imaginava: "Mas eu gasto todo esse dinheiro em cafezinho?", "Mas eu fico tanto tempo assim checando email?", "Nao pode ser, eu nao como tanto acucar!" e coisas assim. A verdade eh que com todo mundo tendo celulares como iPhones, Droids, Smartphones e similares fica muito facil fazer controle de varias dessas coisas.

Path Tracker

Bom, estou escrevendo isso porque hoje testei o PathTracker: se trata de um aplicativo de iPhone que te dah o caminho que voce fez e estatisticas sobre ele. Voce liga o PathTracker e a cada intervalo de tempo (algo como, a cada minuto), ele registra a sua posicao usando o GPS do iPhone e no fim ele te dah um mapa dizendo por onde voce passou, a velocidade em cada ponto, a altitude do caminho e outras variaveis.

Hoje eu sai pra fazer um passeio de bike (vendi a minha em Ithaca e comprei uma nova aqui em Cambridge). Esse foi o caminho que fiz hoje (eu soh lembrei de ligar na volta). Se chama the Minuteman Bikeway, mas no mapa tem nao somente o Minuteman como a minha volta do inicio do Minuteman pra Harvard Square:


O mais legal eh que voce tem tambem um mapa da altitude ao longo do caminho:


e um mapa do pace (que eh basicamente tempo/distancia):


Google Analytics

Eu tenho usando sempre varias Analyic Tools. A que eu uso a mais tempo eh o Google Analytics pra analisar o trafego do meu site (quantos acessos eu tenho por dia, como eles variam a cada hora do dia, de que cidades meu site eh acessado, ...). Como eu jah mostrei antes, a parte do meu site que tem a copia dos meus cadernos tem o seguinte padrao de acesso:


ou seja, eu consigo perceber claramente quando sao as provas do IME. Aih em cima tem uma estatistica do numero de acessos no ano de 2009 inteiro. O meu blog jah eh meio diferente. Eh algo como em 2010 ateh agora:


Eu sinceramente gostaria de ter mais tempo de brincar com esses dados e ver que coisas interessantes eu poderia dizer sobre eles. O meu blog eh um blog pequeno, e nao tem tantos acessos pra se fazer uma analise interessante, mas seria otimo fazer analises assim na Wikipedia ou no Twitter e de fatos tem varios estudos sendo feitos.

Mint.com

Mas voltando ao caso de me conhecer melhor analisando dados sobre mim: eu recentemente venci a resistencia e o medo em relacao a essas coisas e criei uma conta no mint.com, e de fato eh super legal. O Mint eh um agregador de contas bancarias. Voce dah suas contas e senhas do banco (ok, it is scary, mas eh um site grande e eu conheco tanta gente usando que decidi que nao tinha problema. E procurando na internet voce soh ve gente falando bem e aparentemente o sistema se seguranca deles eh bom), mas voltando, voce dah suas contas e senhas do banco e ele pega os dados dos seus diversos bancos (caso voce tenha mais de um), credit card companies, firmas de investimento e tal... e agrega tudo num lugar soh. A feature realmente interessante eh que alem de agregar ele dah varias ferramentas de data analysis on top of that. Algo bem simples (mas que nenhum banco de fornece): voce pode plotar por mes duas barras com o Income/Outcome da sua conta. Assim voce pode ver a evolucao da sua renda e dos seus gastos e comparar. Mais ainda: ele tem um sistema de Machine Learning que categoriza seus dados (e uma interface legal pra voce ajudar ele a fazer isso). Entao se vem um gasto da AT&T ele classifica como "Utilities", se vem um "Starbucks" ele classifica como "Food&Groceries > Coffee Shops" se eh Amazon ele classifica como "Shopping" e por aih vai. E algumas categorias se subdividem, como Food&Groceries se divide em Restaurants, Coffee Shops, Bars, Groceries, ...

A classificacao eh quase perfeita. No que dah errado, voce pode ir lah e consertar e "ensinar" o certo. Eu tive um gasto de $20 no "Four Seasons" e ele classificou como "Travel > Hotel" achando que eu tinha ficado hospedado no Four Seasons e pago 20 dolares por isso (!). Ok, espero um dia ficar no Four Seasons, mas o Four Seasons aqui eh um restaurante coreano em Ithaca. Eu fui lah e classifiquei como restaurante e desse momento em diante ele passou a classificar certo.

O legal eh que dah pra plotar quando por mes voce gasta em Coffee Shops, por exemplo, e se impressionar com desenvolvimento do seu vicio. Ou olhar um mes (ou um ano) como os seus gastos de quebram entre varias coisas. O Mint faz uns Pie Charts bem legais falando da proporcao de restaurantes, de viagens, de shopping, que voce faz. Eu definitivamente recomendo. Os videos de demonstracao do site sao bem legais e melhores do que eu poderia explicar.

Rescue Time

Eu fiquei muito tentado a instalar o RescueTime no meu computador: eh um software de analytics que quebra o seu tempo no computador em relacao a que programas voce estah usando: ele diz quanto tempo voce fica no shell, quanto tempo no Kile editando LaTeX, e quanto tempo no Firefox. E ainda o tempo que ele passa no Firefox eh quebrado em quanto tempo voce passa no GMail, Facebook, Wikipedia, ... Voce pode dizer o que voce considera produtivo (tipo, Wikipedia +10, Kile +20, GMail +1, Facebook -10, Orkut -10, ...) e ele te dah um coeficiente de produtividade. A ideia eh genial. Eu quase fiz, mas depois fiquei com medo de ter alguem com todo o meu historico de navegacao na web. Achei que era uma informacao preciosa demais e sabe-se-la o que eles estao coletando. E nao era um site tao grande como o Mint entao nao instalei... De certa forma tem alguem que jah conhece todo o meu WebHistory. De fato, se voce for no Google Web History, voce pode ver o historico de todas as suas queries jah feitas. E inclusive a analytics legais sobre elas. Por exemplo, isso eh um retrato do meu comportamento online:


Exercicios interessantes sao: achar a distribuicao da minha hora de dormir baseado na WebHistory. O mesmo em relacao a minha hora de ir pro trabalho. E: quais sao meus meses de ferias?

2 comentários:

Hussam disse...

wow .. that pace chart indicates that you were going infinitely fast at various points in time. That must be one heck of a good bike :-D

Renato disse...

Hehehe... Actually I think pace is the inverse: time/distance, so it is the inverse of the speed: so those peaks are the times I stopped.