Condividi su FacebookCondividi su Google PlusCondividi su TwitterCondividi su LinkedInSegnala per email

Data mining nel social web, di Matthew A. Russell

Tecnicamente, questo libro insegna come estrarre i dati circolanti nei social network e quelli relativi alle email. Da un punto di vista sociologico, è un avviso di guerra: il nemico ti ascolta!

Data mining nel social web

Siamo abituati a pensare che è lampante che giganti delle comunicazioni informatiche come Google o Facebook hanno il possesso dei nostri dati, ma che, tuttavia, non ci sia troppo da preoccuparsi: ci fidiamo (o facciamo finta di fidarci) delle assicurazioni che queste aziende ci danno e poi (suvvia!) non abbiamo nulla da nascondere.

Quasi tutto vero.

Il quasi fa riferimento al fatto che i dati che circolano per la Rete possono legittimamente essere presi, analizzati e aggregati, in modo da avere un quadro estremamente preciso di ognuno.

Vi sono tre aspetti da considerare.

Il primo riguarda la parola legittimamente: a parte il fatto che molte API dei social network sono pubbliche e che perciò ognuno le può usare come vuole (o quasi), spesso è sufficiente un po’ di conoscenza di programmazione e la determinazione a investire un po’ di tempo e a gettare qualche esca per ottenere un grande numero di dati.

Il secondo riguarda la potenza bruta oggi disponibile. I computer sono in grado di elaborare in brevissimo tempo un’enorme mole di dati, perciò è possibile che da numerosissimi dati atomici di per sé poco significativi si riescano a profilare le persone in modo assurdamente e incredibilmente preciso. Basta raccogliere, atomizzare, filtrare, aggregare e profilare. Nessun problema.

Il terzo riguarda infine ciò che le persone dicono di sé: è straordinario quanti dati estremamente personali inseriamo nelle nostre discussioni in Rete e nelle email. Certo, una alla volta e magari poco significativa. Ma messe insieme e correlate con altre informazioni, costruiscono un ritratto molto particolareggiato. E le pennellate le abbiamo date noi.

Che razza di libro è?

Data mining nel social web

Come considerare allora questo libro?

Ho detto prima che, formalmente, Data mining nel social web è un libro tecnico: spiega come fare data mining, cioè estrarre i dati dalle comunicazioni online. A questo proposito, ti invito a cliccare sull’immagine della quarta di copertina per ingrandirla e leggere una presentazione del contenuto del libro.

Qui di seguito, nel pannello scorrevole, trovi invece l’intero indice dei contenuti: se hai già un po’ di dimestichezza con questi argomenti ti puoi così rendere conto della ricchezza e della profondità di questo libro.

Ma, prima di lasciarti all'indice dei contenuti, vorrei riprendere la considerazione che ho scritto nel sottotitolo. Mi sono trovato alle prese con questo libro perché l'editore (Tecniche Nuove) ha commissionato al mio Studio la realizzazione dell'edizione italiana. Non sono un programmatore, perciò da questo punto di vista il libro mi ha lasciato abbastanza indifferente. Ma dal punto di vista sociologico, è stata una rivelazione e una mazzata. Non avrei mai pensato che fosse così semplice mettere insieme una così grande quantità di dati e fare analisi con un tale livello di profondità.

Onestamente, mi sono spaventato. Ma forse sono troppo vecchio...

Sommario

1. Introduzione: analisi dei dati su Twitter

Installazione degli strumenti di sviluppo di Python

Raccolta e manipolazione di dati su Twitter

Uso delle API di Twitter

Analisi della frequenza e diversità lessicale

Visualizzazione dei grafi dei tweet

Sintesi: visualizzazione dei retweet con Protovis

Note finali

2. Microformat: markup semantico e collisioni sensate

XFN e soci

Esplorazione dei collegamenti sociali con XFN

Una ricerca in ampiezza nei dati XFN

Coordinate geografiche: un thread comune per qualsiasi cosa

Articoli di Wikipedia e Google Maps: pronti per viaggiare?

Tagliuzzare e sminuzzare le ricette

Raccolta di recensioni sui ristoranti

Riepilogo

3. Caselle postali: vecchie ma buone

mbox: metodo “brutto, ma funziona” per caselle postali Unix

mbox + CouchDB: analisi dell’e-mail in totale relax

Caricamento in massa dei documenti in CouchDB

Ordinamento sensibile

Analisi della frequenza ispirata da map/reduce

Ordinamento di documenti per valore

couchdb-lucene: indicizzazione full-text e altro ancora

Concatenazione delle conversazioni

Acquisizione degli utenti coinvolti

Visualizzazione di “eventi” di posta con SIMILE Timeline

Analisi dei propri dati di posta

L’estensione di Chrome Graph Your Inbox per Gmail

Note finali

4. Twitter: amici, follower e operazioni sugli insiemi

API RESTful e OAuth

No, non ti do la mia password!

Una macchina di raccolta dati essenziale ed efficiente

Un breve intermezzo di refactoring

Redis: un server per strutture dati

Operazioni elementari sugli insiemi

Modifica della macchina con metriche di base per amici e follower

Calcolo della somiglianza con l’elaborazione di amici e follower comuni

Misurazione dell’influenza

Costruzione di grafi delle amicizie

Rilevamento e analisi delle cricche

L’API “Strong Links” di Infochimps

Visualizzazione interattiva di grafi 3D

Riepilogo

5. Twitter: il tweet, soltanto il tweet, nient’altro che il tweet

Penna : Spada :: Tweet : Mitragliatrice (?!?)

Analisi dei tweet (un’entità alla volta)

Sfruttamento dei tweet (di Tim)

Quale utente viene sottoposto più spesso a retweet da parte di Tim?

Qual è l’influenza di Tim?

Quanti dei tweet di Tim contengono hashtag?

Giustapposizione dei social network latenti: #JustinBieber contro #Tea-Party

Quali entità sono presenti più spesso nei tweet sia di #JustinBieber sia di #TeaParty?

In media, sono i tweet #JustinBieber o #TeaParty a contenere più hashtag?

Chi viene ripubblicato più spesso: #JustinBieber o #TeaParty?

Qual è la sovrapposizione esistente tra le entità dei tweet #TeaParty e #JustinBieber?

Visualizzazione di vagonate di tweet

Visualizzazione di tweet con i tag cloud decorati

Visualizzazione delle strutture della comunità nei risultati delle ricerche in Twitter

Note finali

6. LinkedIn: riunione della rete professionale per divertimento (e guadagno?)

Ragioni del raggruppamento

Raggruppamento di contatti per titolo professionale

Standardizzazione e conteggio dei titoli professionali

Metriche di somiglianza comuni per il raggruppamento

La tecnica di raggruppamento greedy

Raggruppamento gerarchico e K-means

Recupero di informazioni estese da un profilo

Raggruppamento geografico della rete

Associazione della rete professionale a Google Earth

Associazione della rete professionale ai cartogrammi di Dorling

Note finali

7. Google Buzz: TF-IDF, coseno di similitudine e collocazioni

Buzz = Twitter + blog (???)

Analisi dei dati con NLTK

Nozioni fondamentali sull’estrazione del testo

Una rapida introduzione a TF-IDF

Query sui dati Buzz con TF-IDF

Individuazione di documenti simili

La teoria alla base dei modelli dello spazio vettoriale e del coseno di similitudine

Raggruppamento di post con il coseno di similitudine

Visualizzazione della somiglianza con le visualizzazioni dei grafi

Digrammi in Buzz

La collocazione: tabelle di contingenza e funzioni di calcolo del punteggio

Accesso alla propria Gmail

Accesso a Gmail con OAuth

Recupero e analisi dei messaggi e-mail

Prima di mettersi a creare un motore di ricerca...

Note finali

8. Blog ed elaborazione del linguaggio naturale

NLP: un’introduzione secondo Pareto

Sintassi e semantica

Un breve esercizio

Una tipica pipeline NLP con NLTK

Rilevamento di frasi nei blog con NLTK

Riepilogo dei documenti

Analisi dell’algoritmo di riepilogo di Luhn

Analisi incentrata sulle entità: comprensione approfondita dei dati

Qualità dell’analisi

Note finali

9. Facebook: la meraviglia “tutto in uno”

Accesso ai dati del social network

Da zero al token di accesso in meno di dieci minuti

API di query di Facebook

Visualizzazione dei dati Facebook

Visualizzazione dell’intera rete sociale

Visualizzazione delle amicizie reciproche nei gruppi

Dove sono i miei amici? Un gioco basato sui dati

Visualizzazione dei dati della bacheca come tag cloud (in rotazione)

Note finali

10. Il Web semantico: una discussione davanti al caminetto

Una rivoluzione evolutiva?

Non di soli fatti vive l'uomo

Supposizioni open-world e closed-world

Inferenza in un mondo aperto con FuXi

Speranza

Indice analitico

Per chi è questo libro?

Data mining nel social web non dovrebbe mancare nella biblioteca di chiunque voglia utilizzare in modo integrato i dati messi a disposizione dalla Rete. L’utilità delle informazioni che possono essere recuperate è tale che si va dalla grande multinazionale alla startup nata ieri sera, dal partito politico al dipartimento di Sociologia dell’Università.

Per apprezzare il testo bisogna saperne di programmazione.

Quanto costa? Dove lo compro?

Link al sito di Tecniche Nuove per acquistare il libroIl libro è distribuito nelle librerie di tutt'Italia al prezzo di 34,90 euro. Può anche essere acquistato online dal sito dell'editore.

Se lo acquisti online, godi di uno sconto sensibile sul prezzo di copertina. Puoi andare direttamente sul sito di Tecniche Nuove, ma ti prego di andarci invece facendo clic sull'immagine qui accanto: grazie al programma di affiliazione, ciò mi consente di guadagnare qualche euro e di ripagarmi così il tempo e la testa impiegati per scrivere questo articolo.

Dati del libro:

  • Autore: Matthew A. Russel
  • Traduttore: Anna Rizzon
  • Editore: Tecniche Nuove
  • Pagine: 326 + XVI
  • Formato: 17 x 23.5 cm
  • ISBN: 978-88-481-2650-2
  • Rilegatura: brossura
  • Data pubblicazione: 07/2011
Condividi su FacebookCondividi su Google PlusCondividi su TwitterCondividi su LinkedInSegnala per email