Data mining nel social web, di Matthew A. Russell
{source}<sommario1>Tecnicamente, questo libro insegna come estrarre i dati circolanti nei social network e quelli relativi alle email. Da un punto di vista sociologico, è un avviso di guerra: il nemico ti ascolta!</sommario1>{/source}
{boxplus href=|images/Articoli/0028_Copertina.jpg| title=|La copertina|}{/boxplus}
Siamo abituati a pensare che è lampante che giganti delle comunicazioni informatiche come Google o Facebook hanno il possesso dei nostri dati, ma che, tuttavia, non ci sia troppo da preoccuparsi: ci fidiamo (o facciamo finta di fidarci) delle assicurazioni che queste aziende ci danno e poi (suvvia!) non abbiamo nulla da nascondere.
Quasi tutto vero.
Il quasi fa riferimento al fatto che i dati che circolano per la Rete possono legittimamente essere presi, analizzati e aggregati, in modo da avere un quadro estremamente preciso di ognuno.
Vi sono tre aspetti da considerare.
Il primo riguarda la parola legittimamente: a parte il fatto che molte API dei social network sono pubbliche e che perciò ognuno le può usare come vuole (o quasi), spesso è sufficiente un po’ di conoscenza di programmazione e la determinazione a investire un po’ di tempo e a gettare qualche esca per ottenere un grande numero di dati.
Il secondo riguarda la potenza bruta oggi disponibile. I computer sono in grado di elaborare in brevissimo tempo un’enorme mole di dati, perciò è possibile che da numerosissimi dati atomici di per sé poco significativi si riescano a profilare le persone in modo assurdamente e incredibilmente preciso. Basta raccogliere, atomizzare, filtrare, aggregare e profilare. Nessun problema.
Il terzo riguarda infine ciò che le persone dicono di sé: è straordinario quanti dati estremamente personali inseriamo nelle nostre discussioni in Rete e nelle email. Certo, una alla volta e magari poco significativa. Ma messe insieme e correlate con altre informazioni, costruiscono un ritratto molto particolareggiato. E le pennellate le abbiamo date noi.
Che razza di libro è?
{boxplus href=|images/Articoli/0028_Quarta.jpg| title=|La quarta di copertina|}{/boxplus}
Come considerare allora questo libro?
Ho detto prima che, formalmente, Data mining nel social web è un libro tecnico: spiega come fare data mining, cioè estrarre i dati dalle comunicazioni online. A questo proposito, ti invito a cliccare sull’immagine della quarta di copertina per ingrandirla e leggere una presentazione del contenuto del libro.
Qui di seguito, nel pannello scorrevole, trovi invece l’intero indice dei contenuti: se hai già un po’ di dimestichezza con questi argomenti ti puoi così rendere conto della ricchezza e della profondità di questo libro.
Ma, prima di lasciarti all'indice dei contenuti, vorrei riprendere la considerazione che ho scritto nel sottotitolo. Mi sono trovato alle prese con questo libro perché l'editore (Tecniche Nuove) ha commissionato al mio Studio la realizzazione dell'edizione italiana. Non sono un programmatore, perciò da questo punto di vista il libro mi ha lasciato abbastanza indifferente. Ma dal punto di vista sociologico, è stata una rivelazione e una mazzata. Non avrei mai pensato che fosse così semplice mettere insieme una così grande quantità di dati e fare analisi con un tale livello di profondità.
Onestamente, mi sono spaventato. Ma forse sono troppo vecchio...
{slider Sommario|closed}
1. Introduzione: analisi dei dati su Twitter
Installazione degli strumenti di sviluppo di Python
Raccolta e manipolazione di dati su Twitter
Uso delle API di Twitter
Analisi della frequenza e diversità lessicale
Visualizzazione dei grafi dei tweet
Sintesi: visualizzazione dei retweet con Protovis
Note finali
2. Microformat: markup semantico e collisioni sensate
XFN e soci
Esplorazione dei collegamenti sociali con XFN
Una ricerca in ampiezza nei dati XFN
Coordinate geografiche: un thread comune per qualsiasi cosa
Articoli di Wikipedia e Google Maps: pronti per viaggiare?
Tagliuzzare e sminuzzare le ricette
Raccolta di recensioni sui ristoranti
Riepilogo
3. Caselle postali: vecchie ma buone
mbox: metodo “brutto, ma funziona” per caselle postali Unix
mbox + CouchDB: analisi dell’e-mail in totale relax
Caricamento in massa dei documenti in CouchDB
Ordinamento sensibile
Analisi della frequenza ispirata da map/reduce
Ordinamento di documenti per valore
couchdb-lucene: indicizzazione full-text e altro ancora
Concatenazione delle conversazioni
Acquisizione degli utenti coinvolti
Visualizzazione di “eventi” di posta con SIMILE Timeline
Analisi dei propri dati di posta
L’estensione di Chrome Graph Your Inbox per Gmail
Note finali
4. Twitter: amici, follower e operazioni sugli insiemi
API RESTful e OAuth
No, non ti do la mia password!
Una macchina di raccolta dati essenziale ed efficiente
Un breve intermezzo di refactoring
Redis: un server per strutture dati
Operazioni elementari sugli insiemi
Modifica della macchina con metriche di base per amici e follower
Calcolo della somiglianza con l’elaborazione di amici e follower comuni
Misurazione dell’influenza
Costruzione di grafi delle amicizie
Rilevamento e analisi delle cricche
L’API “Strong Links” di Infochimps
Visualizzazione interattiva di grafi 3D
Riepilogo
5. Twitter: il tweet, soltanto il tweet, nient’altro che il tweet
Penna : Spada :: Tweet : Mitragliatrice (?!?)
Analisi dei tweet (un’entità alla volta)
Sfruttamento dei tweet (di Tim)
Quale utente viene sottoposto più spesso a retweet da parte di Tim?
Qual è l’influenza di Tim?
Quanti dei tweet di Tim contengono hashtag?
Giustapposizione dei social network latenti: #JustinBieber contro #Tea-Party
Quali entità sono presenti più spesso nei tweet sia di #JustinBieber sia di #TeaParty?
In media, sono i tweet #JustinBieber o #TeaParty a contenere più hashtag?
Chi viene ripubblicato più spesso: #JustinBieber o #TeaParty?
Qual è la sovrapposizione esistente tra le entità dei tweet #TeaParty e #JustinBieber?
Visualizzazione di vagonate di tweet
Visualizzazione di tweet con i tag cloud decorati
Visualizzazione delle strutture della comunità nei risultati delle ricerche in Twitter
Note finali
6. LinkedIn: riunione della rete professionale per divertimento (e guadagno?)
Ragioni del raggruppamento
Raggruppamento di contatti per titolo professionale
Standardizzazione e conteggio dei titoli professionali
Metriche di somiglianza comuni per il raggruppamento
La tecnica di raggruppamento greedy
Raggruppamento gerarchico e K-means
Recupero di informazioni estese da un profilo
Raggruppamento geografico della rete
Associazione della rete professionale a Google Earth
Associazione della rete professionale ai cartogrammi di Dorling
Note finali
7. Google Buzz: TF-IDF, coseno di similitudine e collocazioni
Buzz = Twitter + blog (???)
Analisi dei dati con NLTK
Nozioni fondamentali sull’estrazione del testo
Una rapida introduzione a TF-IDF
Query sui dati Buzz con TF-IDF
Individuazione di documenti simili
La teoria alla base dei modelli dello spazio vettoriale e del coseno di similitudine
Raggruppamento di post con il coseno di similitudine
Visualizzazione della somiglianza con le visualizzazioni dei grafi
Digrammi in Buzz
La collocazione: tabelle di contingenza e funzioni di calcolo del punteggio
Accesso alla propria Gmail
Accesso a Gmail con OAuth
Recupero e analisi dei messaggi e-mail
Prima di mettersi a creare un motore di ricerca...
Note finali
8. Blog ed elaborazione del linguaggio naturale
NLP: un’introduzione secondo Pareto
Sintassi e semantica
Un breve esercizio
Una tipica pipeline NLP con NLTK
Rilevamento di frasi nei blog con NLTK
Riepilogo dei documenti
Analisi dell’algoritmo di riepilogo di Luhn
Analisi incentrata sulle entità: comprensione approfondita dei dati
Qualità dell’analisi
Note finali
9. Facebook: la meraviglia “tutto in uno”
Accesso ai dati del social network
Da zero al token di accesso in meno di dieci minuti
API di query di Facebook
Visualizzazione dei dati Facebook
Visualizzazione dell’intera rete sociale
Visualizzazione delle amicizie reciproche nei gruppi
Dove sono i miei amici? Un gioco basato sui dati
Visualizzazione dei dati della bacheca come tag cloud (in rotazione)
Note finali
10. Il Web semantico: una discussione davanti al caminetto
Una rivoluzione evolutiva?
Non di soli fatti vive l'uomo
Supposizioni open-world e closed-world
Inferenza in un mondo aperto con FuXi
Speranza
Indice analitico
{/sliders}
Per chi è questo libro?
Data mining nel social web non dovrebbe mancare nella biblioteca di chiunque voglia utilizzare in modo integrato i dati messi a disposizione dalla Rete. L’utilità delle informazioni che possono essere recuperate è tale che si va dalla grande multinazionale alla startup nata ieri sera, dal partito politico al dipartimento di Sociologia dell’Università.
Per apprezzare il testo bisogna saperne di programmazione.
Quanto costa? Dove lo compro?
Il libro è distribuito nelle librerie di tutt'Italia al prezzo di 34,90 euro. Può anche essere acquistato online dal sito dell'editore.
Se lo acquisti online, godi di uno sconto sensibile sul prezzo di copertina. Puoi andare direttamente sul sito di Tecniche Nuove, ma ti prego di andarci invece facendo clic sull'immagine qui accanto: grazie al programma di affiliazione, ciò mi consente di guadagnare qualche euro e di ripagarmi così il tempo e la testa impiegati per scrivere questo articolo.
Dati del libro:
- Autore: Matthew A. Russel
- Traduttore: Anna Rizzon
- Editore: Tecniche Nuove
- Pagine: 326 + XVI
- Formato: 17 x 23.5 cm
- ISBN: 978-88-481-2650-2
- Rilegatura: brossura
- Data pubblicazione: 07/2011