«Infallibile et inarrivabile! Eh, sì, sì! Perché il mio motto è “ghe pensi mi!” Anzi, se voi lo permettete, vi aiuterò a sbrogliare la matassa» recitava Tino Scotti, un attore del secolo scorso. Chissà cosa avrà invece detto quel fisico insignito della Medaglia Planck – poco meno del Nobel per la Fisica – che ha contribuito a progettare i criteri bibliometrici della VQR 2011-2014. Con risultati che non sono stati all’altezza delle aspettative. Infatti, aggregare indicatori attraverso la somma dei percentile rank è un errore condannato senza mezzi termini dalla letteratura scientifica: «The only reason for using percentile ranks is ignorance, and it is questionable whether a defense of ignorance will be viable». Un errore nei confronti del quale vengono messi in guardia persino gli studenti delle high-school statunitensi. Questa è la valutazione all’italiana: un allegro fai-da-te, al motto di “ghe pensi mi!“. Eppure, per evitare incresciosi infortuni, basterebbe studiare l’ABC della bibliometria e dedicarsi a quelle ricerche bibliografiche che sono il pane quotidiano di un qualsiasi laureando.
1. «The only reason for using percentile ranks is ignorance»
Avete un dubbio su come semplificare le espressioni algebriche? Niente paura, potete trovare la risposta su eHowEducation un canale di YouTube, che fornisce diversi consigli “in pillola”. Facciamo un altro esempio: volete sapere se si possono sottrarre i valori percentuali? E i percentili? Possono essere sottratti? Ecco la risposta su eHowEducation: le percentuali si possono sottrarre, mentre per i percentili è vietato.
Inutile pretendere la spiegazione del divieto in poco più di 60 secondi di video, che tra l’altro usa il termine percentile al posto del più corretto percentile rank. A dire il vero, che i percentile rank non vadano sommati, sottratti o moltiplicati lo si ripete un po’ ovunque. Per rendersene conto, basta chiedere a Google che restituisce 1.560 risultati quando lo si interroga con la frase “ranks cannot be added”.
I percentile rank rientrano nella categoria delle misure ordinali e, sempre su YouTube, è possibile trovare filmati destinati all’apprendimento on-line che insegnano le ragioni per cui non vanno sommati o sottratti:
Nominal, ordinal, interval and ratio data: How to Remember the differences
Ma cosa dice la letteratura scientifica?
It seems counterintuitive to many persons, even to some educated people with terminal degrees serving on faculty at world-class universities, that some numbers simply cannot be added … Most of us have paradigms about numbers that were unconsciously formulated, typically in the primary grades of elementary school. When we are given several numerals, we are used to presuming that we can add them up. Few of us were ever admonished that we can only add numbers when the numerals represent data derived using an equal interval measurement ruler. In fact, few of us consciously recognize that addition itself does presume equal-interval measurement.
Nel suo position paper del 1993, Bruce Thompson, non solo spiega il come e il perché dell’errore, ma in un’appendice (che riproduciamo integralmente in coda a questo post) fornisce una lista di citazioni scientifiche contrarie all’uso della somma dei ranks. Di sicuro, Thompson non riteneva che mettersi a pasticciare con i percentili fosse un peccato veniale:
The only reason for using percentile ranks is ignorance, and it is questionable whether a defense of ignorance will be viable.
2. Ma cosa sono questi percentili e perché se ne discute?
A partire dal 2011, la nozione di mediana ha cominciato a godere di un’inedita popolarità nell’università italiana, anche al di fuori dei cultori delle scienze dure. Merito (se così si può dire) dell’ANVUR che aveva usato tale parametro statistico per definire le soglie di produttività e impatto per i candidati e gli aspiranti commissari dell’abilitazione scientifica. Per superare la mediana degli articoli pubblicati nel decennio, un aspirante commissario doveva essere più produttivo della metà dei suoi colleghi di settore concorsuale.
La mediana, che fa da spartiacque tra due metà, non è altro che un particolare percentile, il 50-esimo. Per definizione, il percentile rank del “docente mediano” sarà pari a 50. Senza entrare nei dettagli matematici, a partire dalla classifica dei professori ordinari di un dato settore concorsuale è possibile attribuire a ciascuno un percentile rank compreso tra 0 e 100. Superare la mediana equivaleva ad avere un percentile rank superiore a 50.
Dato che il percentile rank di ciascun soggetto si colloca su una scala tra 0 e 100, è forte la tentazione di utilizzare questo parametro per riportare su un’unica scala standardizzata grandezze diverse in quanto a natura o contesto di raccolta. In realtà, i percentile rank vanno usati con cautela perché, se si scorda la loro natura ordinale, danno l’illusione di una scala graduata in modo uniforme anche quanto tale uniformità non esiste affatto. Tornando all’esempio degli aspiranti commissari, il distacco in termini di pubblicazioni tra i professori collocati nel 95º e nell’85º percentile potrebbe essere assai diverso da quello tra i professori nel 60º e 50º percentile, nonostante la differenza dei rank sia pari a 10 per entrambe le coppie.
Questa fenomeno, noto anche come rubber ruler (righello di gomma) è ben noto nella letteratura e sta alla base del divieto di sommare, sottrarre o moltiplicare i rank. Quando si normalizzano i punteggi attraverso i ranks, ogni singola classifica definisce uno specifico righello di gomma, la cui scala graduata dipende dalla distribuzione statistica dei punteggi in quella particolare classifica. Sommare i percentili è un po’ come sommare una misura di lunghezza in centimetri con un’altra misura espressa in pollici.
Persino nella poco realistica ipotesi che la distribuzione statstica dei punteggi sia uguale per tutte le classifiche considerate, i righelli, pur uguali tra loro, rimarrebbero “di gomma”, perché – come già osservato – la deformazione del righello cambia a seconda della zona della classifica. In ultima istanza, sommare o mediare i percentile rank equivale a sommare i numeri ordinali, una pratica che, come testimoniato anche dal seguente tweet, viene comunemente annoverata nella galleria degli svarioni aritmetici.
Un campo in cui è forte la tentazione di ricorrere alla somma dei percentile rank è quello dei test standardizzati per l’ammissione all’università. Infatti, se i candidati vengono sottoposti a test su diverse materie, si pone il problema di combinare i punteggi per stilare la classifica finale. Ebbene, negli Stati Uniti è noto da decenni che che non si può ricorrere alla media dei percentile rank. Ad esempio, questo è quello che si legge in un rapporto pubblicato dalla Texas Education Agency (il grassetto è nostro):
For each scaled score there is a corresponding percentile rank, which is the percentage of test takers who score at or below that scaled score. For example, if a student’s scaled score corresponds to the 90th percentile, 90 percent of the test takers received the same or lower scaled scores. Percentile ranks are a straightforward metric for comparing a student’s performance with that of other test takers. Unlike raw or standard scores, however, percentile ranks cannot be combined in any meaningful way to obtain average test performance for a group or for an individual across subtests.
… the practice of using percentile ranks in an admissions formula would, in and of itself, strictly on its face, be a violation of the due process standard that admissions decisions should not be arbitrary
C.E. Cantrell, The Legal Implications of Using Standardized Tests in Admissions, 1999
2. Ci sono un ingegnere, un fisico e …
Seppure meno diffuse di quelle che immaginano situazioni che coinvolgono cittadini di diverse nazionalità (come il classico trio tedesco-francese-italiano), le barzellette sull’ingegnere, il fisico e il matematico che devono risolvere un problema difficile hanno anch’esse una solida tradizione.
A dire il vero, quando ci siamo resi conto che i criteri bibliometrici della VQR facevano ricorso alla somma dei percentile rank, la redazione aveva pensato che l’errore fosse imputabile ai soli ingegneri dell’ANVUR, anche perché il coordinatore della VQR, Sergio Benedetto, è un ingegnere. È abbastanza comune tra gli ingegneri andare fieri della propria versatilità, e l’eccesso di fiducia può giocare brutti tiri, sopratutto quando ci si muove su terreni estranei alle proprie competenze.
Ma ci eravamo sbagliati.
Ci eravamo scordati che pure i fisici vanno fieri della loro versatilità. I lettori, adesso, si aspetteranno che, come nella classica barzelletta, salti fuori anche un matematico. Come vedremo, ci toccherà deluderli. Ma andiamo per ordine.
Alla segnalazione del fatal error nei criteri bibliometrici della VQR, risalente allo scorso dicembre, è seguito un lungo silenzio: nessun tentativo di difesa o di replica. Stavamo cominciando a pensare che la paternità di questi criteri fosse destinata a diventare uno dei tanti misteri anvuriani, un po’ come i dati e le procedure con cui erano state calcolate le mediane ASN del 2012, improvvisamente ritirate e subito riapparse con modifiche diverse tra settori bibliometrici e non bibliometrici.
E, invece, a metà febbraio ecco il primo colpo di scena, sotto forma di articolo pubblicato su Scientometrics.
La sorpresa è la presenza di un vero e proprio Top Italian Scientist, Giorgio Parisi, un fisico che nel 2010 è stato insignito della Medaglia Planck, un’onorificienza poco meno prestigiosa del Nobel per la fisica.
Quandoque bonus dormitat Homerus avrebbe detto Orazio.
3. Distorsioni completamente gratuite
È di pochi giorni fa, invece, la pubblicazione su lavoce.info di un articolo di Sergio Benedetto, intitolato “Valutazione della ricerca, quell’algoritmo è affidabile”. Benedetto, prendendo spunto da una spiegazione di Peppe (sì, proprio Peppe, il personaggio di fantasia che è solito duettare con l’amico e collega Gedeone) ricostruisce un intero algoritmo bibliometrico la cui paternità viene attribuita a Giuseppe De Nicolao, autore del post che aveva denunciato il fatal error della VQR. Commentando l’articolo, Paolo Bertoletti gli ha fatto notare ciò che avrebbe dovuto risultare chiaro ad un lettore attento, ovvero che De Nicolao non aveva intenzione di proporre una metodologia alternativa per la valutazione bibliometrica.
Insieme a Science, Plos e PNAS, come pure all’Higher Education Funding Council for England (HEFCE: l’agenzia di valutazione britannica), Roars è una delle quasi 600 organizzazioni, che hanno sottoscritto la San Francisco Declaration on Research Assessment (DORA), la cui prima raccomandazione è:
- Do not use journal-based metrics, such as Journal Impact Factors, as a surrogate measure of the quality of individual research articles, to assess an individual scientist’s contributions, or in hiring, promotion, or funding decisions.
Difficile immaginare i redattori di questo blog impegnati a escogitare e proporre l’adozione di algoritmi bibliometrici più o meno macchinosi che fanno uso di indicatori scientificamente screditati come l’Impact Factor o simili.
Inoltre, l’interpretazione del commento di Peppe non è nemmeno fedele. A tale proposito, Benedetto scrive
si introduce un valore di soglia in termini di numero di citazioni hCIT (scelto pari a 20 nell’esempio di [1]) a partire dal quale un prodotto è giudicato in classe “Eccellente”
In realtà, il valore di 20 citazioni non era una soglia di eccellenza, ma serviva solo come fattore di scala, scelto a puro titolo esemplificativo.
La replica di Benedetto non nega l’uso di una metodologia sconfessata dalla letteratura scientifica e neppure i possibili esiti paradossali, ma allega un complicato confronto tra l’algoritmo anvuriano e un altro algoritmo – attribuito a De Nicolao, ma in realtà di sua invenzione – per poter dire che
ciò che De Nicolao chiama “errore di classificazione” o “fatal error” interessa solo lo 0,05 per cento del totale degli articoli presenti in riviste Scopus e solo lo 0,08 per cento degli articoli pubblicati su riviste che possono essere inviati alla Vqr da istituzioni italiane.
Naturalmente, essendo entrambi gli algoritmi riconducibili a Benedetto, è difficile attribuire qualche significatività a tali percentuali. Per inciso, contrariamente a quanto sostenuto da Benedetto, il termine “errore di classificazione” non è mai usato nell’articolo di Roars. Una svista rivelatrice di un problema di comprensione testuale: il fatal error denunciato da Roars non è un errore di classificazione, come fa credere Benedetto, ma è un errore metodologico.
La vera questione, quella del righello di gomma, è affrontata così:
secondo De Nicolao la ragione teorica che sta alla base del fatal error consiste nel fatto che non sia corretto combinare i percentili ottenuti calcolando le funzioni di distribuzione cumulativa (Cdf) del numero di citazioni e dell’indicatore di impatto della rivista. A questo proposito va notato che tali funzioni sono utilizzate come trasformazioni non lineari che modificano le grandezze di interesse in modo che risultino definite non più su intervalli diversi ma su intervalli normalizzati (0,1) all’interno dei quali è più agevole determinare una suddivisione in classi. Tra le funzioni, lineari e non, utilizzabili per la normalizzazione, la Cdf non è meno corretta di quella proposta come alternativa.
La risposta a Benedetto è già stata data 23 anni fa da Bruce Thompson:
In general, policy must not lead to arbitrary and capricious judgments that negatively impact people. Policy requiring the adding of percentile ranks are fraught with arbitrariness, because one is inherently invoking “rubberized” measurement scales in making these judgments, as emphasized earlier. Such “rubberized” scales will arbitrarily penalize one applicant with a given profile of scores, while arbitrarily benefiting another test taker whose profile is in a different portion of the distribution.
[…]
It might be suggested that percentile ranks are “rubberized”, but that maybe they’re not “rubberized” a whole lot.
The problem with this argument is that the distortions introduced by adding percentile ranks are entirely gratuitous. There simply is no reason to introduce these distortions. It would be one thing to accept the cost of a distortion if some greater good offset this penalty. But there is no such benefit establishing any balance against the distortions that percentile ranks unavoidably create. The only reason for using percentile ranks is ignorance, and it is questionable whether a defense of ignorance will be viable.
Prima di tutto, come osservato da Thompson, non si comprende quale beneficio comporti l’introduzione di una distorsione nonlineare. Non solo tale distorsione era gratuita (era questo il vero significato del commento di Peppe), ma la scelta della funzione funzione di distribuzione cumulativa introduce distorsioni che variano, non solo a seconda della Subject Category e della Journal Metrics, ma persino dell’anno considerato.
Distorcere gli indicatori in modo così capriccioso e poi calcolarne la somma porta ad esiti paradossali e talmente imprevedibili da aver tratto in inganno persino il Coordinatore del GEV 09 che in un video ne spiegava il presunto funzionamento senza rendersi conto che in alcuni casi gli esiti sono opposti a quelli che suggeriva. Sono i tipici effetti della somma di numeri ordinali, a proposito della quale qualcuno ha scritto:
The rules of arithmetic—including the fact that adding or averaging rank orders is nonsense—were established over two millenniums ago by, among others, Pythagoras and are taught in every elementary school worldwide.
3. «Ghe pensi mi!» (ci penso io!)
Tino Scotti (1905-1984) è stato un attore di una certa popolarità. Wikipedia scrive di lui:
Da buon caratterista inventò due personaggi destinati a segnarne il successo: il cavaliere con il famoso motto “ghe pensi mi” ed il bauscia, emblemi di una milanesità agli antipodi. Se il secondo era uno sbruffone, il primo impersonava il ruolo del gigolò assennato: entrambi erano però lo specchio della personalità dell’attore, di gran classe e mai volgare.
Cosa si saranno detti Sergio Benedetto e il Top Italian Scientist? La nostra curiosità è destinata a rimanere insoddisfatta, dato che possiamo solo immaginarlo. In compenso, YouTube ci mette a disposizione questo effervescente scambio di battute estratto da “Fermi tutti … arrivo io!“, in cui Tino Scotti interpreta un investigatore privato soprannominato “zanzara”:
Poliziotto: «Oh accidenti, la vostra agenzia ha dei sistemi infallibili!»
Zanzara: «infallibile et inarrivabile! Eh, sì, sì! Perché il mio motto è “ghe pensi mi!” Anzi, se voi lo permettete, vi aiuterò a sbrogliare la matassa …»
https://youtu.be/werjmRoxM9U?t=5m42s
Il dialogo prosegue così:
«… vi aiuterò a sbrogliare la matassa che sembra alquanto imbrogliata … Ma col mio sistema dell’ipotesi chiave la sbroglieremo, immantinente, ipso facto, là per là!»
Nel film, il “zanzara” riesce, seppur fortunosamente, a risolvere il caso. Al Top Italian Scientist non è andata altrettanto bene: nel caso della VQR, è saltata fuori una procedura che da più di 20 anni occupa un posto di rilievo nella lista dei fatal error da cui vengono messi in guardia perfino gli studenti delle high school statunitensi.
Le cravatte bibliometriche della VQR 2011-2014 offrono un ulteriore esempio di quella commedia degli equivoci che è stata e continua ad essere la valutazione all’italiana: un allegro fai-da-te, al motto di “ghe pensi mi!“. Eppure, per evitare incresciosi infortuni, basterebbe studiare l’ABC della bibliometria e dedicarsi a quelle ricerche bibliografiche che sono il pane quotidiano di un qualsiasi laureando.
La morale?
Se vogliamo rimanere nell’ambito del dialetto meneghino, c’è un modo di dire che suggella bene questa vicenda (ma che potrebbe applicarsi ugualmente bene all’intera epopea del fai-da-te valutativo di ANVUR):
______________
(*) Pasticciere, fa‘ il tuo mestiere (esortativo), espressione usata per invitare a non occuparsi di attività delle quali non si è esperti
Post Scriptum: The Etiology of Bad Academic Policy Formulation
Many naively believe that the strength of the academy is its dedication to knowledge. But because members of university communities so highly value knowledge, these same folk are also very hesitant to give up prior claims to knowledge or insight, and may be hesitant to seek contrary views or to perceive and respond to reasoned objection. Thus, discovering that the earth revolves around the sun can lead to excommunication, whether or not this new knowledge is important and true. When I have vested my career in a certain set of beliefs, it requires extraordinary character to say that the beliefs I represented as knowledge for many years were wrong. Fortunately, the academy does have a special strength. That strength is not the intrinsic wisdom of those who people its faculty, and are purely human. Rather, the academy’s strength is its fundamental dedication to protecting the free exchange of ideas. In the atmosphere of free discussion, the truth will usually ultimately out.
APPENDIX A [tratta da: B. Thompson, 1993]
«Appendix A presents a supplementary cascade of quotations from scholars regarding the entirely dubious innovation of adding percentile ranks»
Additional Quotations from Authors
Noting That Percentile Ranks May Not Be Added or Averaged
“[Percentile rank] equivalents should not be used in data analyses involving descriptive or inferential statistics, however. The reason for not using equivalents in these analyses is that they have unequal units. For example…, if the mean of a test is 50 and its standard deviation is 10, a person with a score of 50 and a person with a score of 40 would be about 35 percentiles different from each other. However, two other persons with the same raw score difference of 10, but having raw scores of 40 and 30, would only be about 13 percentiles different from each other.” (Borg & Gall, 1989, p. 340)
“Arithmetic and statistical computations of percentile rank scores cannot be meaningfully interpreted in some situations…. This can be seen from a simple example with data from Table 19.2; suppose group A consists of two examinees with raw scores 12 and 20, and group B consists of two examinees with raw scores 15 and 17. Both group A and group B have a raw score mean of 16, yet the means of their corresponding percentile rank scores are considerably different (40.5 for group A and 24.5 for group B).” (Crocker & Algina, 1989, pp. 441-442)
“For all the clarity and simplicity of percentile scores, they do not lend themselves to many statistical operations such as averaging and correlating scores. The difference in actual measured heights [in the example] between two men at the 50th and 52nd percentiles is very much smaller than the height difference between two men at the 97th and 99th percentiles…. Or, in IQ units P50 and P52 differ by less than one IQ point, whereas Pr differs from P99 by almost seven points. Standard scores avoid this problem and lend themselves readily to meaningful summary statistical calculations.” (Glass & Hopkins, 1984, p. 66).
“The inequality of units requires special caution when using percentile ranks. First, a difference of several percentile points should be given greater weight at the extremes of the distribution than near the middle. In fact, small differences near the middle of the distribution generally can be disregarded. Second, percentile ranks should not be averaged arithmetically.” (Gronlund & Linn, 1990, p. 349)
“The main limitation of percentile norms is that the percentile units are not equal on all sections of the scale…. Two implications of the unequal unit nature of percentiles should be remembered. One is that percentile ranks that are averaged arithmetically–by calculating a mean score–do not result in a meaningful value, hence should be discouraged…. The second implication is that small differences in percentile rank scores near the middle of the distribution are not very meaningful.” (Moore, 1983, P. 219)
“Researchers should be cautioned against the use of percentiles as variables in statistical analyses that require interval data [i.e., any analysis in which scores have to be added, subtracted, multiplied or divided as part of calculations] because the nonlinear transformation is likely to introduce distortions into the results. Even though most analysis procedures can be applied to data that deviate somewhat from being of an interval scale, the magnitude of the deviation from interval scale introduced by the use of percentiles [percentile ranks], coupled with the complete violation of the assumption of normality that accompanies their use [when parametric tests of statistical significance are conducted], could render the conclusions of such studies suspect.” (Cunningham, 1986, p. 69)
“In short, percentile norms [ranks] are ordinal scales, not interval scales…. [Therefore…,] percentiles and percentile ranks as such cannot be treated arithmetically [e.g., added] and a meaningful product obtained.” (Ahmann & Glock, 1981, p. 221)
Condivido totalmente, e non posso non ritornare a un “cialtroni” lanciato dal Prof. Fantoni a quel di ROARS, condannando sia il “referaggio” brutale dell’allora presidente ANVUR, sia mi pare di capire le “stranezze” (assurdità) che vengono argomentate dall’Ing. Benedetto a danno di un redattore ROARS, tra l’altro sono anch’io un ingegnere ma non è che esserlo fa superare la categoria socratica del “so di non sapere”.
Anzi la scienza è confronto dialettico e non autoritario o ex-cathedra, e certamente le normative ANVUR e MIUR non hanno nulla a che spartire con la scienza: una norma legislativa, amministrativa, ordinatoria è tipicamente antiscientifica di per sé, come metodo: un’autorità che proclama il verbo con i sudditi che sono obbligati a rispettarla. Ma oltre ai percentili sommati, moltiplicati, manomessi, che dire dei quartili e/o IF che sono utilizzati per le valutare i singoli ricercatori mentre si riferiscono alle riviste: si valuta il contenuto con il contenitore… E sì che pure il TAR del Lazio ha riconosciuto, amministrativamente, che è sbagliato: sentenza su ricorso 05434/2015 (in 2015-12-13 21:39:01 By Redazione ROARS). Ma già il fondatore dell’ISI E. Garfield scriveva “The source of much anxiety about Journal Impact Factors comes from their misuse in evaluating individuals, e.g. during the Habilitation process. In many countries in Europe, I have found that in order to shortcut the work of looking up actual (real) citation counts for investigators the journal impact factor is used as a surrogate to estimate the count. I have always warned against this use. There is wide variation from article to article within a single journal as has been widely documented by Per O. Seglen of Norway[17] and others” (The Impact Factor and Using it Correctly”, Letter to the Editor, Der Unfallchirurg, 48(2) p.413, June 1998).
Per il MIUR e l’ANVUR non è così, si continuano gli sfracelli dei concorsi ASN ove la ragione ed il buon senso sono banditi: quousque tandem, ANVUR, abutere patientia nostra… L’Università, è incredibile, viene distrutta dallo stesso MIUR ed ANVUR, in nome di che cosa? Ignoranza, follia, demenza… o che?
sottoscrivo
scusate , ma il fatto che sia una medaglia planck non vuol dire sia competente in bibliometria…sembrate quelli che citano i detti di EInstein su tutto…il fatto che uno sia Einstein o medaglia planck non vuol dire sia competente su argomenti, pur di ordine matematico/statistico che esulano dalle sue competenze…come per me Einstein sapeva di relatività ristretta e generale, ma per il resto ha detto anche sonore stronzate.
Scusa, ma Einstein aveva il diritto, come me e te, di esprimere la sua opinione su qualunque argomento. Però, per quel che ne so, mica scriveva articoli presentati come scientifici su cose di cui non sapeva niente. Mi pare che la differenza sia questa.
Siamo onesti,sempre meno dell’Anvur o Miur…
Mah, caro De Nicolao, cosa vuoi, se questo: http://genomebiology.com/content/pdf/s13059-014-0424-0.pdf
è stato preso talmente sul serio, che poi ci si è presa pure la briga di criticarlo perchè è (ovviamente) senza senso: https://en.wikipedia.org/wiki/Kardashian_Index
e senza nemmeno capire che si trattava di uno scherzo… L’articolo di Neil Hall termina con un paragrafo “Finally on a serious note”. Più chiaro di così…
Mi pare di ricordare che Bachtin avesse detto cose molto sagge sull’incapacità del “potere” di comprendere il comico, cioè, addirittura, di rendersi conto della presenza della comicità. Vedi Bachtin, L’opera di Rabelais e la cultura popolare.
Caro paolo b, la ringrazio, ma confesso di essere preoccupato. Non vorrei che su lavoce.info apparisse un secondo articolo intitolato “Valutazione della ricerca, quell’algoritmo è affidabile come il K-index” il quale confronta la somma dei percentili con il Kardashian index giungendo alla seguente conclusione:
____________________
i risultati relativi all’applicazione del K-index proposto quale soluzione alternativa rivelano criticità tali da rendere non proponibile la sua adozione … ciò che De Nicolao chiama “errore di classificazione” o “fatal error” interessa solo lo 0,05 per cento del totale degli articoli presenti in riviste Scopus e solo lo 0,08 per cento degli articoli pubblicati su riviste che possono essere inviati alla Vqr da istituzioni italiane.
_____________________
A scanso di equivoci, dichiaro che aver accettato il commento di “paolo b” non significa che io sostenga il Kardashian index come alternativa al metodo Acb di Anvur. E consiglierei anche a paolo b di prendere le distanze, prima di vedersi attribuire paternità non volute.
Tanto ormai tutto fa brodo, l’importante è essere citati, cosa importa se a proposito o a sproposito, o magari nemmeno si è stati letti? o se si è stati letti senza comprendere una benedetta cippa?
Dai, che presto ROARS diventa una rivista di classe A, così a commentare ci aumentano gli indici! ;)
Si la valutazione e la bibliometria anvuriana stanno diventando una storia perversa, grottesca, paradossale, fantascientifica, come “Le anime morte” di Gogol. Con il romanzo di Gogol “un vivido quadro di una Russia sgangherata e sonnolenta, abitata da figure grottesche e patetiche, delle quali il protagonista, Čičikov è il più degno rappresentante” (Wikipedia).
Quanto agli indici, ahimé, a me non crescono né nella mano destra né in quella sinistra… (chiedo scusa per la battuta sgangherata)… chissà che potrei combinare con indici adeguati…
Ho provato a postare un mio commento all’articolo di Sergio Benedetto apparso su lavoce.info (http://www.lavoce.info/archives/41481/valutazione-della-ricerca-quellalgoritmo-e-affidabile/), ma per qualche disguido pare sia andato disperso. In attesa di avere un qualche riscontro, lo riporto di seguito.
===================
Confermo quanto scritto da Bertoletti [che aveva commentato: «non mi sembra che l’articolo di Denicolao proponesse una metodologia alternativa»]: non era mia intenzione proporre una metodologia alternativa. Avendo sottoscritto la San Francisco Decl. on Res. Assessment, non ho motivo di escogitare algoritmi bibliometrici basati su indicatori screditati come l’IF o simili. Tra l’altro, l’algoritmo che mi è stato indebitamente attribuito travisa quanto scritto nel mio articolo. Il valore di 20 cit. non era una soglia di eccellenza, ma serviva solo come fattore di scala.
Inutile ricorrere a simulazioni e confronti più o meno complicati, dato che il fatal error è concettuale. All’obiezione che, dopo tutto, sommare i percentile rank significa sottoporre i dati ad una trasformazione come tante altre (lineari o non lineari), ha già dato risposta B. Thompson:
«It might be suggested that percentile ranks are “rubberized”, but that maybe they’re not “rubberized” a whole lot. The problem with this argument is that the distortions introduced by adding percentile ranks are entirely gratuitous. There simply is no reason to introduce these distortions. It would be one thing to accept the cost of a distortion if some greater good offset this penalty. But there is no such benefit establishing any balance against the distortions that percentile ranks unavoidably create. The only reason for using percentile ranks is ignorance, and it is questionable whether a defense of ignorance will be viable».
Per ulteriori dettagli, rimando all’articolo appena pubblicato su Roars: http://tinyurl.com/hnsq3cm
Nooo, ora vi spiego! ;)

La presenza di uno dei migliori fisici italiani tra gli autori di quell’articolo non implica che abbia approvato tutto quello che c’è scritto! Magari frequentano solo lo stesso ristorante: :)
http://www.phdcomics.com/comics/archive.php?comicid=562
.
(“Nella cupa notte vola un fantasma iridescente / Sale e spiega l’ale sulla nera infinita umanità / Tutto il mondo l’invoca e tutto il mondo l’implora / Ma il fantasma sparisce coll’aurora / per rinascere nel cuore / Ed ogni notte nasce / ed ogni giorno muore!”)
Il problema della media dei ranking al modo ANVUR è più complicato e più sbagliato di come analizzato nella letteratura scientifica.
Esistono due tipi di ranking (più quello dell’ANVUR). Il primo tipo è quello delle classifiche sportive: il ranking è basato su una misura quantitativa di precisione maggiore e intenzionalmente riduce la quantità di informazione. E’ quello che non può essere mediato.
Un tipo diverso di ranking è quello che non si basa su una misura quantitativa di maggior precisione. Ad esempio un etologo potrebbe scoprire che tutti i lupi del branco abbassano le orecchie davanti al lupo A e tutti meno A abbassano le orecchie davanti al lupo B; il rank di A è maggiore del rank di B nella classifica delle orecchie. Però il lupo B potrebbe pisciare più in alto di tutti i lupi del branco, compreso A, e A più in alto di tutti gli altri, tranne B: il rank di B è maggiore del rank di A nella classifica della pisciata. Questo tipo di rankings, con grande cautela e faute de mieux, ammette di essere mediato.
I ranking ANVUR sono del primo o del secondo tipo? All’apparenza del primo (non mediabile) in quanto frutto di astrusi calcoli numerici. In realtà i parametri numerici sono indicatori con indice di correlazione r ignoto con la variabile da classificare: infatti ANVUR vorrebbe fare una classifica di chi è più bravo usando le citazioni e gli impact factors, che misurano altre cose. Di fatto non solo i rankings dell’ANVUR non sono del primo tipo, ma neppure del secondo: hanno meno valore di una classifica di quanto i docenti pisciano in alto.
Sono mediabili tra loro i rankings dell’ANVUR? Certamente si: hanno poco senso come tali e altrettanto poco dopo essere stati mediati. La media non cambia il contenuto informativo, che resta comunque molto prossimo a nulla.