Openinfluence

Openinfluence is an open-metric developed at Paradigmalabs and tries to define the relevance of each user in Twitter. It is open because you can see the formula and contribute to improve it. You can see the formula in the picture below:

As you can see, the formula has two main components “Popularity” and “Influence“. Popularity is related to static properties of your social network. It’s some kind of “potential influence”, the beforehand capability of getting your tweets spread.Influence is related to the propagation and repercussion of each of your tweets, the effective reach of your messages.

We have applied successfully this metric in several analysis, e.g.: during the Andalusian elections campaign or UX Spain Conference.

Currently we can represent this formula with the next plot:

We are involved in trying to improve this metric, because the two main parts have the same weight in the formula. However, is this metric more related to Influence? Is the formula below better?

We have tested Openinfluence with the next dataset. In the picture below, you can see the number of followers degree of each user in the sample (in logarithmic scale):

The correlation between Popularity and Influence (dataset) shows that the main stream of people has more or less the same Popularity and Influence. By means of the structure of this formula, some users have 0 of influence and n>0 popularity however they have not null relevance.

Suggest us your point of view !! We are expecting to improve it!!

Roberto Maestre desarrolla su trabajo, junto con sus compañeros de Paradigma Labs, en los campos de Procesado de lenguaje natural, análisis de redes, rastreo de información y web semántica. Estudió Informática en la UPM, y actualmente se encuentra realizando su doctorado en el campo de los modelos algebraicos para la construcción de sistemas expertos y de razonamiento automático en el DIA FI-UPM. Anteriormente trabajó en el CSIC en el proyecto TECT de la ESF relacionado con el estudio de redes dinámicas de cooperación. Siempre dispuesto a probar una nueva tecnología o poner a prueba una teoría.

See all Roberto Maestre activity

Alejandro González es un analista programador con más de 4 años de experiencia en el desarrollo de software. Ha trabajado sobre todo con lenguajes dinámicos como Perl y Python en el ambito del NLP, Sentiment Analysis, Motores de busqueda y aplicaciónes de monitorización y seguimiento de tendencias y opiniones en redes sociales.Le atrae especialmente la adquisición y analisis automático de grandes volúmenes de información para inferir tendencias y patrones de propagación de ideas en internet, así como tecnologías de BigData, tanto de persistencia como de computación.Actualmente se encuentra en Paradigma Tecnológico trabajando en varios proyectos de Sentiment Analysis y de detección y seguimiento de movimientos en redes sociales.

See all Alejandro González activity

Roberto Maestre desarrolla su trabajo, junto con sus compañeros de Paradigma Labs, en los campos de Procesado de lenguaje natural, análisis de redes, rastreo de información y web semántica. Estudió Informática en la UPM, y actualmente se encuentra realizando su doctorado en el campo de los modelos algebraicos para la construcción de sistemas expertos y de razonamiento automático en el DIA FI-UPM. Anteriormente trabajó en el CSIC en el proyecto TECT de la ESF relacionado con el estudio de redes dinámicas de cooperación. Siempre dispuesto a probar una nueva tecnología o poner a prueba una teoría.

See all activity

Hace tiempo que me se trasladé a Madrid desde Valencia en busca de retos. Mi carrera profesional ha crecido paralelamente con la implantación definitiva de Internet, y he trabajado en todos los niveles asociados con el análisis de ésta: desde la recolección de datos hasta la visualización, área en la que actualmente estoy centrado. Divido mi tiempo entre el trabajo, trastear con Arduino, buscar la mejor tapa y recorrer Madrid en bicicleta.

See all Rubén Abad activity
, Mario Muñoz

Javier Alba es un desarrollador de software con más de 5 años de experiencia. Ha trabajado principalmente en áreas como Information Retrieval, NLP y Sentiment Analysis, aplicadas a la creación de sistemas de monitorización de medios y medición de opinión online. Sus herramientas principales son lenguajes como Java, Perl y Python, frameworks NLP como Freeling, Unitex y NLTK, motores de búsqueda como Apache Solr, y bases de datos NoSQL como MongoDB. Junto con sus compañeros de Paradigma Labs, actualmente trabaja en proyectos de Sentiment Analysis y monitorización online, así como en proyectos experimentales de adquisición y visualización de datos de redes sociales.

See all Francisco Javier Alba activity

Licenciado en Telecomunicaciones por la Universidad Politécnica de Madrid. Apasionado por la tecnología, se ha centrado en el estudio y desarrollo de nuevas tecnologías participando en proyectos innovadores de Inteligencia Semántica relacionado con rastreo Web, Reputation tracking, Social Media Monitoring y Medición de Popularidad. Amplios conocimientos en Java, Ruby on Rails, Junit...

See all Carlos Navarro activity
and Óscar Marín Miró

Get more articles like this

You'll receive an email for every new article. I agree to the legal terms

6 comentarios

  1. Rianne says:

    Very interesting post. I was just wondering, what do you mean by Retweets audience?

    • Roberto Maestre Martínez says:

      Hi Rianne,
      Retweets audience means the number of potential readers, e.g.: if one person tweet something and another three persons with (125, 300 and 400 followers) retweet it, the Retweets Audience will be (125+300+400)/3 = 275. We apply this formula to the whole set of retweets belonging to a user.

      Perhaps, we can improve it.
      Best regards.

      • Rianne says:

        Thanks for the reply. I’ve got some more questions. Why do you average the retweets audience? You should account for the overlap in followers of the persons that retweet, but I’m not sure that’s why your averaging it.
        The retweet audience depends on who is retweeting your tweet, but how do you calculate it for the complete set of retweets in one week? If one person retweets 2 of your tweets, do you count his retweet audience twice?

        Kind regards,
        Rianne

        • Roberto Maestre Martínez says:

          We are trying to keep a balance between functionality and accuracy.

          We are limited by twitter API constraints regarding number of queries per hour, and we would need a lot of queries just to calculate the overlap for each pair of users; worse than that, following actions are changing all the time, so we should repeat those queries continuosly to get this data in real time. Therefore, in order to limit the number of queries required, we calculate an approximation without overlaps.

          Besides the problem with duplicated followers, the more retweets you retrieve, the more queries you have to use, and even if you didn’t have the queries rate limitation, there’s another constraint in twitter API, you only get up to 1500 retweets. Therefore, in order to limit the number of queries and being able to get an aproximation for those accounts with huge amounts of retweets we retrieve a sample of the whole retweets, calculate a simple average of retweets audience per retweet and the rate of retweets per time unit (Number of retweets in the time frame between the first retweet in the sample and the last one) and we extrapolate the data to one week.

          Thank you for your suggests and comments,
          best regards.

          • Rianne says:

            Thanks for your reply. I am thinking about a similar measure, and indeed I also had some issues with the Twitter API rate limits. The retweet audience is the only component I didn’t use, that’s why I was curious how you calculate it. I would like to test and compare some of these influence measure but I am not sure how to get some kind of ground truth. Did you test your measure in any way?

          • Roberto Maestre Martínez says:

            We tested this metric in two kinds of sceneries: global and small events. We have chosen this two sceneries because in a global one, you manage a huge amount of information and the process is more static, the second one is more dynamic and you manage less and local information.

            A global event like Andalusian parliamentary election of 2012 we obtained the following results: José Antonio Griñan won the campaign, however he obtained the third position in the final ranking of Openinfluence (http://labs.paradigmadigital.com/eleccionesAndaluzas2012/), and in small event like UX Spain conference (https://paradigmadigital.com/uxspain/).

            Results shows that test this metric is really difficult, sometimes twitter is only a part of the global reality, therefore we try to identify key variables in a theoretical-logic formula to Influence.

Escribe un comentario