Analizando 1 millón de sitios para saber el autentico uso de Wordpress | Programador Web Valencia

Analizando 1 millón de sitios para saber el autentico uso de Wordpress

5 minutos

WordPress

Cada cierto tiempo suelo escuchar que el porcentaje de uso de WordPress ha aumentado. La utilización en pequeñas y medianas empresas es indiscutible. Lo sufro diariamente como Web Developer. Posiblemente sea el CMS más utilizado en el mundo… pero claro, mis clientes y compañeros piensan que todo es WordPress. ¿Quien pensaría lo contrario con todo el ruido que existe? Por ello decidí obtener mis propias conclusiones, o al menos encontrar cual es la tendencia actual. Además, en el mundo hay muchos intereses de todo tipo para engordar las cifra (tiendas de plantillas, hostings, freelances, desarrolladores de plugins…). Cuanto más se utilice, más favorece a dichos sectores. Hay que tener una actitud crítica ante cualquier estadística. Ser curiosisos nos enseñará mucho por el camino y, de regalo, nos ayudará a crear unos sólidos principios.

Una estadística externa del 2 de Noviembre afirma que el uso de WordPress es de 30% entre los primeros 10.000 sitios. Una cifra enorme. Hablamos de prácticamente un tercio de internet. ¿De verdad lo utiliza empresas como Google, Facebook, Amazon..? ¿Tan alto es el porcentaje?

Obteniendo mis datos

No es necesario complicar el proceso. Solo hay que buscar una lista de dominios populares, analizar página por página y realizar la estadística. Lo realicé de la siguiente manera.

1) Los dominios los obtuve de una fuente fiable como la base de datos de Amazon. De entre sus herramientas, te puede proporcionar la lista de los sitios más visitados, ¡hasta un millón de resultados! Más que suficiente. Te ofrece un archivo csv con una estructura simple:

Posición Dominio
1 google.com
2 youtube.com
3 facebook.com
4 baidu.com
5 wikipedia.org
6 yahoo.com
.. ..

2) La forma de analizar cada uno de estos sitios es con un simple script en Python similar a este:


import csv
import urllib3

last_id = 0
urllib3.disable_warnings()
timeout = urllib3.Timeout(connect=2.0, read=7.0)
http = urllib3.PoolManager(timeout=timeout, num_pools=50)

with open('top-1m.csv', 'r') as f_in:
    # Read domains
    reader = csv.reader(f_in)
    temp_domain = ''
    for domain in reader:
        if int(domain[0]) > int(last_id):
            temp_domain = domain[1]
            # Check is WordPress
            temp_url = 'http://{temp_domain}/wp-login.php'.format(temp_domain=temp_domain)
            print(domain[0] + ' check ' + temp_domain)
            print('request...')
            check_wordpress = http.request('GET', temp_url, retries=False)
            print('Complete. Check.')
            if check_wordpress.status == 200 and 'wp-login.php?action=lostpassword' in str(check_wordpress.data):
                print('WORDPRESS')

Dominio por dominio compruebo si existe la página wp-login.php. Una página obligatoria dentro de WordPress. Después, para no ser engañado con un HTML de 404, verifico que existe en su contenido el link wp-login.php?action=lostpassword. Otro enlace que debe tener toda página login de WordPress.

3) Ejecuto el script y espero mirando por la ventana.

WordPress

4) Después de 9 días y muchos pájaros volando, mi script ya ha analizado el millón de sitios y me ofrece una base de datos. Me dispongo a analizar el apreciado material.

Resultados finales

Antes de obtener la cifra final compruebo su uso entre rangos para tener una idea más amplia.

De entre los 100 sitios más populares lo usan…

Un solo sitio, una web llamada wordpress.com. De los 100 sitios más visitados, de las 100 compañías más poderosas en la red… ninguna usa WordPress que no sea la propia WordPress (ocupando la posición 49). Cuando una empresa tiene recursos, programadores y diseñadores es lógico que no dependa de un CMS. Una web a medida siempre es preferible por su rendimiento y mantenimiento.

De entre los 1.000 sitios más populares lo usan…

Solamente 6. Incluyo a files.wordpress.com y wordpress.org. La primera empresa independiente que lo gasta ocupa la posición 552.

De entre los 10.000 sitios más populares lo usan…

Subimos a 225 sitios. Sigue siendo, estadísticamente hablando, anecdótico quien lo utiliza. Hablamos de un 2,25% respecto al 30% que afirmaba la fuente original.

De entre los 100.000 sitios más populares lo usan…

Crece la cifra a un 4,27%. Empezamos a entrar en las empresas emergentes y medianas empresas.

De entre los 1.000.000 sitios más populares lo usan…

¡Y ahora si! El resultado tan codiciado en el artículo y buscado por mí. Del millón de webs más visitados… el uso total del más famoso CMS… es de… ¡7,63%!.

Conclusiones

Veamos su uso de 100.000 en 100.000 sitio. Como podemos comprobar va aumentando respecto se tiene menos visitas.

Esta estadística es la misma, pero ampliando la zona para que se aprecie mejor la curvatura

Es indudable que es una plataforma poderosa, flexible y rápida de desarrollar. Por ello se ha convertido el CMS más amado por las empresas. Pero ello no significa que sea la herramienta suiza para todos los problemas. Esta orientada a empresas pequeñas y medianas que buscan una solución económica. Cuando crecen se evoluciona a un desarrollo a medida. Solo hay que observar como las páginas más populares no se utiliza. Mientras que en otras con menos visitas podemos decir que llama la atención. En definitiva es un buen comienzo, pero no un futuro.

Como hemos visto, los datos son complejos de sintetizar. Pero lo que queda claro es que un tercio de internet no usa WordPress. Es dificil dar una cifra cerrada porque depende de como se mire los resultados. Aunque mi interpretación es de que la red esta formada por un 7,63% de WordPress (un número grande), y que su objetivo son particulares o empresas sin muchos recursos y/o conocimientos.

Anécdotas

  • Al principio ejecuté el código en mi casa. En concreto dentro de una Raspberry Pi 2 que pensaba dejarla trabajar el tiempo que fuera necesario. Pero transcurrido un par de horas no conseguía entrar a algúnos sitios desde mi portátil. Mi IP fue bloqueada de diversos sitios como GoDaddy o El Corte Ingles.
  • Después del accidente anterior, lo llevé a un VPS. Al ejecutarlo, a las pocas horas, recibí un email avisándome que mi servidor virtual estaba realizando una ataque de… ¿fuerza bruta? Si no tomaba medidas lo cerrarían por mi. Tuve que llevarlo a un tercer sitio que no comentaré en este artículo. No volvió a darme problemas.
  • El tiempo para realizar todas las peticiones del script del ejemplo era de casi 1 año y medio. Tenía otras cosas más interesantes que hacer, por lo que tuve que optimizar. Apliqué el multiproceso de Python 3.6 hasta alcanzar unos 9 días. En la última versión realizaba 1000 peticiones asíncronas.
  • ¿Por qué urllib3 y no requests? Cuando realizaba muchas peticiones el sistema operativo cerraba la ejecución con requests. Sin ningún mensaje aparente. Al cambiar no me dio más problemas.

Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-SinDerivadas 4.0 Internacional.

Atribución/Reconocimiento-NoComercial-SinDerivados 4.0 Internacional

¿Me invitas a un café? ☕

Puedes hacerlo usando el terminal.

ssh customer@andros.dev -p 5555

Comentarios

{{ comments.length }} comentarios

Nuevo comentario

Nueva replica  {{ formatEllipsisAuthor(replyComment.author) }}

Acepto la política de Protección de Datos.

Escribe el primer comentario

Tal vez también te interese...