Proceso de construcción de matriz Origen-Destino en Transporte Público

Por: Gaspar Mac y Luciano Acquaviva

 

Proceso de construcción de matriz Origen-Destino en Transporte Público

Desarrollamos un algoritmo para construir la matriz origen-destino del Transporte Urbano de Pasajeros (TUP) de Rosario basada en los más de 2.5 millones de datos de las cancelaciones registradas en la semana del 2 al 6 de Marzo del 2020.

Datos de entrada en la BD

1. Preparación de los datos

  • Creamos la base de datos.
  • Montamos los datos de los recorrido de cada línea.
  • Montamos las paradas de cada línea.
  • Montamos las cancelaciones.
  • Asignamos cada cancelación a una parada de la línea determinada en función de latitud y longitud de cada registro.

 

2. Estimación de bajadas

Trabajamos sobre 5 diferentes probabilidades de estimación del destino de viajes y 1 probabilidad de no ocurrencia para casos que deben desecharse del análisis.

Los diferentes casos de cancelación que se pueden dar se pueden enumerar como:

Uso normal: usuario viaja hasta un punto (en principio no lo sabemos) pero luego más tarde (más de una hora) cancela de nuevo en la misma línea, o línea de similar recorrido en el otro sentido. Se asume que ese punto fue su destino y que está volviendo a casa. Origen: 1° cancelación – Destino: 2° cancelación.

Uso reducido: usuario viaja por única vez en el día: en este caso, usamos distancia / tiempo promedio arriba de una unidad y lo bajamos. Si no tenemos otra data del ID de usuario podemos suponer una vuelta a casa desde ese punto.
Origen: 1° cancelación – Destino: tiempo promedio sobre el colectivo

Multiviaje: usuario viaja más de 2 veces en el día: en este caso, se asume que el último viaje que realizó es la vuelta a casa, si es que fue con la misma línea o similar recorrido que la 1° cancelación.
Origen: 1° cancelación – Destino: último viaje registrado por el usuario.

Usuario Cancela a otra persona: en caso de detectar que el mismo ID de usuario cancela más de una vez en la misma unidad, es que está pagando a otras personas. En este caso podemos duplicar el viaje con mismo Origen y Destino que el usuario que realizó la cancelación.

Transbordo: en caso de detectar que el mismo ID de usuario cancela más de una vez dentro de una hora, y se detecta que fue transbordo. Se suma este tramo como una extensión del primero. En caso de cancelar más tarde en otro punto se toma como de vuelta al domicilio (si fue con las mismas o similares líneas). IDEM Multiviaje.
Origen: 1° cancelación – Destino: último viaje registrado por el usuario.

Multimodal: si se detecta un usuario que con el mismo ID hizo algún tramos (antes o al final) con Bicicleta Pública, fue un viaje que utilizó varios modos.
Origen: 1° cancelación – Destino: último viaje registrado por el usuario. Independiente del modo utilizado.

La metodología para la formulación de la matriz origen-destino consiste en asociar Latitud y Longitud de la cancelación del viaje con una parada de la línea sobre la que se realizó la transacción fijando así el punto de Origen de un viaje.

Para el destino del viaje trabajamos con las probabilidades de ocurrencia que se describen en la tabla a continuación:

Probabilidades del 0 al 5:

  • Totalmente probable 5
  • Muy probable 4
  • Probable 3
  • Poco Probable 2
  • Muy poco probable 1
  • Nada probable 0 (casos no tenidos en cuenta)

 

Probabilidad 5:
Viaje A de línea X con origen en parada 1.
Viaje B de línea indistinta con origen en parada 2.
Se busca la parada más cercana correspondiente a la línea X con respecto a la ubicación de parada 2. Si la distancia entre estas dos paradas es menor a 500m, se asigna como parada de destino del viaje A esta parada cercana encontrada.
Para definir el destino del viaje B, si la línea utilizada es la misma que para el viaje A, se asume como la vuelta al origen. Si no, es necesario validar si la línea utilizada en el viaje B tiene un destino que pueda asociarse al origen de la parada 1 para asumir que es el retorno al origen.

Probabilidad 4:
Viaje A de línea indistinta con origen en parada 1 (primer viaje del dia).
Pueden o no existir viajes intermedios.
Viaje B de linea X con origen en parada 2 (último viaje del dia).
Se asume como parada de destino de viaje B la parada de línea X mas cercana a parada 1.

Probabilidad 3:
Viaje A de línea X con origen en parada 1 y ningún otro viaje registrado en el día.
Se calcula cuales son las paradas más utilizadas por el usuario como destino de la línea X en el rango horario del viaje, y se asume como destino una parada aleatoria de las más utilizadas por ese usuario de esa línea en ese rango horario.

Probabilidad 2:
Viaje de linea X con origen en parada 1, que tiene como tarjeta asociada 00000000000000.
Se calcula cuales son las paradas más utilizadas como destino de la línea X en el rango horario del viaje, y se asume como destino una parada aleatoria de las más utilizadas de esa línea en ese rango horario en función del tiempo promedio de los pasajeros de esa línea en ese rango horario.

Probabilidad 1:
Viaje de linea X con origen indefinido (lat/lon en 0)
Se calcula cuales son los orígenes y destinos más utilizadas de la línea X en el rango horario del viaje, y se asumen como origen y destino paradas aleatorias de las más utilizadas de esa línea en ese rango horario.

Probabilidad 0:
Casos que no se tienen en cuenta:
Transacciones que son pagos de viajes plus que el usuarios debe. Son cancelaciones que tiene dos transacciones en el mismo momento, en la misma unidad, etc. Viaje Plus + Normal.

3. Construcción de la matriz OD

Desarrollamos el algoritmo con todas las reglas definidas en el punto 2 “Estimación de bajadas” capaz de procesar los 2.5 millones de datos en 10 minutos. Montamos el script sobre infraestructura Amazon AWS y utilizamos Pyhton, NodeJs y MySQL.

 

Información relevante que se puede obtener del análisis de datos luego de construir la matriz OD de transporte público:

Aprender, en este contexto, quiere decir identificar patrones complejos en millones de datos. La máquina que realmente aprende, es un algoritmo que revisa los datos y es capaz de predecir comportamientos futuros y; automáticamente implica que estos sistemas se mejoran de forma autónoma con el tiempo, sin intervención humana.

Desarrollamos un novedoso sistema de procesamiento de información que permite obtener patrones de conducta del Sistema de Movilidad a partir de datos no estructurados que minando las bases y a través de la inteligencia artificial se puede aprender sobre el sistema de una forma mucho más comprensiva de lo que actualmente se conoce.

Link: www.smod.io/mapview

A continuación se listan una serie de reportes que pueden extraerse del procesamiento de datos de la matriz Origen-Destino.

Transporte Urbano de Pasajeros (TUP):

  • Pasajeros, pudiendo discriminar por línea, por día y período de horas:
    • total de pasajeros.
    • cantidad de tipos de pasajeros: normal, estudiante, Mayor de 69 años, otras franquicias, etc.
    • cantidad de pasajeros por parada: promedio y máximo.
    • cantidad de pasajeros por unidad: promedio y máximo.
    • cantidad de pasajeros por recorrido: promedio y máximo.
    • por pasajero:
      • viajes
      • ver recorrido, líneas utilizadas y horarios.
      • ver intermodalidad
        * poder predecir cómo va a ser su comportamiento.
  • Viajes, por día y período de horas:
    • Conocer el tiempo promedio de viaje por persona por línea.
    • Cantidad de kilómetros recorridos.
    • Cantidad de C02 generado.
    • Tiempo por recorrido: promedio y máximo.
    • Por sentido: promedio y máximo.
    • Gráficas de variaciones anuales, mensuales, semanales y diarias.
    • Identificación de picos y valles horarios.
    • Comportamiento de viajes en días atípicos.
    • Uso de viaje horario y combinaciones.
  • Empresa, por día y período de horas:
    • Total de pasajeros
    • Por línea
    • Por recorrido
    • Ver Tipo de pasajero
    • Total recaudación estimada
    • % de Cobertura
    • Participación en el Sistema
  • Otros:
    • Determinar por zona el % de población que utiliza el transporte público.
    • Identificar poblaciones con problemas de cobertura.
    • Análisis de superposiciones de líneas.

Sistema de bicicletas públicas:

  • Viajes, pudiendo discriminar por estación, por día y período de horas:
    • total de viajes.
    • orígenes de viajes.
    • destinos de viajes.
    • tiempo promedio de uso.
    • distancia recorrida
    • ver los viajes (orígenes y destino) por estación.
  • Usuarios, pudiendo discriminar por día y período de horas:
    • edad
    • franquicia
    • género
    • cantidad de usuarios
    • ver los viajes por usuario (animados)

 

Bibliografía:

Desarrollamos la matriz de origen-destino basándonos en el estudio “Construcción de una matriz origen-destino para el transporte público en Montevideo” de Eliana Clavijo de la Universidad ORT Uruguay (Facultad de Ingeniería) y el trabajo “Estimación y predicción de matrices dinámicas de viaje” desarrollado por Felipe Andrés Zúñiga González de la Universidad Católica de Chile (Escuela de Ingeniería).

 

Equipo de trabajo:

  • Luciano Acquaviva
  • Bruno Mininno
  • Gaspar Mac

 

Fuente de la imagen de portada: Municipalidad de Rosario. Silvio Moriconi.