Red de conocimiento de divisas - Preguntas y respuestas sobre contabilidad - Análisis de datos de préstamos de la plataforma de préstamos en línea de EE. UU. Prosper

Análisis de datos de préstamos de la plataforma de préstamos en línea de EE. UU. Prosper

Este artículo describe principalmente cómo utilizar Python para evaluar, organizar y limpiar conjuntos de datos.

Después de completar este proceso, exploraremos, analizaremos y visualizaremos la pregunta "¿Cuáles son las características de los clientes morosos de Prosper" a través de Tableau?

Finalmente, se utiliza el algoritmo de bosque aleatorio para modelar y analizar los datos posteriores a julio de 2009, y predecir el impago de los préstamos que aún están en curso.

Prosper es la primera plataforma de préstamos P2P en Estados Unidos. Este conjunto de datos proviene de los datos de préstamos de Uber en Udacity de 2005 a 2014. Este artículo espera determinar qué tipo de clientes tienen más probabilidades de incumplir mediante el análisis de préstamos completados y predecir si los préstamos incompletos incumplirán.

El conjunto de datos original * * * contiene 81 variables y 113.937 datos. Algunas variables importantes se explican a continuación. Para conocer el significado de otras variables, consulte el diccionario de variables.

Primero carga la biblioteca y los datos.

Luego use df.describe() y df.info() para observar los datos.

Esta vez el análisis principal es el 1. ¿Qué tipo de prestatarios tienen más probabilidades de incumplir? 2. Predecir si los préstamos pendientes entrarán en mora. Así que elimine las columnas irrelevantes.

Desde julio de 2009, Prosper ha ajustado sus métodos de evaluación de clientes. En esta ocasión sólo se analizan los préstamos-01 de julio de 2009 en adelante.

Eliminar columnas con significados duplicados:

Prosper califica a los nuevos clientes de manera diferente a los antiguos. Esta vez, solo analiza los datos de los nuevos clientes.

Primero, se comprueba cada variable en busca de datos faltantes.

La plataforma divide el estado del préstamo en 12 tipos: cancelado (cancelado), cobrado (cancelado, los inversores tienen pérdidas), completado (completado normalmente, los inversores no tienen pérdidas), actual (reembolso del préstamo), incumplimiento (deuda incobrable, los inversores tienen pérdidas), FinalPaymentInProgress (los inversores no tienen pérdidas en el pago final) y pegar.

Este artículo divide todos los datos en los siguientes tres grupos según si la transacción aún está en curso o completada, y si los inversores han perdido dinero en las transacciones completadas:

Actualmente (incluido el actual, caducado),

Incumplido (incluido incumplimiento de contrato, negativa a pagar),

Completado (incluido completado, pago final en curso).

Para facilitar el análisis y cálculo posterior, "Completo" se cambia a 1 y "Predeterminado" se cambia a 0.

La tasa de morosidad de los préstamos completados defaulted_ratio_finished = 26,07%.

Este conjunto de datos tiene muchas características que reflejan el estado crediticio de los usuarios de préstamos. Entre ellos, la calificación crediticia la establece Prosper basándose en su propio modelo y es la base principal para determinar las tasas de interés de los préstamos, mientras que el CreditScore lo proporcionan las agencias de calificación crediticia oficiales.

Como se puede ver en la Figura 5-1, a medida que ProsperRating continúa aumentando, la tasa de incumplimiento muestra una evidente tendencia a la baja.

En CreditScore, con puntuaciones bajas (640-700), la tasa de impago se encuentra en una posición relativamente alta y no ha cambiado mucho. Para el segmento superior a 720, a medida que aumenta la puntuación crediticia, la tasa de incumplimiento disminuye significativamente.

En términos generales, cuanto mayor sea la calificación crediticia del prestatario, menor será la posibilidad de incumplimiento.

Entre los diferentes niveles de ingresos, los prestatarios desempleados tienen la tasa de incumplimiento más alta y, a medida que aumentan los ingresos, la tasa de incumplimiento continúa disminuyendo.

Bajo diferentes condiciones de préstamo, el ingreso mensual de los usuarios morosos es significativamente menor que el de los usuarios no morosos.

Según el gráfico de la izquierda de la Figura 5-4, no hay mucha diferencia en la relación deuda-ingresos general entre los usuarios morosos y los no morosos.

Según los cuartiles de la relación deuda-ingresos, todos los datos se dividen en cuatro grupos con cantidades de datos similares. Como puede verse en el panel derecho de la Figura 5-4, tanto los ratios bajos (relación deuda-ingreso 0-0,12) como los ratios medios (0,12-0,19) tienen tasas de incumplimiento más bajas. La mayor proporción de tasas de incumplimiento (0,19-0,29) es ligeramente superior a las dos primeras. La tasa de morosidad de usuarios con una proporción alta (superior a 0,29) aumentó significativamente.

Según el cuartil de uso de tarjetas bancarias, los datos se dividen en 'no utilizadas', 'sobregiro bajo (0, 0,3', 'sobregiro moderado (0,3, 0,7', 'sobregiro alto (0,7, 1)" y 'sobregiro grave (1).

Se puede observar que los prestatarios con sobregiros graves tienen la tasa de incumplimiento más alta.

El segundo son los usuarios no utilizados, que también es de preocupación especial para las instituciones financieras El motivo de la "cuenta blanca".

ConsultasLast6Months puede reflejar la frecuencia reciente de solicitudes de préstamos de instituciones financieras por parte del prestatario y reflejar indirectamente el estado financiero reciente del prestatario

En. Figura 5-6. La línea verde representa la cantidad de préstamos en diferentes tiempos de consulta. Se puede ver que la mayoría de ellos están por debajo de 7 veces.

En el rango de 0 a 7 consultas, la tasa de incumplimiento. aumenta con el número de consultas. Incremento

La situación de incumplimiento actual bien puede reflejar el estado crediticio del prestatario

Como se puede ver en la Figura 5-7, el número actual. de préstamos vencidos para la mayoría de los prestatarios es 2. veces. En el rango de 0 a 6, la tasa de incumplimiento aumenta con el número actual de morosos.

Para evitar el impacto de muy pocas categorías en el. Clasificación de la tasa de incumplimiento, los préstamos superiores a 30 se excluyen primero de la categoría Pen

Como se puede ver en la Figura 5-8, el número más grande es 1-Consolidación de deuda

El incumplimiento más alto. la tasa es 15-Medical/Dental (Medical), 13-Gasto del Hogar (Gasto del Hogar) y 3-Business (Negocios), ambos por encima del 30%

Los datos se dividen en cuatro grupos según el cuartil de monto del préstamo, y las cifras son similares Sí, los préstamos de tamaño mediano (365,438+000,4750) tienen la tasa de incumplimiento más alta, mientras que los préstamos de tamaño grande (más de 8,500) tienen la tasa de incumplimiento más baja. Probablemente esto se deba a que los usuarios pueden solicitar préstamos de alto valor y tienen buenas condiciones en todos los aspectos, lo que reduce la tasa de incumplimiento.

Como se puede ver en la Figura 5-11, está en el rango de 0-. 30, a medida que aumenta la duración, la tasa de incumplimiento disminuye gradualmente. Este rango también incluye aproximadamente la mitad de los datos.

Cuando la duración continúa creciendo, no hay cambios obvios en la tasa de incumplimiento. p>

Existen diferencias obvias en las tasas de incumplimiento en diferentes regiones. En ciudades como SD, la tasa de incumplimiento es muy alta. En ciudades como UT y CO, la tasa de incumplimiento es más baja. >En general, la tasa de incumplimiento de los prestatarios con bienes raíces es significativamente menor que la de los prestatarios sin bienes inmuebles.

p>

Importe la biblioteca relevante

Convierta las variables de cadena en los datos. en números

Divida el conjunto de datos según la proporción del 30% del conjunto de prueba y el 70% del conjunto de entrenamiento. Construya el modelo utilizando el algoritmo de bosque aleatorio

La predicción. La precisión del conjunto de prueba del modelo es: Precisión = 73,99%

Para el algoritmo de bosque aleatorio, podemos verificar cada característica en el modelo

Como se muestra en la Figura 6-2. , StatedMonthlyIncome y EmploymentStatusDuration son las funciones más importantes.

Basándose en este modelo, prediga si los préstamos que aún están en curso no cumplirán sus obligaciones.

La tasa de incumplimiento para los préstamos aún en curso es Default _ Ratio _ Predict = 3,64%.

Este artículo describe en detalle el proceso completo de los datos de préstamos de Prosper, desde la exploración de datos hasta el establecimiento y predicción del modelo.

El estudio encontró que los ingresos mensuales y el período de empleo tienen el mayor impacto a la hora de incumplir o no. Principalmente porque estos dos son factores importantes que reflejan la estabilidad del prestatario.

En términos de creación de modelos, también puede mejorar la precisión ajustando los parámetros de este modelo o intentar utilizar otros algoritmos, como la regresión logística, para construir un nuevo modelo para comparar.

上篇: Productos de préstamos de financiación verdePréstamos de financiación verde 下篇: ¿Qué significa suscribirse a acciones seleccionadas?
Artículos populares