20 proyectos de aprendizaje automático que te contratarán
Si desea ingresar al mercado laboral de aprendizaje automático y ciencia de datos, deberá demostrar la competencia de sus habilidades, especialmente si es autodidacta a través de cursos en línea y campamentos de entrenamiento. Una cartera de proyectos es una excelente manera de practicar su nuevo oficio y ofrecer evidencia convincente de que un empleado debe contratarlo a usted por encima de la competencia.
By Khushbu Shah, Gerente de contenido en ProjectPro.
La industria de la inteligencia artificial y el aprendizaje automático está en auge como nunca antes. A partir de 2021, el aumento en el uso de inteligencia artificial en las empresas creará 2.9 billones de dólares de valor empresarial. La IA ha automatizado muchas industrias en todo el mundo y ha cambiado la forma en que operan. La mayoría de las grandes empresas incorporan IA para maximizar la productividad en su flujo de trabajo, y sectores como el marketing y la salud han experimentado un cambio de paradigma debido a la consolidación de la IA.
Fuente de la imagen: Unsplash
Debido a esto, ha habido una creciente demanda en los últimos años de profesionales de IA. Casi ha habido un aumento del 100% en las ofertas de trabajo relacionadas con la inteligencia artificial y el aprendizaje automático de 2015 a 2018. Este número ha crecido desde entonces y se prevé que aumente en 2021.
Si está buscando ingresar a la industria del aprendizaje automático, la buena noticia es que no hay escasez de trabajos disponibles. Las empresas necesitan una fuerza laboral talentosa que sea capaz de ser pionera en el cambio hacia el aprendizaje automático. Sin embargo, el mercado laboral está infiltrado por personas que quieren irrumpir en la industria de los datos. Dado que ningún programa de grado específico está dirigido a estudiantes que desean aprender el aprendizaje automático, muchos aspirantes a practicantes de ML son autodidactas.
Hay más de 4 millones de estudiantes inscritos en el curso en línea de aprendizaje automático de Andrew Ng.
Desafortunadamente, inscribirse en cursos en línea o tomar un Bootcamp de aprendizaje automático lo ayuda a aprender los conceptos teóricos, pero no lo prepara para un trabajo en la industria. Hay mucho más trabajo práctico por hacer después de haber aprendido la teoría. Supongamos que conoce los conceptos básicos de los algoritmos de aprendizaje automático: comprende cómo funcionan los modelos de regresión y clasificación, y conoce los diferentes tipos de métodos de agrupación en clústeres.
¿Cómo va a practicar las habilidades que aprendió para resolver un problema de la vida real? La respuesta simple es: práctica, práctica y práctica diversa proyectos de aprendizaje automático.
Una vez que haya terminado de aprender los conceptos teóricos, debe comenzar a trabajar en proyectos de inteligencia artificial y aprendizaje automático. Estos proyectos le brindarán la práctica necesaria para perfeccionar sus habilidades en el campo y, al mismo tiempo, son un gran valor agregado a su cartera de aprendizaje automático.
Sin mucho preámbulos, exploremos algunas ideas de proyectos de aprendizaje automático que no solo harán que su cartera se vea bien, sino que también mejorarán significativamente sus habilidades de aprendizaje automático. Esta es una lista seleccionada de algunos de los mejores proyectos de aprendizaje automático para estudiantes, aspirantes a profesionales del aprendizaje automático y personas de dominios no técnicos. Puede trabajar en estos proyectos independientemente de su experiencia, siempre que tenga algo de codificación y conocimientos de habilidades de aprendizaje automático. Esta es una lista de proyectos de aprendizaje automático de nivel principiante y avanzado.
Si es nuevo en la industria de datos y tiene poca experiencia con proyectos de la vida real, comience con proyectos de aprendizaje automático para principiantes antes de pasar a los más desafiantes.
Proyectos de aprendizaje automático para principiantes
1. Predicción del Titanic de Kaggle
El primer proyecto de esta lista es uno de los proyectos de AA más sencillos que puede realizar. Este proyecto se recomienda para principiantes completos en la industria de datos. El conjunto de datos del Titanic está disponible en Kaggle y el enlace para descargarlo se encuentra a continuación.
Este conjunto de datos es de pasajeros que viajaron en el Titanic. Tiene detalles como la edad del pasajero, la tarifa del boleto, la cabina y el género. Con base en esta información, deberá predecir si estos pasajeros sobrevivieron o no.
Es un simple problema de clasificación binaria, y todo lo que necesita hacer es predecir si un pasajero en particular sobrevivió. Lo mejor de este conjunto de datos es que todo el procesamiento previo está hecho por usted. Tiene un conjunto de datos limpio y agradable para entrenar su modelo de aprendizaje automático.
Dado que se trata de un problema de clasificación, puede optar por utilizar algoritmos como regresión logística, árboles de decisión y bosques aleatorios para construir el modelo predictivo. También puede elegir modelos de aumento de gradiente como un clasificador XGBoost para este proyecto de aprendizaje automático de nivel principiante para obtener mejores resultados.
Conjunto de datos: Conjunto de datos del Titanic de Kaggle
2. Predicción del precio de la vivienda
Los datos de precios de la vivienda también son excelentes para comenzar si es un principiante en el aprendizaje automático. Este proyecto utilizará el conjunto de datos de precios de la vivienda disponible en Kaggle. La variable objetivo en este conjunto de datos es el precio de una casa en particular, que deberá predecir utilizando información como el área de la casa, la cantidad de dormitorios, la cantidad de baños y los servicios públicos.
Es un problema de regresión y puede usar técnicas como la regresión lineal para construir el modelo. También puede adoptar un enfoque más avanzado y utilizar un regresor forestal aleatorio o un aumento de gradiente para predecir los precios de la vivienda.
Este conjunto de datos tiene 80 columnas, excluyendo la variable de destino. Deberá emplear algunas técnicas de reducción de dimensionalidad para seleccionar características manualmente, ya que agregar demasiadas variables puede hacer que su modelo tenga un rendimiento deficiente.
También hay muchas variables categóricas en el conjunto de datos, por lo que debe tratarlas correctamente utilizando técnicas como la codificación one-hot o la codificación de etiquetas.
Después de crear su modelo, puede enviar sus predicciones a la competencia de precios de viviendas en Kaggle, ya que aún está abierta. El mejor RMSE logrado por la competencia es 0, y muchas personas han logrado buenos resultados como 0.15 con la ayuda de técnicas de regresión y aumento de gradiente.
Conjunto de datos: Conjunto de datos de predicción del precio de la vivienda de Kaggle
3. Predicción de la calidad del vino
El conjunto de datos de predicción de la calidad del vino también es muy popular entre los principiantes en la industria de los datos. En este proyecto, utilizará acidez fija, acidez volátil, alcohol y densidad para predecir la calidad del vino tinto.
Esto puede tratarse como un problema de clasificación o de regresión. los calidad del vino La variable que necesita predecir en el conjunto de datos varía de 0 a 10, por lo que puede crear un modelo de regresión para predecir. Otro enfoque que puede adoptar es dividir los valores (de 0 a 10) en intervalos discretos y convertirlos en variables categóricas. Puede crear tres categorías, por ejemplo: medio bajo, y high.
A continuación, puede crear un clasificador de árbol de decisión o cualquier modelo de clasificación para realizar la predicción. Es un conjunto de datos relativamente limpio y sencillo para practicar sus habilidades de aprendizaje automático de regresión y clasificación.
Conjunto de datos: Conjunto de datos de calidad del vino tinto de Kaggle
4. Predicción de enfermedades cardíacas
Si está buscando explorar un conjunto de datos en la industria de la salud, este es un gran conjunto de datos para principiantes para comenzar. Este conjunto de datos se utiliza para predecir el riesgo de enfermedad coronaria (cardiopatía coronaria) a 10 años. Las variables dependientes en este conjunto de datos son los factores de riesgo de enfermedad cardíaca, incluida la diabetes, el tabaquismo, la presión arterial alta y los niveles altos de colesterol.
La variable independiente es el riesgo de cardiopatía coronaria a 10 años. Es un problema de clasificación binaria, y la variable objetivo es 0 o 1–0 para los pacientes que nunca desarrollaron una enfermedad cardíaca y 1 para los pacientes que la desarrollaron. Puede realizar una selección de características en este conjunto de datos para identificar las características que más contribuyen al riesgo cardíaco. Luego, puede ajustar un modelo de clasificación a las variables independientes.
Este conjunto de datos está muy desequilibrado porque muchos de los pacientes de este conjunto de datos no no desarrollar enfermedades del corazón. Un conjunto de datos desequilibrado debe manejarse utilizando las técnicas de ingeniería de características adecuadas, como sobremuestreo, ajuste de peso o submuestreo. Si no se trata adecuadamente, terminará con un modelo que simplemente predice la clase mayoritaria para cada punto de datos y no puede identificar a los pacientes que sí logró desarrollar enfermedades del corazón. Este es un excelente conjunto de datos para que practique sus habilidades de ingeniería de funciones y aprendizaje automático.
Conjunto de datos: Conjunto de datos de enfermedades cardíacas de Kaggle
5. Clasificación de dígitos MNIST
El MNIST El conjunto de datos es su trampolín hacia el campo del aprendizaje profundo. Este conjunto de datos consta de imágenes en escala de grises de dígitos escritos a mano del 0 al 9. Su tarea sería identificar el dígito mediante un algoritmo de aprendizaje profundo. Este es un problema de clasificación de clases múltiples con diez posibles clases de salida. Puede utilizar una CNN (red neuronal convolucional) para realizar esta clasificación.
El conjunto de datos MNIST se crea dentro de la biblioteca Keras en Python. Todo lo que necesita hacer es instalar Keras, importar la biblioteca y cargar el conjunto de datos. Este conjunto de datos tiene alrededor de 60,000 imágenes, por lo que puede usar aproximadamente el 80% de estas imágenes para entrenamiento y otro 20% para pruebas.
Conjunto de datos: Conjunto de datos del reconocedor de dígitos de Kaggle
6. Análisis de sentimiento de los datos de Twitter
Hay muchos conjuntos de datos de análisis de sentimientos de Twitter disponibles en Kaggle. Uno de los conjuntos de datos más populares se llama sentiment140, que contiene 1.6 millones de Tweets preprocesados. Este es un gran conjunto de datos para comenzar si es nuevo en el análisis de sentimientos.
Estos Tweets han sido anotados y la variable objetivo es el sentimiento. Los valores únicos en esta columna son 0 (negativo), 2 (neutral) y 4 (positivo).
Después de preprocesar estos Tweets y convertirlos en vectores, puede usar un modelo de clasificación para entrenarlos con su sentimiento asociado. Puede utilizar algoritmos como regresión logística, clasificador de árbol de decisión o clasificador XGBoost para esta tarea.
Otra alternativa es utilizar un modelo de aprendizaje profundo como LSTM para generar predicciones de sentimientos. Sin embargo, este es un enfoque un poco más desafiante y pertenece a la categoría de proyecto avanzado.
También puede utilizar este conjunto de datos etiquetado como base para futuras tareas de análisis de opiniones.
Si tienes Tweets que quieras recopilar y realizar análisis de opiniones, puedes usar un modelo que haya sido entrenado previamente en sentiment140 para hacer predicciones futuras.
Conjunto de datos: Conjunto de datos Kaggle Sentiment140
7. Predicción de la diabetes en los indios pima
El conjunto de datos de diabetes de los indios Pima se utiliza para predecir si un paciente tiene diabetes en función de las mediciones de diagnóstico.
Basado en variables como el IMC, la edad y la insulina, el modelo predecirá la diabetes en los pacientes. Este conjunto de datos tiene nueve variables: ocho variables independientes y una variable objetivo.
La variable de destino es 'diabetes', por lo que predecirá 1 para la presencia de diabetes o 0 para la ausencia de diabetes.
Este es un problema de clasificación para experimentar con modelos como regresión logística, clasificador de árbol de decisión o clasificador de bosque aleatorio.
Todas las variables independientes en este conjunto de datos son numéricas, por lo que este es un gran conjunto de datos para comenzar si tiene una experiencia mínima en ingeniería de características.
Este es un conjunto de datos de Kaggle abierto a principiantes. Hay muchos tutoriales en línea que lo guían a través de la codificación de la solución en Python y R. Estos tutoriales para notebook son una excelente manera de aprender y ensuciarse las manos para que pueda pasar a proyectos más complejos.
Conjunto de datos: Conjunto de datos de diabetes india de Kaggle Pima
8. Clasificación del cáncer de mama
El conjunto de datos de clasificación del cáncer de mama en Kaggle es otra forma excelente de practicar el aprendizaje automático y las habilidades de inteligencia artificial.
La mayoría de los problemas de aprendizaje automático supervisados en el mundo real son problemas de clasificación como este. Un desafío clave en la identificación del cáncer de mama es la incapacidad de distinguir entre tumores benignos (no cancerosos) y malignos (cancerosos). El conjunto de datos tiene variables como "radio_mean" y "area_mean" del tumor, y deberá clasificar según estas características si un tumor es canceroso o no. Es relativamente fácil trabajar con este conjunto de datos, ya que no es necesario realizar ningún preprocesamiento de datos significativo. También es un conjunto de datos bien equilibrado, lo que hace que su tarea sea más manejable ya que no necesita hacer mucha ingeniería de funciones.
El entrenamiento de un clasificador de regresión logística simple en este conjunto de datos puede brindarle una precisión de hasta 0.90.
Conjunto de datos: Conjunto de datos de clasificación de cáncer de mama de Kaggle
9. Predicción de taquilla de TMDB
Este conjunto de datos de Kaggle es una excelente manera de practicar sus habilidades de regresión. Consta de alrededor de 7000 películas y deberá utilizar las variables presentes para predecir los ingresos de la película.
Los puntos de datos presentes incluyen elenco, equipo, presupuesto, idiomas y fechas de lanzamiento. Hay 23 variables en el conjunto de datos, una de las cuales es la variable de destino.
Un modelo de regresión lineal básico puede darle un R-cuadrado de más de 0.60, por lo que puede utilizarlo como modelo de predicción de referencia. Intente superar esta puntuación utilizando técnicas como la regresión XGBoost o Light GBM.
Este conjunto de datos es un poco más complejo que el anterior, ya que algunas columnas tienen datos presentes en diccionarios anidados. Debe realizar un procesamiento previo adicional para extraer estos datos en un formato utilizable para entrenar un modelo en ellos.
La previsión de ingresos es un gran proyecto para exhibir en su cartera, ya que proporciona valor comercial a una variedad de dominios fuera de la industria cinematográfica.
Conjunto de datos: Conjunto de datos de predicción de taquilla de Kaggle TMDB
10. Segmentación de clientes en Python
El conjunto de datos de segmentación de clientes en Kaggle es una excelente manera de comenzar con el aprendizaje automático sin supervisión. Este conjunto de datos consta de detalles del cliente como su edad, sexo, ingresos anuales y puntaje de gastos.
Debe utilizar estas variables para crear segmentos de clientes. Los clientes que son similares deben agruparse en grupos similares. Puede utilizar algoritmos como agrupamiento de K-Means o agrupamiento jerárquico para esta tarea. Los modelos de segmentación de clientes pueden aportar valor empresarial.
Las empresas a menudo quieren segregar a sus clientes para idear diferentes técnicas de marketing para cada tipo de cliente.
Los principales objetivos de este conjunto de datos incluyen:
- Lograr la segmentación de clientes mediante técnicas de aprendizaje automático
- Identifique a sus clientes objetivo para diferentes estrategias de marketing.
- Comprender cómo funcionan las estrategias de marketing en el mundo real.
La creación de un modelo de agrupación en clústeres para esta tarea puede ayudar a que su cartera se destaque, y la segmentación es una gran habilidad que debe tener si está buscando obtener un trabajo relacionado con la inteligencia artificial en la industria del marketing.
Conjunto de datos: Conjunto de datos de segmentación de clientes de Kaggle Mall
Proyectos de aprendizaje automático de nivel intermedio / avanzado para su currículum
Una vez que haya terminado de trabajar en proyectos simples de aprendizaje automático como los enumerados anteriormente, puede pasar a proyectos más desafiantes.
1. Previsión de ventas
La previsión de series de tiempo es una técnica de aprendizaje automático que se utiliza con mucha frecuencia en la industria. El uso de datos pasados para predecir ventas futuras tiene una gran cantidad de casos de uso comercial. El conjunto de datos Kaggle Demand Forecasting se puede utilizar para practicar este proyecto.
Este conjunto de datos tiene 5 años de datos de ventas y deberá predecir las ventas para los próximos tres meses. Hay diez tiendas diferentes enumeradas en el conjunto de datos y hay 50 artículos en cada tienda.
Para predecir las ventas, puede probar varios métodos: ARIMA, Vector Autoregresión o aprendizaje profundo. Un método que puede utilizar para este proyecto es medir el aumento en las ventas de cada mes y registrarlo. Luego, construya el modelo sobre la diferencia entre las ventas del mes anterior y las del mes actual. Tener en cuenta factores como las vacaciones y la estacionalidad puede mejorar el rendimiento de su modelo de aprendizaje automático.
Conjunto de datos: Pronóstico de demanda de artículos de la tienda Kaggle
2. Chatbot de servicio al cliente
Un chatbot de servicio al cliente utiliza IA y técnicas de aprendizaje automático para responder a los clientes, asumiendo el papel de un representante humano. Un chatbot debería poder responder preguntas sencillas para satisfacer las necesidades del cliente.
Actualmente, existen tres tipos de chatbots que puede crear:
- Chatbots basados en reglas: estos chatbots no son inteligentes. Se les proporciona un conjunto de reglas predefinidas y solo responden a los usuarios en función de estas reglas. Algunos chatbots también cuentan con un conjunto predefinido de preguntas y respuestas y no pueden responder consultas que quedan fuera de este dominio.
- Chatbots independientes: los chatbots independientes utilizan el aprendizaje automático para procesar y analizar la solicitud de un usuario y proporcionar respuestas en consecuencia.
- Chatbots de PNL: estos chatbots pueden comprender patrones en palabras y distinguir entre diferentes combinaciones de palabras. Son los más avanzados de los tres tipos de chatbots, ya que pueden pensar en qué decir a continuación en función de los patrones de palabras en los que fueron entrenados.
Un chatbot de PNL es una idea interesante para un proyecto de aprendizaje automático. Necesitará un corpus de palabras existente para entrenar su modelo, y puede encontrar fácilmente bibliotecas de Python para hacer esto. También puede tener un diccionario predefinido con una lista de pares de preguntas y respuestas que le gustaría entrenar su modelo.
3. Sistema de detección de objetos de vida silvestre
Si vive en un área con frecuentes avistamientos de animales salvajes, es útil implementar un sistema de detección de objetos para identificar su presencia en su área. Siga estos pasos para construir un sistema como este:
- Instale cámaras en el área que desea monitorear.
- Descargue todas las secuencias de video y guárdelas.
- Cree una aplicación Python para analizar imágenes entrantes e identificar animales salvajes.
Microsoft ha creado una API de reconocimiento de imágenes utilizando datos recopilados de cámaras de vida silvestre. Lanzaron un modelo pre-entrenado de código abierto para este propósito llamado MegaDetector.
Puede utilizar este modelo previamente entrenado en su aplicación Python para identificar animales salvajes a partir de las imágenes recopiladas. Es uno de los proyectos de aprendizaje automático más emocionantes mencionados hasta ahora y es bastante simple de implementar debido a la disponibilidad de un modelo previamente entrenado para este propósito.
API: megadetector
4. Sistema de recomendación de música de Spotify
Spotify usa IA para recomendar música a sus usuarios. Puede intentar crear un sistema de recomendación basado en datos disponibles públicamente en Spotify.
Spotify tiene una API que puede usar para recuperar datos de audio; puede encontrar características como el año de lanzamiento, la clave, la popularidad y el artista. Para acceder a esta API en Python, puede usar una biblioteca llamada Spotipy.
También puede usar el conjunto de datos de Spotify en Kaggle que tiene alrededor de 600K filas. Con estos conjuntos de datos, puede sugerir la mejor alternativa al músico favorito de cada usuario. También puede proponer recomendaciones de canciones basadas en el contenido y el género preferido por cada usuario.
Este sistema de recomendación se puede construir utilizando agrupación de K-Means; se agruparán puntos de datos similares. Puede recomendar canciones con una distancia mínima dentro del clúster entre ellas al usuario final.
Una vez que haya creado el sistema de recomendación, también puede convertirlo en una aplicación Python simple e implementarla. Puede hacer que los usuarios ingresen sus canciones favoritas en Spotify y luego mostrar las recomendaciones de su modelo en la pantalla que tienen la mayor similitud con las canciones que disfrutaron.
Conjunto de datos: Conjunto de datos de Kaggle Spotify
5. Análisis de la canasta de mercado
El análisis de la cesta de mercado es una técnica popular utilizada por los minoristas para identificar artículos que se pueden vender juntos.
Por ejemplo:
Hace un par de años, un analista de investigación identificó una correlación entre las ventas de cerveza y pañales. La mayoría de las veces, cada vez que un cliente entraba a la tienda a comprar una cerveza, también compraban pañales juntos.
Debido a esto, las tiendas comenzaron a vender cerveza y pañales juntos en el mismo pasillo como estrategia de marketing para aumentar las ventas. Y funcionó.
Se asumió que la cerveza y los pañales tenían una alta correlación, ya que los hombres los compraban juntos con frecuencia. Los hombres entraban a la tienda para comprar una cerveza, junto con varios otros artículos para el hogar para su familia (incluidos los pañales). Esto parece una correlación bastante imposible, pero sucedió.
Market Basket Analysis puede ayudar a las empresas a identificar correlaciones ocultas entre artículos que se compran juntos con frecuencia. Estas tiendas pueden colocar sus artículos de una manera que les permita a las personas encontrarlos más fácilmente.
Puede utilizar el conjunto de datos Market Basket Optimization en Kaggle para crear y entrenar su modelo. El algoritmo más utilizado para realizar el análisis de la cesta de mercado es el algoritmo Apriori.
Conjunto de datos: Conjunto de datos de optimización de la cesta de mercado de Kaggle
6. Duración del viaje en taxi a Nueva York
El conjunto de datos tiene variables que incluyen las coordenadas de inicio y finalización de un viaje en taxi, la hora y la cantidad de pasajeros. El objetivo de este proyecto ML es predecir la duración del viaje con todas estas variables. Es un problema de regresión.
Las variables como el tiempo y las coordenadas deben procesarse previamente de manera adecuada y convertirse a un formato comprensible. Este proyecto no es tan sencillo como parece. Este conjunto de datos también tiene algunos valores atípicos que hacen que la predicción sea más compleja, por lo que deberá manejar esto con técnicas de ingeniería de características.
El criterio de evaluación para esta competencia de Kaggle de viaje en taxi de la ciudad de Nueva York es RMSLE o el error de registro cuadrático medio de raíz. La presentación superior en Kaggle recibió una puntuación RMSLE de 0.29, y el modelo de referencia de Kaggle tiene un RMSLE de 0.89.
Puede utilizar cualquier algoritmo de regresión para resolver este proyecto de Kaggle, pero los competidores de mayor rendimiento de este desafío han utilizado modelos de aumento de gradiente o técnicas de aprendizaje profundo.
Conjunto de datos: Conjunto de datos de duración del viaje en taxi de Kaggle NYC
7. Detección de spam en tiempo real
En este proyecto, puede utilizar técnicas de aprendizaje automático para distinguir entre mensajes de spam (ilegítimos) y mensajes de jamón (legítimos).
Para lograrlo, puede utilizar el conjunto de datos de recopilación de correo no deseado por SMS de Kaggle. Este conjunto de datos contiene un conjunto de aproximadamente 5K mensajes que han sido etiquetados como spam o ham.
Puede seguir los siguientes pasos para crear un sistema de detección de spam en tiempo real:
- Utilice el conjunto de datos de recopilación de correo no deseado por SMS de Kaggle para entrenar un modelo de aprendizaje automático.
- Cree un servidor de sala de chat simple en Python.
- Implemente el modelo de aprendizaje automático en su servidor de sala de chat y asegúrese de que todo el tráfico entrante pase por el modelo.
- Solo permita que los mensajes pasen si están clasificados como radioaficionados. Si son spam, devuelva un mensaje de error en su lugar.
Para construir el modelo de aprendizaje automático, primero debe preprocesar los mensajes de texto presentes en el conjunto de datos de la colección de spam de SMS de Kaggle. Luego, convierta estos mensajes en una bolsa de palabras para que puedan pasarse fácilmente a su modelo de clasificación para la predicción.
Conjunto de datos: Conjunto de datos de recopilación de spam de SMS de Kaggle
8. Aplicación de predicción de personalidad Myers-Briggs
Puede crear una aplicación para predecir el tipo de personalidad de un usuario en función de lo que dice.
El indicador de tipo Myers-Briggs clasifica a las personas en 16 tipos de personalidad diferentes. Es una de las pruebas de personalidad más populares del mundo.
Si intenta encontrar su tipo de personalidad en Internet, encontrará muchos cuestionarios en línea. Después de responder entre 20 y 30 preguntas, se le asignará un tipo de personalidad.
Sin embargo, en este proyecto, puede utilizar el aprendizaje automático para predecir el tipo de personalidad de cualquier persona con solo una oración.
Estos son los pasos que puede seguir para lograrlo:
- Cree un modelo de clasificación de clases múltiples y entrénelo en el conjunto de datos de Myers-Briggs en Kaggle. Esto implica preprocesamiento de datos (eliminación de palabras vacías y caracteres innecesarios) y algunas funciones de ingeniería. Puede utilizar un modelo de aprendizaje superficial como la regresión logística o un modelo de aprendizaje profundo como un LSTM para este propósito.
- Puede crear una aplicación que permita a los usuarios ingresar cualquier oración de su elección.
- Guarde los pesos del modelo de aprendizaje automático e integre el modelo con su aplicación. Después de que el usuario final ingrese una palabra, muestre su tipo de personalidad en la pantalla después de que el modelo haga una predicción.
Conjunto de datos: Conjunto de datos de tipo MBTI de Kaggle
9. Sistema de reconocimiento del estado de ánimo + Sistema de recomendación
¿Alguna vez has estado triste y has sentido que necesitas ver algo divertido para animarte? ¿O alguna vez se sintió tan frustrado que necesitaba relajarse y ver algo relajante?
Este proyecto es una combinación de dos proyectos más pequeños.
Puede crear una aplicación que reconozca el estado de ánimo de un usuario en función de imágenes web en vivo y una sugerencia de película basada en la expresión del usuario.
Para construir esto, puede seguir los siguientes pasos:
- Cree una aplicación que pueda recibir una transmisión de video en vivo.
- Utilice la API de reconocimiento facial de Python para detectar rostros y emociones en objetos en la transmisión de video.
- Después de clasificar estas emociones en varias categorías, comience a construir el sistema de recomendación. Este puede ser un conjunto de valores codificados para cada emoción, lo que significa que no necesita involucrar el aprendizaje automático para las recomendaciones.
- Una vez que haya terminado de crear la aplicación, puede implementarla en Heroku, Dash o un servidor web.
API: API de reconocimiento facial
10. Análisis del sentimiento de comentarios de YouTube
En este proyecto, puede crear un panel que analice el sentimiento general de los YouTubers populares.
Más de 2 millones de usuarios ven videos de YouTube al menos una vez al mes. Los YouTubers populares obtienen cientos de miles de millones de visitas con su contenido. Sin embargo, muchos de estos influencers han sido objeto de críticas debido a controversias en el pasado, y la percepción pública cambia constantemente.
Puede crear un modelo de análisis de sentimientos y crear un panel para visualizar los sentimientos en torno a las celebridades a lo largo del tiempo.
Para construir esto, puede seguir los siguientes pasos:
- Raspe los comentarios de los videos de los YouTubers que desea analizar.
- Utilice un modelo de análisis de sentimientos previamente entrenado para hacer predicciones sobre cada comentario.
- Visualice las predicciones del modelo en un tablero. Incluso puede crear una aplicación de panel utilizando bibliotecas como Dash (Python) o Shiny (R).
- Puede hacer que el panel sea interactivo permitiendo a los usuarios filtrar opiniones por período de tiempo, nombre de YouTuber y género de video.
API: Raspador de comentarios de YouTube
Resumen
La industria del aprendizaje automático es grande y está llena de oportunidades. Si desea ingresar a la industria sin antecedentes educativos formales, la mejor manera de demostrar que tiene las habilidades necesarias para hacer el trabajo es a través de proyectos.
El aspecto de aprendizaje automático de la mayoría de los proyectos enumerados anteriormente es bastante simple. Debido a la democratización del aprendizaje automático, el proceso de creación de modelos se puede lograr fácilmente a través de API y modelos previamente entrenados.
Los proyectos de inteligencia artificial de código abierto como Keras y FastAI también han ayudado a acelerar el proceso de construcción de modelos. La parte complicada de este aprendizaje automático y proyectos de ciencia de datos es la recopilación, el procesamiento previo y la implementación de datos. Si consigue un trabajo en aprendizaje automático, la mayoría de los algoritmos serán bastante simples de construir. Solo tomará uno o dos días crear un modelo de predicción de ventas. Pasará la mayor parte de su tiempo buscando fuentes de datos adecuadas y poniendo sus modelos en producción para obtener valor comercial.
Original. Publicado de nuevo con permiso.
Relacionado:
Fuente: https://www.kdnuggets.com/2021/09/20-machine-learning-projects-hired.html
- "
- &
- 000
- 2021
- 9
- de la máquina
- Mi Cuenta
- Adicionales
- AI
- Alcohol
- algoritmo
- algoritmos
- Todos
- Permitir
- análisis
- analista
- animales
- abejas
- API
- applicación
- Aplicación
- aplicaciones
- Reservada
- en torno a
- inteligencia artificial
- artista
- audio
- Confirmación de Viaje
- disponibilidad
- Bolsa de palabras
- Base
- conceptos básicos
- cerveza
- MEJOR
- mil millones
- sangre
- impulsar
- Box
- taquilla
- Cáncer de mama
- build
- Construir la
- negocios
- comprar
- cámaras
- Cáncer
- cases
- celebrities
- Reto
- chatterbot
- Chatbots
- clasificación
- CNN
- Codificación
- Columna
- comentarios
- Empresas
- competencia
- competidores
- consolidación
- contenido
- red neuronal convolucional
- Parejas
- Servicio al Cliente
- Clientes
- Dash
- página de información de sus operaciones
- datos
- Ciencia de los datos
- Fechas
- día
- acuerdo
- árbol de decisión
- deep learning
- Demanda
- Previsión de la demanda
- Detección
- Control de Diabetes
- HIZO
- Dígito
- dígitos
- Enfermedades
- distancia
- dominios
- educativo
- emociones
- Ingeniería
- Entra en
- Excel
- experience
- experimento
- Cara
- Reconocimiento facial
- caras
- familia
- Feature
- Caracteristicas
- Fed
- Film
- Incendió
- Nombre
- cómodo
- seguir
- formato
- ser completados
- gracioso
- futuras
- Género
- Goals
- candidato
- Escala de grises
- maravillosa
- la salud
- industria de la salud
- Alta
- alquiler
- días festivos
- Hogar
- casa
- Cómo
- HTTPS
- Cientos
- idea
- Identificación
- Identifique
- imagen
- Reconocimiento de imagen
- Incluye
- por
- aumente
- industrias
- energético
- ,
- información
- Intelligence
- interactivo
- Internet
- IT
- Trabajos
- Empleo
- keras
- Clave
- Idiomas
- large
- APRENDE:
- aprendido
- aprendizaje
- Nivel
- Biblioteca
- luz
- LINK
- Etiqueta LinkedIn
- Lista
- carga
- Largo
- máquina de aprendizaje
- Técnicas de aprendizaje automático
- Mayoría
- Realizar
- Mercado
- Marketing
- Industria de marketing
- medir
- mediano
- Hombre
- Microsoft
- millones
- ML
- modelo
- meses
- humor
- Más popular
- movimiento
- película
- Películas
- Música
- Música
- del sistema,
- Neural
- red neural
- noticias
- nlp
- Nueva York
- Detección de objetos
- LANZAMIENTO
- en línea
- curso en línea
- habiertos
- Del Mañana
- Otro
- paradigma
- los pacientes
- Personas
- actuación
- Personalidad
- Popular
- portafolio
- predicción
- Predicciones
- presente
- presión
- precio
- Predicción de precios
- cotización
- Producción
- productividad
- profesionales
- Programa
- proyecto
- proyecta
- público
- Python
- calidad
- mundo real
- en tiempo real
- regresión
- la investigación
- Resultados
- los minoristas
- ingresos
- Riesgo
- factores de riesgo
- reglas
- ventas
- Ciencia:
- los científicos
- Pantalla
- sentimiento
- set
- Turno
- sencillos
- habilidades
- SMS
- So
- vendido
- RESOLVER
- correo no deseado (spam)
- velocidad
- pasar
- Gastos
- Spotify
- comienzo
- fundó
- tienda
- tiendas
- Nuestras Historias
- Estrategia
- te
- Target
- Pruebas
- pruebas
- Lo esencial
- el mundo
- equipo
- parte superior
- tráfico
- Formación
- Tutoriales
- usuarios
- utilidades
- propuesta de
- Video
- Videos
- Ver ahora
- web
- servidor web
- QUIENES
- FAUNA
- VINO
- dentro de
- palabras
- Actividades:
- flujo de trabajo
- Empleados
- mundo
- X
- año
- años
- Youtube
- YouTuber