Republicado por Platão

seguidores: 0

20 projetos de aprendizado de máquina que farão você ser contratado

Tags: Oportunidades, Machine Learning, Projeto

Se você deseja entrar no mercado de trabalho de aprendizado de máquina e ciência de dados, precisará demonstrar a proficiência de suas habilidades, especialmente se for autodidata por meio de cursos on-line e bootcamps. Um portfólio de projetos é uma ótima maneira de praticar seu novo ofício e oferecer evidências convincentes de que um funcionário deveria contratá-lo em vez da concorrência.

comentários

By Khushbu Xá, gerente de conteúdo da ProjectPro.

A indústria de IA e aprendizado de máquina está crescendo como nunca antes. A partir de 2021, o aumento no uso de IA nas empresas criará US$ 2.9 trilhões em valor comercial. A IA automatizou muitos setores em todo o mundo e mudou a forma como operam. A maioria das grandes empresas incorpora IA para maximizar a produtividade no seu fluxo de trabalho, e setores como marketing e saúde passaram por uma mudança de paradigma devido à consolidação da IA.

Fonte da imagem: Unsplash

Devido a isso, tem havido uma demanda crescente nos últimos anos por profissionais de IA. Houve um aumento de quase 100% nas ofertas de emprego relacionadas com IA e aprendizagem automática de 2015 a 2018. Este número cresceu desde então e prevê-se que aumente em 2021.

Se você deseja entrar no setor de aprendizado de máquina, a boa notícia é que não faltam empregos disponíveis. As empresas precisam de uma força de trabalho talentosa que seja capaz de ser pioneira na mudança para o aprendizado de máquina. No entanto, o mercado de trabalho está infiltrado por pessoas que querem entrar na indústria de dados. Como nenhum programa de graduação específico atende a alunos que desejam aprender aprendizado de máquina, muitos aspirantes a praticantes de ML são autodidatas.

Existem mais de 4 milhões de alunos matriculados no curso online de aprendizado de máquina de Andrew Ng.

Infelizmente, inscrever-se em cursos online ou fazer um Bootcamp de aprendizado de máquina ajuda você a aprender os conceitos teóricos, mas não o prepara para um trabalho na indústria. Há muito mais trabalho prático a ser feito, depois de aprender a teoria. Digamos que você conheça os fundamentos dos algoritmos de aprendizado de máquina – você entende como funcionam os modelos de regressão e classificação e conhece os diferentes tipos de métodos de cluster.

Como você vai praticar as habilidades que aprendeu para resolver um problema da vida real? A resposta simples é: Pratique, pratique e pratique diversos projetos de aprendizado de máquina.

Depois de aprender os conceitos teóricos, você deve começar a trabalhar em projetos de IA e aprendizado de máquina. Esses projetos darão a você a prática necessária para aprimorar suas habilidades na área e, ao mesmo tempo, serão um grande valor agregado ao seu portfólio de aprendizado de máquina.

Sem muita demora, vamos explorar algumas ideias de projetos de ML que não apenas farão seu portfólio parecer bom, mas também melhorarão significativamente suas habilidades de aprendizado de máquina. Esta é uma lista com curadoria de alguns dos melhores projetos de aprendizado de máquina para estudantes, aspirantes a profissionais de aprendizado de máquina e indivíduos de domínios não técnicos. Você pode trabalhar nesses projetos independentemente de sua experiência, desde que tenha alguma codificação e conhecimento de habilidades de aprendizado de máquina. Esta é uma lista de projetos de aprendizado de máquina de nível iniciante e avançado.

Se você é novo no setor de dados e tem pouca experiência com projetos da vida real, comece com projetos de ML de nível iniciante antes de passar para os mais desafiadores.

Projetos de aprendizado de máquina para iniciantes

1. Previsão do Kaggle Titanic

O primeiro projeto desta lista é um dos projetos de ML mais simples que você pode realizar. Este projeto é recomendado para iniciantes na indústria de dados. O conjunto de dados do Titanic está disponível no Kaggle, e o link para baixá-lo é fornecido abaixo.

Este conjunto de dados é de passageiros que viajaram no Titanic. Contém detalhes como idade do passageiro, tarifa da passagem, cabine e sexo. Com base nessas informações, será necessário prever se esses passageiros sobreviveram ou não.

É um problema simples de classificação binária, e tudo o que você precisa fazer é prever se um determinado passageiro sobreviveu. A melhor coisa sobre esse conjunto de dados é que todo o pré-processamento é feito para você. Você tem um conjunto de dados bonito e limpo para treinar seu modelo de aprendizado de máquina.

Como este é um problema de classificação, você pode optar por usar algoritmos como regressão logística, árvores de decisão e florestas aleatórias para construir o modelo preditivo. Você também pode escolher modelos de aumento de gradiente, como um classificador XGBoost para este projeto de aprendizado de máquina de nível iniciante para obter melhores resultados.

Conjunto de dados: Conjunto de dados do Kaggle Titanic

2. Previsão do preço da habitação

Os dados de preços de casas também são ótimos para começar se você for iniciante em aprendizado de máquina. Este projeto usará o conjunto de dados de preços de casas disponível no Kaggle. A variável alvo neste conjunto de dados é o preço de uma casa específica, que você precisará prever usando informações como área da casa, número de quartos, número de banheiros e serviços públicos.

É um problema de regressão e você pode usar técnicas como regressão linear para construir o modelo. Você também pode adotar uma abordagem mais avançada e usar um regressor florestal aleatório ou aumento de gradiente para prever os preços das casas.

Este conjunto de dados possui 80 colunas, excluindo a variável de destino. Você precisará empregar algumas técnicas de redução de dimensionalidade para escolher recursos, pois adicionar muitas variáveis pode fazer com que seu modelo tenha um desempenho ruim.

Existem também muitas variáveis categóricas no conjunto de dados, então você precisa lidar adequadamente com elas usando técnicas como codificação one-hot ou codificação de rótulo.

Depois de construir seu modelo, você pode enviar suas previsões para a competição de preços de imóveis no Kaggle, pois ela ainda está aberta. O melhor RMSE alcançado pelos concorrentes é 0, e muitas pessoas alcançaram bons resultados como 0.15 com a ajuda de técnicas de regressão e aumento de gradiente.

Conjunto de dados: Conjunto de dados de previsão de preços de casas Kaggle

3. Previsão da qualidade do vinho

O conjunto de dados de previsão da qualidade do vinho também é muito popular entre os iniciantes na indústria de dados. Neste projeto, você usará acidez fixa, acidez volátil, álcool e densidade para prever a qualidade do vinho tinto.

Isso pode ser tratado como um problema de classificação ou de regressão. O qualidade do vinho variável que você precisa prever nos intervalos do conjunto de dados de 0 a 10, para que possa construir um modelo de regressão para prever. Outra abordagem que você pode adotar é dividir os valores (de 0 a 10) em intervalos discretos e convertê-los em variáveis categóricas. Você pode criar três categorias, por exemplo — médio baixo, e Alto.

Você pode então construir um classificador de árvore de decisão ou qualquer modelo de classificação para fazer a previsão. É um conjunto de dados relativamente limpo e direto para praticar suas habilidades de aprendizado de máquina de regressão e classificação.

Conjunto de dados: Conjunto de dados de qualidade do vinho tinto Kaggle

4. Previsão de doenças cardíacas

Se você deseja explorar um conjunto de dados no setor de saúde, este é um ótimo conjunto de dados para iniciantes. Este conjunto de dados é usado para prever o risco de doença coronariana em 10 anos. As variáveis dependentes neste conjunto de dados são os fatores de risco de doenças cardíacas, incluindo diabetes, tabagismo, pressão alta e níveis elevados de colesterol.

A variável independente é o risco de doença coronariana em 10 anos. É um problema de classificação binária, e a variável alvo é 0 ou 1–0 para os pacientes que nunca desenvolveram doença cardíaca e 1 para os pacientes que desenvolveram. Você pode realizar algumas seleções de recursos neste conjunto de dados para identificar os recursos que mais contribuem para o risco cardíaco. Então, você pode ajustar um modelo de classificação às variáveis independentes.

Este conjunto de dados é altamente desequilibrado porque muitos dos pacientes neste conjunto de dados não não desenvolver doenças cardíacas. Um conjunto de dados desequilibrado precisa ser tratado usando as técnicas corretas de engenharia de recursos, como sobreamostragem, ajuste de peso ou subamostragem. Se não for tratado adequadamente, você acabará com um modelo que simplesmente prevê a classe majoritária para cada ponto de dados e não consegue identificar pacientes que fez desenvolver doenças cardíacas. Este é um excelente conjunto de dados para você praticar suas habilidades de engenharia de recursos e aprendizado de máquina.

Conjunto de dados: Conjunto de dados de doenças cardíacas Kaggle

5. Classificação de dígitos MNIST

A MNIST conjunto de dados é o seu trampolim no campo do aprendizado profundo. Este conjunto de dados consiste em imagens em escala de cinza de dígitos manuscritos de 0 a 9. Sua tarefa seria identificar o dígito usando um algoritmo de aprendizado profundo. Este é um problema de classificação multiclasse com dez classes de saída possíveis. Você pode usar uma CNN (Rede Neural Convolucional) para realizar esta classificação.

O conjunto de dados MNIST é construído na biblioteca Keras em Python. Tudo que você precisa fazer é instalar o Keras, importar a biblioteca e carregar o conjunto de dados. Este conjunto de dados possui cerca de 60,000 imagens para que você possa usar cerca de 80% dessas imagens para treinamento e outros 20% para teste.

Conjunto de dados: Conjunto de dados do reconhecedor de dígitos Kaggle

6. Análise de sentimento de dados do Twitter

Existem muitos conjuntos de dados de análise de sentimento do Twitter disponíveis no Kaggle. Um dos conjuntos de dados mais populares é chamado sentiment140, que contém 1.6 milhão de tweets pré-processados. Este é um ótimo conjunto de dados para começar se você for novo na análise de sentimentos.

Esses Tweets foram anotados e a variável alvo é o sentimento. Os valores exclusivos nesta coluna são 0 (negativo), 2 (neutro) e 4 (positivo).

Depois de pré-processar esses Tweets e convertê-los em vetores, você pode usar um modelo de classificação para treiná-los com o sentimento associado. Você pode usar algoritmos como regressão logística, classificador de árvore de decisão ou classificador XGBoost para esta tarefa.

Outra alternativa é usar um modelo de aprendizagem profunda como o LSTM para criar uma previsão de sentimento. No entanto, esta é uma abordagem um pouco mais desafiadora e se enquadra na categoria de projeto avançado.

Você também pode usar esse conjunto de dados rotulado como base para futuras tarefas de análise de sentimento.

Se você tiver algum Tweet que deseja coletar e realizar análise de sentimento, poderá usar um modelo que foi previamente treinado no sentimento140 para fazer previsões futuras.

Conjunto de dados: Conjunto de dados Kaggle Sentiment140

7. Previsão de diabetes indiano Pima

O Pima Indian Diabetes Dataset é usado para prever se um paciente tem diabetes com base em medidas de diagnóstico.

Com base em variáveis como IMC, idade e insulina, o modelo irá prever diabetes em pacientes. Este conjunto de dados possui nove variáveis – oito variáveis independentes e uma variável de destino.

A variável de destino é ‘diabetes', então você preverá 1 para a presença de diabetes ou 0 para a ausência de diabetes.

Este é um problema de classificação para experimentar modelos como regressão logística, classificador de árvore de decisão ou classificador de floresta aleatório.

Todas as variáveis independentes neste conjunto de dados são numéricas, portanto, este é um ótimo conjunto de dados para começar se você tiver experiência mínima em engenharia de recursos.

Este é um conjunto de dados Kaggle aberto a iniciantes. Existem muitos tutoriais on-line que orientam você na codificação da solução em Python e R. Esses tutoriais de notebook são uma ótima maneira de aprender e colocar a mão na massa para poder avançar para projetos mais complexos.

Conjunto de dados: Conjunto de dados de diabetes indiano Kaggle Pima

8. Classificação do Câncer de Mama

O conjunto de dados de classificação do câncer de mama no Kaggle é outra excelente maneira de praticar seu aprendizado de máquina e habilidades de IA.

A maioria dos problemas de aprendizado de máquina supervisionado no mundo real são problemas de classificação como este. Um desafio chave na identificação do cancro da mama é a incapacidade de distinguir entre tumores benignos (não cancerosos) e malignos (cancerosos). O conjunto de dados possui variáveis como “radius_mean” e “area_mean” do tumor, e você precisará classificar com base nessas características se um tumor é canceroso ou não. Este conjunto de dados é relativamente fácil de trabalhar, pois não há necessidade de nenhum pré-processamento significativo de dados. É também um conjunto de dados bem balanceado, tornando sua tarefa mais gerenciável, pois você não precisa fazer muita engenharia de recursos.

Treinar um classificador de regressão logística simples neste conjunto de dados pode fornecer uma precisão de até 0.90.

Conjunto de dados: Conjunto de dados de classificação de câncer de mama Kaggle

9. Previsão de bilheteria do TMDB

Este conjunto de dados Kaggle é uma ótima maneira de praticar suas habilidades de regressão. Consiste em cerca de 7000 filmes, e você precisará usar as variáveis presentes para prever a receita do filme.

Os dados presentes incluem elenco, equipe, orçamento, idiomas e datas de lançamento. Existem 23 variáveis no conjunto de dados, uma das quais é a variável de destino.

Um modelo de regressão linear básico pode fornecer um R-quadrado superior a 0.60, então você pode usá-lo como seu modelo de previsão de linha de base. Tente superar essa pontuação usando técnicas como regressão XGBoost ou Light GBM.

Este conjunto de dados é um pouco mais complexo que o anterior, pois algumas colunas possuem dados presentes em dicionários aninhados. Você precisa fazer algum pré-processamento adicional para extrair esses dados em um formato utilizável para treinar um modelo neles.

A previsão de receitas é um ótimo projeto para apresentar em seu portfólio, pois fornece valor comercial para uma variedade de domínios fora da indústria cinematográfica.

Conjunto de dados: Conjunto de dados de previsão de bilheteria Kaggle TMDB

10. Segmentação de clientes em Python

O conjunto de dados de segmentação de clientes no Kaggle é uma ótima maneira de começar com o aprendizado de máquina não supervisionado. Este conjunto de dados consiste em detalhes do cliente, como idade, sexo, renda anual e pontuação de gastos.

Você precisa usar essas variáveis para construir segmentos de clientes. Os clientes semelhantes devem ser agrupados em grupos semelhantes. Você pode usar algoritmos como clustering K-Means ou cluster hierárquico para esta tarefa. Os modelos de segmentação de clientes podem agregar valor ao negócio.

Muitas vezes, as empresas desejam segregar seus clientes para criar diferentes técnicas de marketing para cada tipo de cliente.

Os principais objetivos deste conjunto de dados incluem:

Alcançando a segmentação de clientes usando técnicas de aprendizado de máquina
Identifique seus clientes-alvo para diferentes estratégias de marketing
Entenda como as estratégias de marketing funcionam no mundo real

Construir um modelo de cluster para esta tarefa pode ajudar seu portfólio a se destacar, e a segmentação é uma ótima habilidade se você deseja conseguir um emprego relacionado à IA no setor de marketing.

Conjunto de dados: Conjunto de dados de segmentação de clientes do Kaggle Mall

Projetos de aprendizado de máquina de nível intermediário/avançado para seu currículo

Depois de terminar de trabalhar em projetos simples de aprendizado de máquina como os listados acima, você poderá passar para projetos mais desafiadores.

1. Previsão de vendas

A previsão de séries temporais é uma técnica de aprendizado de máquina usada com frequência na indústria. O uso de dados passados para prever vendas futuras possui um grande número de casos de uso de negócios. O conjunto de dados Kaggle Demand Forecasting pode ser usado para praticar este projeto.

Este conjunto de dados contém dados de vendas de 5 anos e você precisará prever as vendas para os próximos três meses. Existem dez lojas diferentes listadas no conjunto de dados e 50 itens em cada loja.

Para prever vendas, você pode experimentar vários métodos – ARIMA, Vector Autoregression ou deep learning. Um método que você pode usar para este projeto é medir o aumento nas vendas de cada mês e registrá-lo. Em seguida, construa o modelo com base na diferença entre as vendas do mês anterior e as do mês atual. Levar em consideração fatores como feriados e sazonalidade pode melhorar o desempenho do seu modelo de aprendizado de máquina.

Conjunto de dados: Previsão de demanda de itens da loja Kaggle

2. Chatbot de atendimento ao cliente

Um chatbot de atendimento ao cliente usa técnicas de IA e aprendizado de máquina para responder aos clientes, assumindo o papel de um representante humano. Um chatbot deve ser capaz de responder perguntas simples para satisfazer as necessidades do cliente.

Atualmente existem três tipos de chatbots que você pode construir:

Chatbots baseados em regras – Esses chatbots não são inteligentes. Eles recebem um conjunto de regras predefinidas e só respondem aos usuários com base nessas regras. Alguns chatbots também recebem um conjunto predefinido de perguntas e respostas e não podem responder a perguntas que estejam fora deste domínio.
Chatbots independentes – Os chatbots independentes utilizam aprendizado de máquina para processar e analisar a solicitação de um usuário e fornecer as respostas adequadas.
Chatbots de PNL – Esses chatbots podem compreender padrões em palavras e distinguir entre diferentes combinações de palavras. Eles são os mais avançados dos três tipos de chatbot, pois podem pensar no que dizer a seguir com base nos padrões de palavras nos quais foram treinados.

Um chatbot de PNL é uma ideia interessante de projeto de aprendizado de máquina. Você precisará de um corpus de palavras existente para treinar seu modelo e poderá encontrar facilmente bibliotecas Python para fazer isso. Você também pode ter um dicionário predefinido com uma lista de pares de perguntas e respostas que gostaria de treinar seu modelo.

3. Sistema de detecção de objetos de vida selvagem

Se você mora em uma área com avistamentos frequentes de animais selvagens, é útil implementar um sistema de detecção de objetos para identificar sua presença em sua área. Siga estas etapas para construir um sistema como este:

Instale câmeras na área que deseja monitorar.
Baixe todas as imagens de vídeo e salve-as.
Crie um aplicativo Python para analisar imagens recebidas e identificar animais selvagens.

A Microsoft construiu uma API de reconhecimento de imagem usando dados coletados de câmeras de vida selvagem. Eles lançaram um modelo pré-treinado de código aberto para essa finalidade, chamado MegaDetector.

Você pode usar este modelo pré-treinado em seu aplicativo Python para identificar animais selvagens a partir das imagens coletadas. É um dos projetos de ML mais interessantes mencionados até agora e é bastante simples de implementar devido à disponibilidade de um modelo pré-treinado para essa finalidade.

API: Megadetector

4. Sistema de recomendação de música Spotify

O Spotify usa IA para recomendar músicas aos seus usuários. Você pode tentar construir um sistema de recomendação baseado em dados disponíveis publicamente no Spotify.

O Spotify tem uma API que você pode usar para recuperar dados de áudio – você pode encontrar recursos como ano de lançamento, chave, popularidade e artista. Para acessar esta API em Python, você pode usar uma biblioteca chamada Spotipy.

Você também pode usar o conjunto de dados Spotify no Kaggle que possui cerca de 600 mil linhas. Usando esses conjuntos de dados, você pode sugerir a melhor alternativa para o músico favorito de cada usuário. Você também pode fazer recomendações de músicas com base no conteúdo e gênero preferido de cada usuário.

Este sistema de recomendação pode ser construído usando clustering K-Means – pontos de dados semelhantes serão agrupados. Você pode recomendar músicas com uma distância mínima dentro do cluster para o usuário final.

Depois de construir o sistema de recomendação, você também pode transformá-lo em um aplicativo Python simples e implantá-lo. Você pode fazer com que os usuários insiram suas músicas favoritas no Spotify e, em seguida, exibam na tela suas recomendações de modelos que tenham a maior semelhança com as músicas que eles gostaram.

Conjunto de dados: Conjunto de dados Kaggle Spotify

5. Análise da cesta de mercado

A análise da cesta de compras é uma técnica popular usada pelos varejistas para identificar itens que podem ser vendidos juntos.

Por exemplo:

Há alguns anos, um analista de pesquisa identificou uma correlação entre as vendas de cerveja e fraldas. Na maioria das vezes, sempre que um cliente entrava na loja para comprar uma cerveja, eles também compravam fraldas juntos.

Por conta disso, as lojas passaram a vender cerveja e fraldas juntas no mesmo corredor como estratégia de marketing para aumentar as vendas. E funcionou.

Supunha-se que cerveja e fraldas tinham uma alta correlação, já que os homens frequentemente as compravam juntos. Os homens entravam na loja para comprar uma cerveja, junto com vários outros utensílios domésticos para a família (incluindo fraldas). Parece uma correlação bastante impossível, mas aconteceu.

A análise da cesta de compras pode ajudar as empresas a identificar correlações ocultas entre itens que são frequentemente comprados juntos. Essas lojas podem então posicionar seus itens de uma forma que permita que as pessoas os encontrem com mais facilidade.

Você pode usar o conjunto de dados Market Basket Optimization no Kaggle para construir e treinar seu modelo. O algoritmo mais comumente usado para realizar a análise da cesta de compras é o algoritmo Apriori.

Conjunto de dados: Conjunto de dados de otimização da cesta de mercado Kaggle

6. Duração da viagem de táxi em Nova York

O conjunto de dados possui variáveis que incluem coordenadas de início e fim de uma viagem de táxi, horário e número de passageiros. O objetivo deste projeto de ML é prever a duração da viagem com todas essas variáveis. É um problema de regressão.

Variáveis como tempo e coordenadas precisam ser pré-processadas de forma adequada e convertidas em um formato compreensível. Este projeto não é tão simples quanto parece. Este conjunto de dados também possui alguns valores discrepantes que tornam a previsão mais complexa, portanto, você precisará lidar com isso com técnicas de engenharia de recursos.

Os critérios de avaliação para esta competição Kaggle de viagem de táxi em Nova York são RMSLE ou Root Mean Squared Log Error. O principal envio no Kaggle recebeu uma pontuação RMSLE de 0.29, e o modelo básico do Kaggle tem um RMSLE de 0.89.

Você pode usar qualquer algoritmo de regressão para resolver este projeto Kaggle, mas os concorrentes de melhor desempenho neste desafio usaram modelos de aumento de gradiente ou técnicas de aprendizado profundo.

Conjunto de dados: Conjunto de dados de duração da viagem de táxi Kaggle NYC

7. Detecção de spam em tempo real

Neste projeto, você pode usar técnicas de aprendizado de máquina para distinguir entre mensagens de spam (ilegítimas) e de spam (legítimas).

Para conseguir isso, você pode usar o conjunto de dados Kaggle SMS Spam Collection. Este conjunto de dados contém um conjunto de aproximadamente 5 mil mensagens que foram rotuladas como spam ou ham.

Você pode seguir os seguintes passos para construir um sistema de detecção de spam em tempo real:

Use o conjunto de dados SMS Spam Collection do Kaggle para treinar um modelo de aprendizado de máquina.
Crie um servidor de sala de chat simples em Python.
Implante o modelo de aprendizado de máquina no servidor da sala de chat e garanta que todo o tráfego de entrada passe pelo modelo.
Permita a passagem de mensagens apenas se forem classificadas como ham. Se forem spam, retorne uma mensagem de erro.

Para construir o modelo de aprendizado de máquina, primeiro você precisa pré-processar as mensagens de texto presentes no conjunto de dados SMS Spam Collection do Kaggle. Em seguida, converta essas mensagens em um pacote de palavras para que possam ser facilmente transmitidas ao seu modelo de classificação para previsão.

Conjunto de dados: Conjunto de dados de coleta de spam de SMS Kaggle

8. Aplicativo de previsão de personalidade Myers-Briggs

Você pode criar um aplicativo para prever o tipo de personalidade de um usuário com base no que ele diz.

O indicador de tipo Myers-Briggs categoriza os indivíduos em 16 tipos de personalidade diferentes. É um dos testes de personalidade mais populares do mundo.

Se você tentar encontrar seu tipo de personalidade na Internet, encontrará muitos questionários online. Depois de responder cerca de 20 a 30 perguntas, você será atribuído a um tipo de personalidade.

No entanto, neste projeto, você pode usar o aprendizado de máquina para prever o tipo de personalidade de qualquer pessoa com base apenas em uma frase.

Aqui estão as etapas que você pode seguir para conseguir isso:

Construa um modelo de classificação multiclasse e treine-o no conjunto de dados Myers-Briggs no Kaggle. Isso envolve o pré-processamento de dados (remoção de palavras irrelevantes e caracteres desnecessários) e alguma engenharia de recursos. Você pode usar um modelo de aprendizado superficial, como regressão logística, ou um modelo de aprendizado profundo, como um LSTM, para essa finalidade.
Você pode criar um aplicativo que permita aos usuários inserir qualquer frase de sua escolha.
Salve os pesos do modelo de machine learning e integre o modelo ao seu aplicativo. Depois que o usuário final inserir uma palavra, exiba seu tipo de personalidade na tela depois que o modelo fizer uma previsão.

Conjunto de dados: Conjunto de dados do tipo Kaggle MBTI

9. Sistema de reconhecimento de humor + sistema de recomendação

Você já ficou triste e sentiu que precisava assistir algo engraçado para se animar? Ou você já se sentiu tão frustrado que precisou relaxar e assistir algo relaxante?

Este projeto é uma combinação de dois projetos menores.

Você pode criar um aplicativo que reconheça o humor do usuário com base em imagens ao vivo da web e uma sugestão de filme com base na expressão do usuário.

Para construir isso, você pode seguir os seguintes passos:

Crie um aplicativo que possa receber um feed de vídeo ao vivo.
Use a API de reconhecimento facial do Python para detectar rostos e emoções em objetos no feed de vídeo.
Depois de classificar essas emoções em diversas categorias, comece a construir o sistema de recomendação. Pode ser um conjunto de valores codificados para cada emoção, o que significa que você não precisa envolver aprendizado de máquina para as recomendações.
Quando terminar de construir o aplicativo, você pode implantá-lo no Heroku, Dash ou em um servidor web.

API: API Face Recognition

10. Análise de sentimento de comentários do YouTube

Neste projeto, você pode criar um painel analisando o sentimento geral de YouTubers populares.

Mais de 2 bilhões de usuários assistem a vídeos no YouTube pelo menos uma vez por mês. YouTubers populares obtêm centenas de bilhões de visualizações com seu conteúdo. No entanto, muitos destes influenciadores foram criticados devido a controvérsias no passado, e a percepção do público está em constante mudança.

Você pode construir um modelo de análise de sentimento e criar um painel para visualizar os sentimentos em torno das celebridades ao longo do tempo.

Para construir isso, você pode seguir os seguintes passos:

Raspe comentários dos vídeos dos YouTubers que você deseja analisar.
Use um modelo de análise de sentimento pré-treinado para fazer previsões sobre cada comentário.
Visualize as previsões do modelo em um painel. Você pode até criar um aplicativo de painel usando bibliotecas como Dash (Python) ou Shiny (R).
Você pode tornar o painel interativo, permitindo que os usuários filtrem o sentimento por período, nome do YouTuber e gênero de vídeo.

API: Raspador de comentários do YouTube

Resumo

A indústria de aprendizado de máquina é grande e cheia de oportunidades. Se você deseja entrar no setor sem formação educacional formal, a melhor maneira de mostrar que possui as habilidades necessárias para realizar o trabalho é por meio de projetos.

O aspecto de aprendizado de máquina da maioria dos projetos listados acima é bastante simples. Devido à democratização do aprendizado de máquina, o processo de construção de modelos pode ser alcançado facilmente por meio de modelos e APIs pré-treinados.

Projetos de inteligência artificial de código aberto como Keras e FastAI também ajudaram a acelerar o processo de construção de modelos. A parte complicada desse aprendizado de máquina e projetos de ciência de dados é a coleta, pré-processamento e implantação de dados. Se você conseguir um emprego em aprendizado de máquina, a maioria dos algoritmos será bastante simples de construir. Levará apenas um ou dois dias para criar um modelo de previsão de vendas. Você passará a maior parte do tempo encontrando fontes de dados apropriadas e colocando seus modelos em produção para obter valor comercial.

Óptimo estado. Original. Republicado com permissão.

Relacionado:

= post anterior

Próximo post =>

Histórias principais nos últimos 30 dias

Mais populares
Você lê arquivos do Excel com Python? Existe um Caminho 1000x Mais Rápido Automatize o Microsoft Excel e o Word usando Python Cientistas de dados sem habilidades em engenharia de dados enfrentarão a dura verdade Como criar aplicativos da web impressionantes para seus projetos de ciência de dados Um portfólio de ciência de dados que lhe proporcionará o emprego

mais Compartilhados
Livro aberto do Compêndio de Máquina e Aprendizado Profundo Cientistas de dados sem habilidades em engenharia de dados enfrentarão a dura verdade Teste de hipótese explicado Folha de referências à ciência de dados 2.0 8 ideias de projetos de aprendizado profundo para iniciantes