Sistemas de recomendação: o Big Data do dia a dia

Sistemas de recomendação: o Big Data do dia a dia

Uma breve história sobre sistemas de recomendação 

Não é exagero dizer que a tecnologia de Big Data está presente na vida das pessoas diariamente, pois quem segura um celular na mão e utiliza aplicativos, como por exemplo, para fazer compras online ou até mesmo para acompanhar as redes sociais, sempre receberá alguma notificação de “recomendação” de produtos característicos ao “seu gosto”.

Provavelmente você parou para pensar nessas tais recomendações. Certamente já se pegou pensando com o celular na mão “uau, como as Lojas Americanas adivinharam que eu estava procurando por esta TV?” “EITA!!! Acabei de olhar essa cadeira em um site e agora apareceu mais barato no site do concorrente”. Você pode, e com certeza já recebeu, recomendações de roupas, músicas, móveis, livros, dentre outros.

A Big Data além de servir para o uso das pessoas no seu dia a dia. Também tem como objetivo ensinar o mercado a “acertar” na hora de oferecer os produtos aos clientes. Essa aprendizagem deriva do compilado de tecnologias denominado Machine Learning e os produtos similares que aparecem para você são fornecidos pelos Sistemas de Recomendação. A pergunta que fica é: o que seria esse Sistema de Recomendação?

Sistemas de Recomendação são modelos preditivos matemáticos que, a partir de estatística e probabilidade, determinam se um cliente está interessado por um item parecido com aquele que já avaliou, procurou ou comprou em algum outro momento.

Agora que você já sabe o que é sistema de recomendação, pode se perguntar “será que vale a pena investir nessa tecnologia só para jogar produtos na tela dos celulares dos clientes? ”

A resposta é muito simples: SIM, COM TODA A CERTEZA! O exemplo mais famoso de sucesso nos sistemas de recomendação, é o da Netflix, pois 2/3 de todos os seus clientes assistem os filmes que são recomendados. Convenhamos que, dois terços dos clientes de uma empresa igual a Netflix é algo de grande relevância.

Todas as grandes empresas utilizam abundantemente os modelos matemáticos para efetuar seus sistemas de recomendações, sendo que as técnicas mais utilizadas para criar modelos são:

– Distância Euclidiana

– Similaridade de Coseno

– Similaridade de Jaccard

– Coeficiente de Correlação de Pearson

– Regressão Linear

Chegamos até aqui, mas vocês ainda podem me perguntar: “E então, quais são os Sistemas de Recomendações que essas empresas usam? ” Vou colocar alguns exemplos aqui para vocês:

Hierarquia de itens: são itens catalogados como patente alta de vendas, ou seja, um “item-pai” ou “mãe”, carrega características que podem ser herdadas por itens menores denominados como “filhos”.

Quando um cliente compra este “item pai”, todos os itens filhos que estão catalogados na loja com uma hierarquia menor, serão recomendados ao usuário nas páginas de compras.

Filtragem baseada em conteúdo: para simplificar, podemos dizer que essa filtragem é fornecida pelos próprios clientes. Em outras palavras, as recomendações têm como base os dados fornecidos quando cada cliente classifica ou avalia determinados produtos.

Veja como esses dados podem ser coletados:

Os dados podem ser coletados a partir de aplicativos e sites que já disponibilizam para os clientes algum formato de avaliação dos seus produtos.

Quando o cliente clica ou seleciona o produto, fornecendo uma avaliação positiva, a empresa coleta essa avaliação, que também pode ser feita por meio de cookies, e joga essas informações em um banco de dados, assim, na próxima vez que este cliente acessar o site no qual deixou a avaliação do produto, certamente receberá produtos semelhantes àquele que ele avaliou.

Filtragem colaborativa: brevemente, poderia ser conceituado como sendo a votação de um item melhor avaliado ou pior avaliado de um site.

Geralmente, esse sistema de recomendação é feito com a colaboração da votação de um cliente x e um cliente y, no qual avaliam de forma positiva ou negativa um respectivo item. Assim, o item que tem a melhor avaliação entra para uma seção de destaque no site ou catálogo da empresa.

Algumas considerações:

É importante lembrar sempre que todas essas ferramentas trabalham em conjunto com modelos matemáticos e que todos os métodos foram desenvolvidos para aprender e processar as escolhas de cada cliente.

Um dos métodos mais famosos que há entre os modelos de filtragem, é o KNN que significa K-nearest neighbors ou “K-vizinhos mais próximos”. O KNN é um algoritmo de Machine Learning muito utilizado em problemas de classificação.

Este algoritmo analisa a distância em relação aos dados não classificados para que forme uma relação com os dados que já foram classificados.

Como exemplo, podemos citar o caso hipotético da “Loja de Roupas Livre” em que o vendedor determina que na seção de camisas da marca X, haverá uma nova sub-aba para estoque de camisetas de manga-longa da marca X.

Com essa atualização no estoque de camisas, o KNN trabalhará para que as camisas de mangas longas da marca X, sejam recomendadas junto à outras camisetas, também da marca X, que já foram bem avaliadas.

Desta forma, o KNN fará com que os sócios da “Loja de Roupas Livre” não tenham que se preocupar com a avaliação dessas novas camisetas de manga longa, pois o sistema terá identificado que se trata de camisetas da mesma marca X, assim elas serão igualmente recomendadas ao usuário.

Nos dias de hoje, existem muitos algoritmos que podem ser úteis para cada tipo de dificuldades que há no mercado. Na área de dados, sempre há uma tecnologia inovadora para resolução de problemas que se tornam comuns com o tempo.

Além dos modelos já existentes criados por várias empresas de grande porte, o indivíduo com os conhecimentos em Big Data e Machine Learning consegue desenvolver seu próprio modelo do 0.

Líder em Treinamento e serviços de Consultoria, Suporte e Implantação para o mundo open source. Conheça nossas soluções:

CURSOSCONSULTORIA

Anterior Usando Skaffold para automatizar seu deploy no Kubernetes
Próxima Como atualizar seu ambiente de monitoramento Zabbix?

About author

Você pode gostar também

Desenvolvimento

Por que usar Python como linguagem de programação para Big Data?

A maioria dos profissionais da área de Big Data possui uma dúvida em comum: qual linguagem de programação certa para um projeto que envolva um grande volume de dados? O

Notícias

4Linux atualiza seus cursos na área de Big Data!

Conheça os cursos de Big Data da 4Linux A fim de atender demandas específicas do mercado por profissionais de Ciência de Dados e Engenharia de Dados, a 4Linux decidiu reformular

Infraestrutura TI

Ambari: crie um cluster Hadoop em minutos

O Apache Ambari é uma plataforma desenvolvida pela Hortonworks que permite  instalar, configurar e monitorar um cluster hadoop em poucos minutos. Neste post irei ensinar como instalar o Ambari em