Análise do vazamento de dados do twitter
Análise do vazamento de dados do twitter contendo 211 milhões de usuários
Desde o início de 2022 vários anúncios de dados raspados(scraped) do twitter têm sido anunciados em fóruns ilegais de vendas de dados, estas bases podem ser obtidas atualmente por menos de R$ 20 reais. Primeiro de tudo é importante entender que dados obtidos a partir de raspagem (scraped) não são originados de uma invasão do sistema, mas muitas vezes sua geração é possibilitada por falhas/vulnerabilidades nos sistemas alvo que permitem a automação e extração massiva de dados.
Anúncio dos dados em um fórum
Mas você sabe o que é raspagem/scraped ?
Scraping é uma técnica que permite extrair informações de sites na internet de forma automatizada. Isso é feito geralmente por meio de programas, que visitam o site de forma automática, coleta as informações e as armazenam para uso futuro. É uma forma de obter grandes quantidades de dados de uma só vez. O scrap pode ser feito direto no site, ou, em alguns casos, como no do twitter, em uma RESTful API que não possui a devida validação de acesso.
O que é uma RESTful API ?
API REST (ou RESTful API) é uma forma de comunicação entre dois sistemas. Ele permite que um sistema como um aplicativo ou website acesse dados de outro sistema (como um banco de dados ou outro website) sem precisar conhecer os detalhes internos daquele outro sistema.
Por exemplo, imagine que você tem um aplicativo que mostra previsões do tempo e você quer obter essas informações de um website de previsão do tempo. Em vez de baixar e analisar todo o conteúdo desse website, você pode usar a API REST para acessar apenas as informações específicas que você precisa.
Em resumo, uma API REST é uma forma de acessar dados de um sistema sem precisar saber como ele funciona internamente, é uma forma de “pedir” informações de forma organizada e padronizada.
Voltando ao caso do Twitter, em 11 de fevereiro de 2022 um pesquisador independente cadastrou uma vulnerabilidade na plataforma HakerOne(https://hackerone.com/reports/1439026) onde atravez de uma API REST do twitter (https://api.twitter.com/1.1/onboarding/task.json?flow_name=login) era possivel obter o twitter id de um perfil, independente de suas configurações de segurança.
Retorno da api extraído do site HackerOne
Essa mesma API REST retornava um token de autenticação que dava acesso a uma segunda API REST dp twitter https://api.twitter.com/1.1/onboarding/task.json que retornava o user_id. De posse do user_id o atacante poderia obter de forma fácil o restante dos dados de cada conta através da própria API REST fornecida pelo twitter para desenvolvedores.
Retorno da api extraído do site HackerOne
Mais quais dados estão contidos neste vazamento
Esse vazamento foi disponibilizado através de um arquivo .rar que contém 6 arquivos de texto dentro, que totalizam 63.5gb de dados. Nestes arquivos são encontrados: Email, nome, ScreenName(nome que aparece na conta do twitter), seguidores(Followers) e data de criação da conta. Analisando o arquivo rar podemos ver que os arquivos contidos foram gerados entre novembro e dezembro de 2021.
Imagem do descompactador
Analisando alguns metadados do arquivo rar, podemos ver também pelo campo host_os no header de cada arquivo que foram gerados em uma máquina windows. Abaixo o script python utilizado:
import rarfile
rar_version_dict = {
0: ‘rarfile.RAR_OS_MSDOS’,
1: ‘rarfile.RAR_OS_OS2’,
2: ‘rarfile.RAR_OS_WIN32’,
3: ‘rarfile.RAR_OS_UNIX’,
4: ‘rarfile.RAR_OS_MACOS’,
5: ‘rarfile.RAR_OS_BEOS’,
}
rar_file = rarfile.RarFile(“twitter.rar”)
for entry in rar_file.infolist():
print(f’name: {entry.filename} min rar: {entry.extract_version}, generated os: {rar_version_dict[entry.host_os]}, comment: {entry.comment}’)
Sobre a publicação do vazamento
Os supostos arquivos do vazamento foram publicados no dia 04 de janeiro de 2023 em um conhecido fórum de venda de dados por um usuário chamado StayMad. A base foi publicada no dia seguinte à criação da conta do próprio usuário, e foi sua única publicação desde então.
Tela com informações do perfil StayMad
Esse não foi o primeiro incidente envolvendo Twitter, no final de 2022, dia 23 de novembro foi publicado no mesmo fórum um arquivo contendo 6.7 milhões de usuários supostamente do twitter, contendo também usuários, display name, biografia, localização, email e telefone.
Anuncio dos dados de 6.7 milhões de usuários do twitter
Mas não tem senha, qual o risco ?
É importante lembrar que mesmo sem ter vazado as senhas, atacantes mal intencionados de posse destes dados podem atuar de várias formas, sendo as principais: através de engenharia social, se passando pelo twitter ou outro serviço e contactando a vítima, enviando um phishing que se passa pelo twitter e solicita senha, ou então procurando pelo email da vitima em outras bases vazadas que contenham senha, e verificando se alguma delas continua válida através de um ataque de força bruta.
Os ataques também podem ser direcionados a pessoas específicas, já que ele tem acesso ao número de influenciadores de cada uma, invadindo contas com milhares de seguidores, e utilizando elas para espalhar outros golpes, ou até mesmo chantagear a vítima para devolver o acesso.
A equipe do TechSecurity realizou uma análise qualitativa dos dados, acompanhe abaixo o que encontramos:
Quantidade de emails de empresas: 28.371.146
Quantidade de emails de empresas brasileiras: 313.194
Quantidade de emails terminados em .br: 2.679.198
Top 10 domínios mundiais:
Gmail.com: 156114406
Yahoo.com: 87986401
Hotmail.com: 77455419
Aol.com: 11441304
Hotmail.co.uk: 9144817
Hotmail.fr: 8593056
Mail.ru: 6035261
Live.com: 4543949
Yahoo.co.uk: 3613241
Msn.com: 3475854
Top 10 domínios brasileiros (terminados em .br):
ibest.com.br: 24191
pop.com.br: 9537
superig.com.br: 5874
brturbo.com.br: 4814
gmail.com.br: 3884
click21.com.br: 2134
usp.br: 1695
Yahoo.com.br: 1360
netsite.com.br: 1120
onda.com.br: 1032
Análise dos Top 50 perfis com mais seguidores
Ainda falando sobre os riscos, analisamos 50 perfis com mais de 900 mil seguidores. Dos 50 perfis analisados apenas 6 não estavam envolvidos em outros incidentes de vazamento de dados que continham senha, ou seja, 88% dos perfis com mais de 900 mil seguidores analisados já tiveram senhas comprometidas em outros incidentes de *segurança.
* Análise realizada consultando o e-mail em plataformas de terceiro que retornam envolvimento em incidentes de vazamentos de dados
Confirmação do vazamento
Ao analisar alguns poucos exemplos de emails, e perfis de usuários, é possível constatar que se tratam de informações verdadeiras, porém não é viável confirmar em escala se toda base também é. Também foi possível constatar que a base não está completa, mesmo sendo gerada em 2021 alguns perfis de influenciadores da época não foram encontrados na base. Provavelmente essa lista foi criada a partir de listas de emails de vazamentos anteriores, através da exploração da RESTful API vulnerável onde foi possível obter os dados adicionais e compor essa base de dados.
O que devo fazer
Apesar da lista não conter senhas, é sempre importante ficar atento a ataques de phishing e engenharia social. Perfis com muitos seguidores são sempre desejados por cibercriminosos. Utilize sempre ferramentas de proteção em seus celulares, tablets e computadores, ative autenticação de 2 fatores sempre que disponível, além de usar senhas únicas e fortes para cada serviço utilizado.