Apagamento de link

Da Wikipédia, a enciclopédia livre
Ir para navegação Pular para pesquisar

O apodrecimento de link (também chamado de morte de link , quebra de link ou apodrecimento de referência ) é o fenômeno de hiperlinks que tendem, com o tempo, a deixar de apontar para seu arquivo , página da web ou servidor originalmente direcionado devido ao recurso ser realocado para um novo endereço ou se tornar permanentemente indisponível. Um link que não aponta mais para seu destino, geralmente chamado de link quebrado ou inativo , é uma forma específica de ponteiro pendente .

A taxa de podridão de links é um assunto de estudo e pesquisa devido à sua importância para a capacidade da Internet de preservar informações. As estimativas dessa taxa variam dramaticamente entre os estudos.

Prevalência

Vários estudos examinaram a prevalência da podridão de links na World Wide Web , na literatura acadêmica que usa URLs para citar conteúdo da web e em bibliotecas digitais .

Um estudo de 2003 descobriu que, na Web, cerca de um link em cada 200 quebrava a cada semana, [1] sugerindo uma meia-vida de 138 semanas. Essa taxa foi amplamente confirmada por um estudo de links 2016–2017 no Yahoo! Diretório (que havia parado de ser atualizado em 2014 após 21 anos de desenvolvimento) que estimava que a meia-vida dos links do diretório era de dois anos. [2]

Um estudo de 2004 mostrou que subconjuntos de links da Web (como aqueles direcionados a tipos de arquivo específicos ou aqueles hospedados por instituições acadêmicas) podem ter meias-vidas dramaticamente diferentes. [3] Os URLs selecionados para publicação parecem ter maior longevidade do que o URL médio. Um estudo de 2015 da Weblock analisou mais de 180.000 links de referências nos corpora de texto completo de três grandes editoras de acesso aberto e encontrou uma meia-vida de cerca de 14 anos, [4] geralmente confirmando um estudo de 2005 que descobriu que metade dos URLs citados na D-Lib Magazine, os artigos estavam ativos 10 anos após a publicação. [5]Outros estudos encontraram taxas mais altas de podridão de links na literatura acadêmica, mas normalmente sugerem uma meia-vida de quatro anos ou mais. [6] [7] Um estudo de 2013 na BMC Bioinformatics analisou quase 15.000 links em resumos do índice de citação Web of Science da Thomson Reuters e descobriu que a vida útil média das páginas da web era de 9,3 anos e apenas 62% foram arquivados. [8] Um estudo de 2021 sobre links externos em artigos do New York Times de 1996-2019 descobriu que 25% dos links estavam inacessíveis. Além disso, de uma amostra de 4.500 links ainda acessíveis, 13% não levaram ao conteúdo original, fenômeno denominado deriva de conteúdo. [9]

Um estudo de 2002 sugeriu que o apodrecimento de links em bibliotecas digitais é consideravelmente mais lento do que na web, descobrindo que cerca de 3% dos objetos não estavam mais acessíveis após um ano [10] (equivalente a uma meia-vida de quase 23 anos).

Causas

A podridão do link pode resultar de várias ocorrências. Uma página da web de destino pode ser removida. O servidor que hospeda a página de destino pode falhar, ser removido do serviço ou ser realocado para um novo nome de domínio . O registro de um nome de domínio pode caducar ou ser transferido para outra parte. Algumas causas farão com que o link não encontre nenhum destino e retorne um erro como HTTP 404 . Outras causas farão com que um link direcione um conteúdo diferente do pretendido pelo autor do link.

Outros motivos para links quebrados incluem:

  • a reestruturação de sites que causa mudanças nos URLs (por exemplo, domain.net/pine_treepode ser movido para domain.net/tree/pine)
  • realocação de conteúdo anteriormente gratuito para atrás de um paywall
  • uma mudança na arquitetura do servidor que resulta em um código como o PHP funcionando de maneira diferente
  • conteúdo dinâmico da página, como resultados de pesquisa que mudam de design
  • a presença de informações específicas do usuário (como um nome de login) no link
  • bloqueio deliberado por filtros de conteúdo ou firewalls
  • a remoção de gTLDs [11]
  • a expiração de um registro de nome de domínio

Prevenção e detecção

As estratégias para prevenir o apodrecimento de links podem se concentrar em colocar conteúdo onde sua probabilidade de persistência for maior, criar links com menos probabilidade de serem quebrados, tomar medidas para preservar links existentes ou reparar links cujos alvos foram realocados ou removidos.

A criação de URLs que não mudam com o tempo é o método fundamental para prevenir o apodrecimento do link. O planejamento preventivo foi defendido por Tim Berners-Lee e outros pioneiros da web. [12]

As estratégias relativas à autoria de links incluem:

As estratégias relativas à proteção de links existentes incluem:

  • usando mecanismos de redirecionamento , como HTTP 301, para referir automaticamente os navegadores e rastreadores ao conteúdo realocado
  • usando sistemas de gerenciamento de conteúdo que podem atualizar automaticamente os links quando o conteúdo do mesmo site é realocado ou substituir automaticamente os links por URLs canônicos [18]
  • integração de recursos de pesquisa em páginas HTTP 404 [19]

A detecção de links quebrados pode ser feita manualmente ou automaticamente. Os métodos automatizados incluem plug-ins para sistemas de gerenciamento de conteúdo , bem como verificadores autônomos de link quebrado, como o Link Sleuth do Xenu . A verificação automática pode não detectar links que retornam um soft 404 ou links que retornam uma resposta 200 OK, mas apontam para o conteúdo que foi alterado. [20]

Veja também

Outras leituras

  • Markwell, John; Brooks, David W. (2002). "Links quebrados: a natureza efêmera dos hiperlinks educacionais da WWW". Jornal de Ciências da Educação e Tecnologia . 11 (2): 105–108. doi : 10.1023 / A: 1014627511641 . S2CID  60802264 .
  • Gomes, Daniel; Silva, Mário J. (2006). "Modelagem da Persistência da Informação na Web" (PDF) . Anais da 6ª Conferência Internacional de Engenharia da Web . ICWE'06. Arquivado do original (PDF) em 16/07/2011 . Retirado em 14 de setembro de 2010 .
  • Dellavalle, Robert P .; Hester, Eric J .; Heilig, Lauren F .; Drake, Amanda L .; Kuntzman, Jeff W .; Graber, Marla; Schilling, Lisa M. (2003). "Going, Going, Gone: Lost Internet References" . Ciência . 302 (5646): 787–788. doi : 10.1126 / science.1088234 . PMID  14593153 . S2CID  154604929 .
  • Koehler, Wallace (1999). "Uma análise da constância e permanência de páginas e sites". Jornal da Sociedade Americana de Ciência da Informação . 50 (2): 162-180. doi : 10.1002 / (SICI) 1097-4571 (1999) 50: 2 <162 :: AID-ASI7> 3.0.CO; 2-B .
  • Sellitto, Carmine (2005). "O impacto das citações impermanentes localizadas na Web: um estudo de 123 publicações de conferências acadêmicas" (PDF) . Jornal da Sociedade Americana de Ciência e Tecnologia da Informação . 56 (7): 695–703. CiteSeerX  10.1.1.473.2732 . doi : 10.1002 / asi.20159 .

Notas e referências

Notas
Referências
  1. ^ Fetterly, Dennis; Manasse, Mark; Najork, Marc; Wiener, Janet (2003). “Um estudo em larga escala da evolução das páginas da web” . Anais da 12ª conferência internacional na World Wide Web . Arquivado do original em 9 de julho de 2011 . Retirado em 14 de setembro de 2010 .
  2. ^ van der Graaf, Hans. “A meia-vida de um link é de dois anos” . Blog do ZOMDir . Arquivado do original em 2017-10-17 . Obtido em 31/01/2019 .
  3. ^ Koehler, Wallace (2004). "Continuação de um estudo longitudinal de páginas da web: uma consideração sobre a persistência de documentos" . Pesquisa de informação . 9 (2). Arquivado do original em 11/09/2017 . Obtido em 31/01/2019 .
  4. ^ "Relatório de todos os tempos do Weblock" . Agosto de 2015. Arquivado do original em 4 de março de 2016 . Retirado em 12 de janeiro de 2016 .
  5. ^ a b McCown, Frank; Chan, Sheffan; Nelson, Michael L .; Bollen, Johan (2005). "The Availability and Persistence of Web References in D-Lib Magazine" (PDF) . Anais do 5º Workshop Internacional de Arquivamento da Web e Preservação Digital (IWAW'05) . Arquivado do original (PDF) em 17/07/2012 . Página visitada em 2005-10-12 .
  6. ^ Spinellis, Diomidis (2003). "Decadência e falhas das referências da Web" . Comunicações da ACM . 46 (1): 71–77. CiteSeerX 10.1.1.12.9599 . doi : 10.1145 / 602421.602422 . S2CID 17750450 . Arquivado do original em 2020-07-23 . Página visitada em 2007-09-29 .  
  7. ^ Steve Lawrence ; David M. Pennock; Gary William Flake ; et al. (Março de 2001). "Persistência de referências da Web na pesquisa científica". Computador . 34 (3): 26–31. CiteSeerX 10.1.1.97.9695 . doi : 10.1109 / 2.901164 . ISSN 0018-9162 . Wikidata Q21012586 .   
  8. ^ Hennessey, Jason; Xijin Ge, Steven (2013). "Um estudo disciplinar cruzado de decadência de ligação e a eficácia das técnicas de mitigação" . BMC Bioinformatics . 14 : S5. doi : 10.1186 / 1471-2105-14-S14-S5 . PMC 3851533 . PMID 24266891 .  
  9. ^ "O que a efemeridade da Web significa para seus hiperlinks" . Columbia Journalism Review . Recuperado em 2021-08-02 .
  10. ^ Nelson, Michael L .; Allen, B. Danette (2002). "Persistência e disponibilidade de objetos em bibliotecas digitais" . Revista D-Lib . 8 (1). doi : 10.1045 / janeiro2002-nelson . Arquivado do original em 19/07/2020 . Recuperado em 24/09/2019 .
  11. ^ "A morte de um TLD" . blog.benjojo.co.uk . Arquivado do original em 26/07/2018 . Página visitada em 27/07/2018 .
  12. ^ Berners-Lee, Tim (1998). "URIs legais não mudam" . Arquivado do original em 02/03/2000 . Obtido em 31/01/2019 .
  13. ^ a b Kille, Leighton Walter (8 de novembro de 2014). "O problema crescente da Internet" Link Rot "e melhores práticas para editores de mídia e on-line" . Recurso do jornalista, Harvard Kennedy School. Arquivado do original em 12 de janeiro de 2015 . Retirado em 16 de janeiro de 2015 .
  14. ^ "Internet Archive: Digital Library of Free Books, Movies, Music & Wayback Machine" . 10/03/2001. Arquivado do original em 26 de janeiro de 1997 . Retirado em 7 de outubro de 2013 .
  15. ^ Eysenbach, Gunther; Trudel, Mathieu (2005). “Vai, vai, continua aí: Usar o serviço WebCite para arquivar permanentemente as páginas da web citadas” . Journal of Medical Internet Research . 7 (5): e60. doi : 10.2196 / jmir.7.5.e60 . PMC 1550686 . PMID 16403724 .  
  16. ^ Zittrain, Jonathan; Albert, Kendra; Lessig, Lawrence (12 de junho de 2014). "Perma: Determinando o escopo e abordando o problema da rotatividade de links e referências em citações legais" (PDF) . Gestão de informações jurídicas . 14 (2): 88–99. doi : 10.1017 / S1472669614000255 . S2CID 232390360 . Arquivado (PDF) do original em 1 de novembro de 2020 . Página visitada em 10 de junho de 2020 .  
  17. ^ "Berkman Center da Harvard University lança o Amber, uma ferramenta de" auxílio mútuo "para que blogueiros e proprietários de sites ajudem a manter a Web disponível | Berkman Center" . cyber.law.harvard.edu . Arquivado do original em 02/02/2016 . Retirado 2016-01-28 .
  18. ^ Rønn-Jensen, Jesper (2007-10-05). "O software elimina os erros do usuário e o Linkrot" . Justaddwater.dk. Arquivado do original em 11 de outubro de 2007 . Página visitada em 5 de outubro de 2007 .
  19. ^ Mueller, John (2007-12-14). "Para sua informação sobre os recursos mais recentes da Barra de Ferramentas Google" . Blog da Central do webmaster do Google. Arquivado do original em 13 de setembro de 2008 . Página visitada em 9 de julho de 2008 .
  20. ^ Bar-Yossef, Ziv; Broder, Andrei Z .; Kumar, Ravi; Tomkins, Andrew (2004). "Sic transit gloria telae: para uma compreensão da decadência da Web". Anais da 13ª conferência internacional na World Wide Web - WWW '04 . pp. 328-337. CiteSeerX 10.1.1.1.9406 . doi : 10.1145 / 988672.988716 . ISBN  978-1581138443.

Ligações externas