Dự án Internet Archive giúp khôi phục hàng triệu liên kết Wikipedia bị hỏng
![]() |
| Học lập trình viên |
Các trang web, nó quay ra, là một nơi mong manh. Các công ty, chính phủ, các tổ chức giáo dục, cá nhân và tổ chức thường xuyên đưa lên và gỡ xuống các trang web.
Vấn đề là các trang web đã trở thành một hệ thống hồ sơ, và khi các liên kết không hoạt động vì các trang không còn tồn tại, hồ sơ không đầy đủ. Với sự giúp đỡ của các tình nguyện viên từ Internet Archive, Wikipedia đã có thể khôi phục 9 triệu liên kết bị hỏng và giúp giải quyết vấn đề đó cho ít nhất một cơ sở tri thức.
Lưu trữ Internet chụp một bản sao của nhiều trang web có thể để xây dựng một kho lưu trữ của web. Nếu bạn biết những gì bạn đang tìm kiếm, bạn có thể tìm kiếm kho lưu trữ Wayback Machine của họ với hơn 338 tỷ trang web, có niên đại từ những ngày đầu tiên của World Wide Web. Vấn đề là bạn phải biết những gì bạn đang tìm kiếm, và đó có thể là vấn đề.
Một người đóng góp Wikipedia tên là Maximilian Doerr đặt sức mạnh của phần mềm để chịu vấn đề. Ông đã xây dựng một chương trình gọi là IAbot, viết tắt của bot Internet Archive. Internet Archive cũng ghi nhận Stephen Balbach, người đã làm việc với Doerr và Internet Archive, theo dõi và xác minh các lưu trữ và viết chương trình của Wikipedia để sửa lỗi dữ liệu.
Đầu tiên IAbot xác định các liên kết bị hỏng, các trang đó trả lại lỗi 404 hoặc "không tìm thấy trang". Một khi bot xác định được một liên kết bị hỏng, nó tìm kiếm trên Internet Archive cho trang phù hợp, và khi nó tìm thấy một bản sao, nó liên kết với nó, qua đó giữ liên kết đến nội dung, mặc dù trang gốc hoặc trang web không còn nữa.
Trong khoảng thời gian ba năm, phần mềm đó đã giúp sửa 6 triệu liên kết trên 22 trang Wikipedia. Các tình nguyện viên Wikipedia đã cố định thêm 3 triệu liên kết bằng cách liên kết thủ công đến trang Lưu trữ Internet chính xác, một số lượng đáng kể công việc bảo tồn và một công cụ giúp duy trì tính toàn vẹn của web và cung cấp đường mòn kiểm tra nơi thiếu.
Trong một bài đăng trên blog công bố kết quả của dự án , Internet Archive đã báo cáo rằng sau khi nghiên cứu hành vi nhấp chuột liên kết của người dùng Wikipedia trong khoảng thời gian 10 ngày gần đây, họ nhận thấy rằng phần lớn các liên kết đến các trang Lưu trữ Internet, hiển thị sức mạnh của dự án này để sửa chữa các liên kết bị hỏng trong Wikipedia.
Đồ thị: Lưu trữ trên Internet
Một vài năm trước, tôi đã viết một phần trong đó tôi than thở rằng internet đã thất bại trong việc kiểm tra bảo quản trang web . Tôi kết luận, “Nếu chúng ta có thể gửi các bot ra để lập chỉ mục internet, có vẻ như chúng ta sẽ có thể tìm ra giải pháp công nghệ tự động để bảo tồn nội dung cho các thế hệ tương lai. Ít nhất, chúng tôi có nghĩa vụ phải cố gắng. ”
Nếu đây thực sự là hệ thống hồ sơ của chúng ta cho chính phủ và xã hội, thì chúng ta cần nhiều dự án như thế này để bảo tồn tính toàn vẹn của hệ thống cho các thế hệ tương lai. Dự án Internet Archive / Wikipedia chắc chắn là một bước đi tích cực theo hướng đó. Hơn nữa, tổ chức có kế hoạch xây dựng trên công việc này trên Wikipedia và các trang web khác, đồng thời làm việc với các biên tập viên hoặc nhà văn muốn liên kết đến các trang được lưu trữ khi các trang trực tiếp không còn tồn tại.
Lưu trữ Internet chụp một bản sao của nhiều trang web có thể để xây dựng một kho lưu trữ của web. Nếu bạn biết những gì bạn đang tìm kiếm, bạn có thể tìm kiếm kho lưu trữ Wayback Machine của họ với hơn 338 tỷ trang web, có niên đại từ những ngày đầu tiên của World Wide Web. Vấn đề là bạn phải biết những gì bạn đang tìm kiếm, và đó có thể là vấn đề.
Một người đóng góp Wikipedia tên là Maximilian Doerr đặt sức mạnh của phần mềm để chịu vấn đề. Ông đã xây dựng một chương trình gọi là IAbot, viết tắt của bot Internet Archive. Internet Archive cũng ghi nhận Stephen Balbach, người đã làm việc với Doerr và Internet Archive, theo dõi và xác minh các lưu trữ và viết chương trình của Wikipedia để sửa lỗi dữ liệu.
Đầu tiên IAbot xác định các liên kết bị hỏng, các trang đó trả lại lỗi 404 hoặc "không tìm thấy trang". Một khi bot xác định được một liên kết bị hỏng, nó tìm kiếm trên Internet Archive cho trang phù hợp, và khi nó tìm thấy một bản sao, nó liên kết với nó, qua đó giữ liên kết đến nội dung, mặc dù trang gốc hoặc trang web không còn nữa.
Trong khoảng thời gian ba năm, phần mềm đó đã giúp sửa 6 triệu liên kết trên 22 trang Wikipedia. Các tình nguyện viên Wikipedia đã cố định thêm 3 triệu liên kết bằng cách liên kết thủ công đến trang Lưu trữ Internet chính xác, một số lượng đáng kể công việc bảo tồn và một công cụ giúp duy trì tính toàn vẹn của web và cung cấp đường mòn kiểm tra nơi thiếu.
Trong một bài đăng trên blog công bố kết quả của dự án , Internet Archive đã báo cáo rằng sau khi nghiên cứu hành vi nhấp chuột liên kết của người dùng Wikipedia trong khoảng thời gian 10 ngày gần đây, họ nhận thấy rằng phần lớn các liên kết đến các trang Lưu trữ Internet, hiển thị sức mạnh của dự án này để sửa chữa các liên kết bị hỏng trong Wikipedia.
Đồ thị: Lưu trữ trên Internet
Một vài năm trước, tôi đã viết một phần trong đó tôi than thở rằng internet đã thất bại trong việc kiểm tra bảo quản trang web . Tôi kết luận, “Nếu chúng ta có thể gửi các bot ra để lập chỉ mục internet, có vẻ như chúng ta sẽ có thể tìm ra giải pháp công nghệ tự động để bảo tồn nội dung cho các thế hệ tương lai. Ít nhất, chúng tôi có nghĩa vụ phải cố gắng. ”
Nếu đây thực sự là hệ thống hồ sơ của chúng ta cho chính phủ và xã hội, thì chúng ta cần nhiều dự án như thế này để bảo tồn tính toàn vẹn của hệ thống cho các thế hệ tương lai. Dự án Internet Archive / Wikipedia chắc chắn là một bước đi tích cực theo hướng đó. Hơn nữa, tổ chức có kế hoạch xây dựng trên công việc này trên Wikipedia và các trang web khác, đồng thời làm việc với các biên tập viên hoặc nhà văn muốn liên kết đến các trang được lưu trữ khi các trang trực tiếp không còn tồn tại.

Leave a Comment