Baichuan, công ty khởi nghiệp AI có trụ sở tại Bắc Kinh, tuyên bố AI Baichuan2-192k là “mô hình mạnh nhất thế giới khi xử lý văn bản dài”.

Baichuan2-192k là mô hình ngôn ngữ lớn (LLM) mới nhất của Baichuan – công ty đứng sau công cụ tìm kiếm phổ biến ở Trung Quốc Sogou. Nhà sáng lập Wang Xiaochuan cho biết LLM mới dựa trên “cửa sổ ngữ cảnh” (Context Window) có thể xử lý khoảng 350.000 ký tự tiếng Trung, qua đó trở thành mô hình mạnh nhất thế giới trong việc xử lý các câu lệnh văn bản dài.





Người sáng lập Baichuan Wang Xiaochuan. Ảnh: Weibo

Người sáng lập Baichuan Wang Xiaochuan. Ảnh: Weibo

Cửa sổ ngữ cảnh là khái niệm chỉ sự kết hợp giữa văn bản đầu vào và đầu ra mà mô hình có thể xử lý trong quá trình hội thoại với người dùng. Theo bài đăng trên WeChat, Baichuan2-192k có sức mạnh xử lý cửa sổ ngữ cảnh lớn gấp 14 lần so với GPT-4, mô hình ngôn ngữ lớn trong ChatGPT của OpenAI.

LLM đạt thông số cửa sổ ngữ cảnh lớn nhất thế giới trước đó thuộc về Claude 2 của Anthropic (do Amazon hậu thuẫn), được giới thiệu vào tháng 7. Mô hình này có thể chứa dữ liệu cửa sổ ngữ cảnh đạt 75.000 từ tiếng Anh, tương ứng với hàng trăm trang tài liệu hoặc một cuốn sách. Nếu tuyên bố của Baichuan là chính xác, Baichuan2-192k đang mạnh hơn Claude 2 gấp gần năm lần.

Baichuan khẳng định mô hình của họ vượt qua Claude 2 về chất lượng phản hồi cũng như khả năng hiểu và tóm tắt văn bản dài. Tuyên bố này dựa trên kết quả kiểm tra của LongEval, dự án do Đại học California, Berkeley và các tổ chức khác của Mỹ khởi xướng nhằm đánh giá mức độ xử lý của một mô hình LLM cụ thể.

Theo Xiaochuan, Baichuan2-192k hữu ích cho các doanh nghiệp cần xử lý và tạo văn bản dài hàng ngày, chẳng hạn ngành pháp lý, truyền thông. tài chính. Công ty đang thử nghiệm mô hình cho một số đối tác ở phạm vi nội bộ.

Dù vậy, theo nghiên cứu của các học giả từ Đại học Stanford và UC Berkeley, việc xử lý nhiều thông tin hơn không nhất thiết là sẽ khiến một mô hình AI tốt hơn. Trước Baichuan, một số LLM Trung Quốc cũng tuyên bố vượt ChatGPT. Ngày 31/10, Alibaba cho biết Tongyi Qianwen – mô hình AI được đào tạo với hàng trăm tỷ thông số – đã vượt GPT-3.5 của OpenAI và Llama2 của Meta, đồng thời “thu hẹp khoảng cách đáng kể” với GPT-4. Trong khi đó, Zhipu AI, công ty khởi nghiệp do Alibaba và Tencent hậu thuẫn, tuần trước ra mắt ChatGLM3 với nhiều cải tiến, gồm tốc độ suy luận nhanh hơn, chi phí đào tạo thấp hơn và bổ sung trợ lý mã hóa.

Bảo Lâm (theo SCMP)


Share.

Leave A Reply