Các tính năng cơ bản (những gì Claude Sonnet 3.5 cung cấp cho bạn)
- Suy luận mạnh & tuân thủ hướng dẫn: được tinh chỉnh cho các tác vụ logic nhiều bước và hỏi đáp tài liệu.
- Tác nhân & sử dụng công cụ: được xây dựng để thực hiện các lệnh gọi công cụ và điều phối một cách vững chắc cho các quy trình làm việc kiểu agent (ví dụ: lựa chọn công cụ, sửa lỗi). Anthropic đã bổ sung khả năng computer-use ở bản beta công khai, cho phép Claude tương tác với GUI (con trỏ, nhấp chuột, nhập liệu) trong chế độ xem “flipbook”. Tính năng này mang tính thử nghiệm nhưng đáng chú ý cho việc tự động hóa các tác vụ GUI.
- Khả năng lập trình mạnh: hiệu năng cạnh tranh trên HumanEval / SWE-bench (xem Benchmarks).
- Kiểm soát an toàn & quyền riêng tư được quản lý: Anthropic tiếp tục nhấn mạnh đào tạo ưu tiên an toàn và các mặc định an toàn hơn trên các mô hình Claude.
-
Chi tiết kỹ thuật của Claude 3.5 Sonnet
- Đa phương thức: xử lý văn bản + hình ảnh (API thị giác chấp nhận ảnh base64 hoặc URL), bao gồm biểu đồ/đồ thị và hỏi đáp bằng hình ảnh.
- Ngữ cảnh dài: cửa sổ ngữ cảnh được công bố khoảng ~200k tokens cho tài liệu dài và phân tích nhiều tệp.
- Suy luận & lập trình mạnh hơn so với các mô hình tầm trung trước đó: cải thiện mục tiêu trên các benchmark dành cho nhà phát triển (xem Benchmarks).
- Hỗ trợ công cụ / agent: Messages API hỗ trợ các mẫu dùng công cụ (thực thi mã, web-fetch, tác nhân kiểu “computer use”) và đầu ra JSON có cấu trúc để tích hợp vững chắc.
- Cách tiếp cận huấn luyện ưu tiên an toàn: được xây dựng với các nguyên tắc Constitutional AI của Anthropic và các kỹ thuật bộ phân loại/bảo vệ bổ sung.
Hiệu năng benchmark của Claude 3.5 Sonnet
Các benchmark thay đổi theo kiểu prompt, số shot và snapshot mô hình chính xác. Dưới đây là các số liệu công khai tiêu biểu, thường được trích dẫn rộng rãi (mọi nguồn đều liên kết đến nhà cung cấp hoặc trang benchmark công khai):
- BIG-Bench-Hard (3-shot CoT / Sonnet reporting): ~93.1% — cho thấy hiệu năng suy luận nhiều bước rất mạnh trên bộ BIG-Bench-Hard như được báo cáo trong các danh sách của nhà cung cấp/đối tác.
- HumanEval (độ đúng mã): ~93–94% (các điểm HumanEval hàng đầu được báo cáo cho Sonnet trong tài liệu của Anthropic/GitHub Copilot). Điều này đưa Sonnet vào nhóm có hiệu năng cao nhất trên các bài kiểm tra sinh mã chương trình tiêu chuẩn.
- SWE-bench (lập trình kiểu agent / xử lý issue GitHub, “Verified”): ~49% (Sonnet cải thiện đáng kể so với các bản phát hành trước trên các tác vụ SWE-bench Verified). Lưu ý: SWE-bench tập trung vào xử lý issue GitHub trong thực tế và rất nhạy với kiểu prompt cũng như môi trường/công cụ.
Lưu ý về benchmark: nhà cung cấp và bên đánh giá thứ ba dùng các mẫu prompt, thiết lập shot và bộ lọc đánh giá khác nhau. Hãy xem các con số này như tín hiệu so sánh hơn là bảo đảm tuyệt đối cho các tác vụ sản xuất cụ thể.
Hạn chế & rủi ro đã biết của Claude 3.5 Sonnet
- Ảo giác / lỗi तथ्य: Sonnet giảm một số chế độ lỗi so với các mô hình cũ hơn nhưng vẫn tạo ra thông tin sai hoặc bịa đặt, đặc biệt với các факт ngách hoặc rất mới. Hãy dùng retrieval/RAG và kiểm chứng cho các đầu ra quan trọng.
- Tính năng thử nghiệm: khả năng computer-use được phát hành ở bản beta công khai và vẫn dễ lỗi (nó quan sát màn hình như một flipbook; các sự kiện UI tồn tại ngắn có thể bị bỏ lỡ). Đừng phụ thuộc vào nó cho các thao tác GUI mang tính an toàn quan trọng hoặc yêu cầu thời gian chính xác mà không có giám sát vững chắc.
- Thiên kiến & rào chắn an toàn: Sonnet kế thừa tinh chỉnh định hướng an toàn của Anthropic. Điều đó làm giảm nhiều đầu ra không an toàn nhưng cũng có thể dẫn đến từ chối thận trọng hoặc câu trả lời bị lọc trong các trường hợp mơ hồ.
- Giới hạn vận hành: giới hạn token, giới hạn tốc độ, các bậc giá và mức độ khả dụng theo khu vực thay đổi theo nền tảng (Anthropic trực tiếp, Bedrock, Vertex AI). Hãy cố định phiên bản và xem xét hạn mức nền tảng trước khi triển khai sản xuất.
So sánh với gpt 4o và Claude 4
(Các so sánh là xấp xỉ và phụ thuộc vào snapshot cụ thể; các con số dưới đây tóm tắt các tuyên bố so sánh công khai.)
- So với GPT-4 / GPT-4o (OpenAI): Sonnet thường có điểm cao hơn trên các benchmark suy luận nhiều bước và độ đúng mã (ví dụ: HumanEval / BIG-Bench variants trong tài liệu của nhà cung cấp), trong khi các biến thể GPT vẫn cạnh tranh ở các tác vụ toán học & chain-of-thought và trong tooling (và có thể có đánh đổi khác về độ trễ/chi phí). So sánh thực nghiệm thay đổi theo benchmark.
- So với Opus / Claude 4 của chính Anthropic: Opus / Claude 4 (và các snapshot Sonnet về sau) có thể vượt Sonnet ở các tác vụ phức tạp nhất, đòi hỏi nhiều tính toán; Sonnet vẫn hấp dẫn cho các quy trình làm việc kiểu agent cần cân bằng chi phí/độ trễ.
Khuyến nghị: chạy các bài kiểm tra A/B ngắn, theo miền cụ thể (cùng prompt, cố định phiên bản mô hình) thay vì chỉ dựa vào bảng xếp hạng công khai; giá trị sử dụng thực tế phụ thuộc vào từng tác vụ.
Các trường hợp sử dụng sản xuất tiêu biểu
- Tự động hóa kiểu agent: điều phối công cụ, phân loại ticket, gọi công cụ có cấu trúc và các tác vụ GUI tự động (có giám sát).
- Kỹ thuật phần mềm & hỗ trợ lập trình: tạo mã, chuyển đổi, di chuyển, tóm tắt PR, gợi ý gỡ lỗi — sức mạnh SWE-bench / HumanEval của Sonnet khiến nó là lựa chọn mạnh cho trợ lý lập trình.
- Hỏi đáp tài liệu & tóm tắt: hiểu ngữ cảnh sâu hơn cho hợp đồng, báo cáo nghiên cứu và tài liệu dài (kết hợp với retrieval).
- Trích xuất dữ liệu từ hình ảnh: Sonnet đã được dùng để trích xuất/hiểu nội dung biểu đồ/bảng trong các nền tảng cho phép đầu vào hình ảnh.
Cách truy cập API Claude Sonnet 3.5
Bước 1: Đăng ký khóa API
Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào CometAPI console của bạn. Lấy khóa API thông tin xác thực truy cập của giao diện. Nhấp “Add Token” tại API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.

Bước 2: Gửi yêu cầu tới Claude Opus 4.1
Chọn endpoint “claude-3-5-sonnet-20241022” để gửi yêu cầu API và thiết lập phần thân yêu cầu. Phương thức yêu cầu và request body được lấy từ tài liệu API trên website của chúng tôi. Website của chúng tôi cũng cung cấp Apifox test để bạn tiện sử dụng. Thay <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn. base url là định dạng Anthropic Messages và định dạng Chat.
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content—đây là nội dung mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo ra.
Bước 3: Truy xuất và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời được tạo ra. Sau khi xử lý, API sẽ phản hồi với trạng thái tác vụ và dữ liệu đầu ra.