Tản mạn tí xíu về nhạc số

Khoa học chứng minh, âm nhạc đã ăn sâu vào máu chúng ta. Sở dĩ chúng ta có xu hướng "muốn nhảy nhót", ngân nga theo, khi nghe một giai điệu nào đó là vì tổ tiên chúng ta đã luôn có phản ứng (đề phòng) trước các âm thanh lạ (của những con thú hung dữ).

Mở bài chán ngắt!

Tui thích âm nhạc, đương nhiên bạn cũng thích, nghe, hát, lâu lâu thì "ư.. ư.. à.. á.. a.." theo giai điệu khi xung quanh chẳng có ai (với tui là huýt sáo). Nó giống như là một phần không thể thiếu trong cuộc sống hiện đại. Vô duyên tí nhưng vừa thay bàn phím, gõ đã thật :)

Giờ ai cũng dễ dàng tiếp cận với loại hình giải trí hết sức phổ thông này, cứ lên mạng, google, zing mp3 là lòi ra một đống. Một số thì tìm mua đĩa, một số thì mua qua các dịch vụ trực tuyến. Nhưng phần lớn dữ liệu âm nhạc mà mọi người tiếp cận đều có chất lượng thấp cho tới rất thấp.

Khoe bộ sưu tập trá hình

Xin phép mô tả một chút về cấu trúc của một file âm thanh. Máy tính sử dụng bit để biểu diễn mọi thứ, vì vậy nó cũng biểu diễn được cả tần số, biên độ, cao độ... càng nhiều bit thì càng biểu diễn rõ nét, chính xác các thông số kể trên. Nói dân dã cho dễ tưởng tượng, một bức tranh vẽ bằng hộp 6 màu và một hộp 12 màu, cái bức nào nào bạn phối được nhiều màu hơn một cách dễ dàng? Tất nhiên là cái bức tranh được vẽ bằng hộp 12 màu. Phương thức lưu trữ âm thanh trên máy tính cũng y như vật, càng nhiều bit trên một đơn vị thời gian càng tốt. Khái niệm bitrate xuất hiện, nó cũng được áp dụng tương tự cho phim.

Một bài nhạc có bitrate càng cao thì số thì người người nghe cảm thấy rõ hơn, hay hơn là chưa đúng. Cho nên nói lại cái "rõ" đó cho đúng là, bitrate cao kèm theo phổ tần số đầy đủ khi đó thì người nghe mới cảm thấy rõ hơn, hay hơn.

Để các bạn hình dung độ "rõ" một cách trung thực mà mình nói, mình có vài bức ảnh ngồi chơi xơi nước cho đỡ nhàm chán vì chữ quá nhiều:

Đây là bức ảnh của bài Starduster, sử dụng chuẩn mã hoá AAC của Apple, được nén lại dưới dạng file M4A. Bạn có thể thấy độ chi tiết của phổ tần số âm thanh được biểu diễn từ 0 đến 22 kHz. Cực kỳ chi tiết, bài này có bitrate lên tới 1.4 mbps, trung bình đạt 952kbps

Đây là một bài Starduster khác, sử dụng chuẩn mã hoá MP3 phổ biến, mode VBR (biến thiên, đa dạng), bitrate là 224, ở mode VBR, bitrate sẽ không ổn định xuyên suốt cả bài nhạc, mà nó sẽ biến thiên từ 0 cho đến 256kbps (ở bài này là 256). Bạn thấy nó bị đen phần lớn phổ tần số từ 18kHz đến 22kHz đó. Bị mất do quá trình nén về bitrate thấp.

Đây là một bài nhạc, sử dụng chuẩn AAC, M4A, birate cũng được biến thiên VBR tối đa 256kbps, nhưng phổ tần số bị mất giảm rõ rệt so với chuẩn MP3

Đây là phổ tần số của một bài 128kbps, "khúc đầu" bị mất quá nhiều. Nhưng nếu tui lấy cái bài này, bung nén nó ở mức 320kbps thì không có cải thiện được chất lượng âm thanh đâu nha. Đồ thị của nó vẫn y như vậy thôi

Đó, bạn thấy đó, việc lược bỏ một số âm ở âm vực cao sẽ giúp giảm dung lượng file âm thanh, nhưng cũng làm giảm chất lượng của bài nhạc.

Bây giờ, xin phép phân tích qua tần số lấy mẫu. Chúng ta ai cũng biết âm thanh là dạng sóng âm, nếu muốn biết hình dạng nó ra sao thì cứ tìm một mặt hồ lặng yên (xem như không khí) và một cục đá (xem như nguồn âm), quăng cục đá vào hồ, nó tạo ra sóng trên mặt hồ, âm thanh cũng như vậy.

Việc chuyển đổi một tín hiệu âm thanh thành tín hiệu rời rạc hay tín hiệu kỹ thuật số đều cần phải xác định hình mẫu của sóng âm. Đây chính là nguồn thu vào các tín hiệu "tươi", chưa xử lý, chưa nén. Giống như trước đây, khi muốn vẽ bản đồ, bạn phải đi khảo sát khu vực. Âm thanh được số hoá cũng y như vậy

Sóng âm sẽ được chia thành từng đoạn nhỏ, các mỗi đoạn đó ta sẽ lấy giá trị biến thiên một lần. Kết hợp tất cả các giá trị biến thiên đó lại thành một chuỗi, ta có tín hiệu rời rạc không liên tục. Kết hợp vài thuật toán xử lý, ta có thể vẽ lại sóng âm đó thành đồ thị, thậm chí là xuất tín hiệu ra loa thành sóng âm ban đầu (âm thanh).

Như vậy, nếu ta cắt sóng âm thành nhiều khúc ta càng có nhiều tín hiệu rời rạc, càng chi tiết, thì độ chính xác, độ "giống" sóng âm ban đầu sau khi xử lý tín hiệu rời rạc càng cao. Và người ta gọi việc cắt và lấy giá trị biến thiên đó là tần số lấy mẫu. Như mấy bài ở trên có tần số lấy mẫu là 44100 Hz (44.1kHz). Tần số lấy mẫu tối thiểu là 40kHz, nhưng cũng có nhiều chuẩn cao hơn như 48kHz, 96kHz, 192kHz.

Tản mạn chút mà vậy đó, chỉ có hai thông số cơ bản khi nghe nhạc cần chú ý thôi :) Vì vậy, nếu mọi người muốn nghe nhạc hay cần chú ý tới hai thông số này nhe :D