Saturday, April 20, 2024

Mã hóa âm thanh và hình ảnh

Hà Dương Cự/Người Việt

Bây giờ hầu hết tất cả những dữ kiện, hình và phim ảnh đều được loan truyền và lưu trữ trong dạng kỹ thuật số, tức là tất cả biến thành chuỗi số “0” và “1.” Hệ thống dùng hai số gọi là hệ thống nhị phân. Bài này bàn về những kỹ thuật để biến tất cả thành những số 0 và 1.

Hồi xưa Kinh Dịch bên Trung Quốc cũng đã dùng hệ thống nhị phân. Họ không gọi là 0 và 1 mà gọi là âm dương. Từ hai sinh ra bốn rồi tám rồi 64, “lưỡng nghi sinh tứ tượng, tứ tượng sinh bát quái…” Hiểu 64 quẻ Kinh Dịch là có thể biết hết trời đất. Bây giờ thì hai số 0 và 1 cũng bao trùm thế giới. 

Mã hóa chữ viết 

– ASCII: Để thể hiện các chữ cái và số người ta phải có phương pháp để biến các chữ thành một chuỗi số 0 và 1. Trước năm 1963 thì không có một tiêu chuẩn nào, các công ty mạnh ai nấy phát triển theo ý kiến riêng của mình. Các máy móc điện tử không thể liên lạc với nhau được, cũng giống như hai người nói hai thứ ngôn ngữ khác nhau.

Năm 1963, ASCII (American Standard Code for Information Interchange) được ra đời để chuẩn hóa việc biến đổi chữ thành số. Tiến trình này được gọi là mã hóa. Tuy nhiên phải đến năm 1981 chuẩn ASCII mới được đồng nhất trong tất cả các máy tính cá nhân.

Đơn vị nhỏ nhất trong máy tính là bít (bit). Bít chỉ có thể có hai trị số: 0 và 1. Chuẩn ASCII lúc đầu có 7 bít, thí dụ chữ C được thể hiện như sau:

1 0 0 0 0 1 1

Vì có 7 bít nên chỉ có thể có 128 ký tự, [(2 lũy thừa 7) = 128]. Ngoài 26 chữ cái thường, 26 chữ cái in, 10 số từ 0 tới 9, phần còn lại là những ký hiệu dùng để viết hay trong máy tính như dấu cộng “+” hay phím lùi (backspace).

Về sau vì nhu cầu nên ASCII được mở rộng thành Extended ASCII có 8 bít, tức là một byte và số ký tự được nhân đôi thành 256. Phần mở rộng này có các ký tự như ê hay β. Các bạn tò mò muốn biết tất cả các ký tự trên ASCII thì có thể vào www.AsciiTable.com mà xem.

– Unicode: Tuy đã được mở rộng nhưng còn quá ít không thể dùng cho những ngôn ngữ như tiếng Nam Hàn hay Nhật. Ngay tiếng Việt cũng không đủ ký tự để viết cho đúng. Tôi còn nhớ khoảng năm 1988 dùng ASCII trên máy tính để gửi điện thư bằng tiếng Việt. Vì không đánh dấu được nên các anh chị em Việt Nam trong giới điện toán nghĩ ra một cách đánh dấu. Thí dụ chữ “tiếng Việt” thì viết như sau “tie^’ng Vie^.t.” Tuy nhìn thấy hơi kỳ kỳ, nhưng rồi cũng quen, còn hơn là chữ Việt mà không có dấu.

Vào đầu thập niên 1980, kỹ sư của các công ty phần mềm bắt đầu nghĩ cách mã hóa chữ viết của các ngôn ngữ khác. Năm 1987, chữ Unicode được ông Joe Becker ở công ty Xerox đặt ra để diễn tả đặc tính phải có của sự mã hóa. Đó là tính duy nhất (unique), tính phổ quát (universal), và tính đồng nhất (uniform).

Tổ hợp Unicode được thành lập để phát triển những chuẩn để mã hóa cho những chữ viết trên thế giới. Unicode có một tầm nhìn xa, đó là mã hóa tất cả các chữ viết trên thế giới. Tuy chưa tới đích đó nhưng hiện tại đa số những chữ viết đã được mã hóa, trong đó có chữ Việt. Bây giờ không có lý do gì để viết chữ Việt không dấu. 

Mã hóa âm thanh

Đứng về phương diện vật lý thì âm thanh như tiếng nói hay âm nhạc là sóng được tạo ra do sự rung động của một vật thể và được truyền đi từ nơi này tới khác qua một môi trường như không khí.

Hồi xưa hệ thống điện thoại dùng kỹ thuật truyền tương tự (analog transmission). Sóng âm thanh được biến đổi thành tín hiệu điện và được truyền theo dây điện, khi tới đầu bên kia thì tín hiệu điện lại được đổi thành sóng âm thanh. Kỹ thuật này truyền đường gần thì tốt, nhưng truyền đường xa thì có nhiều khuyết điểm. Nên về sau các công ty điện thoại chuyển qua dùng kỹ thuật số để truyền tín hiệu nên họ nghiên cứu để biến những sóng âm thanh ra dạng số.

Âm thanh truyền tới máy vi âm (microphone) thì được biến đổi thành dòng điện. Sau đó thì được mã hóa bởi một thiết bị gọi là bộ chuyển đổi tương tự sang số (analog to digital converter). Yếu tố chính của thiết bị này là sự lấy mẫu (sampling). Đây là việc đo tín hiệu điện để chuyển thành số. Nếu lấy mẫu càng nhiều lần trong một giây thì càng chính xác và âm thanh nghe càng trung thực.

Đơn vị đo tốc độ lấy mẫu là Hertz (viết tắt là Hz). Thường thì âm nhạc được lấy mẫu 44,100 Hz hay 44.1 kHz. Tiếng nói trong điện thoại thì lấy mẫu 8 kHz là cũng nghe được.

Tốc độ bít (bit rate) cho biết là bao nhiêu bít dữ liệu được xử lý trong một giây. Tốc độ bít được tính là tốc độ lấy mẫu x số bít trong một mẫu x số kênh. Thí dụ tốc độ lấy mẫu là 44.1 kHz, có 16 bít trong một mẫu và có hai kênh (cho âm thanh nổi) thì tốc độ bít là: 44,100 x 16 x 2 = 1,411,200 bps (bit per second) hay là 1,411.2 kbps.

Một bài nhạc 4 phút thì hồ sơ của bài đó có cỡ lớn hơn 40 megabytes. Hồ sơ như vậy quá lớn, khó có thể gửi qua điện thư hay tải xuống. Nên có nhiều kỹ thuật để nén những hồ sơ nhạc cho nhỏ lại. Một kỹ thuật thông dụng là mp3, được tạo nên bởi MPEG (Moving Pictures Experts Group). Mp3 là chữ viết tắt của MPEG Layer 3. Mp3 có thể nén một hồ sơ từ 30 Megabyte xuống tới 3 MB. Bạn thấy hồ sơ nào mà có đuôi là “.mp3” thì biết là hồ sơ đó có dạng thức mp3. 

Mã hóa hình ảnh

Hình ảnh trên màn hình tạo từ nhiều khối nhỏ gọi là điểm ảnh (picture elements thường được viết tắt là pixels). Càng nhiều điểm ảnh thì hình càng rõ, nhưng hồ sơ của ảnh lại lớn. Có hai loại hồ sơ hình ảnh: Ảnh nhị phân (bitmap) và vec tơ.

Ảnh nhị phân là dạng thức thông dụng trên máy ảnh kỹ thuật số và điện thoại di động.

Ảnh vec tơ dùng tọa độ và hình học để phân định mỗi phần của một hình ảnh. Phương pháp này hữu hiệu hơn là phương pháp nhị phân. Thí dụ như nếu ảnh có một phần cùng một màu thì ảnh vec tơ không phải lưu trữ điểm ảnh của mỗi điểm. Hơn nữa ảnh vec tơ có thể phóng ra mà không mất chất lượng.

Độ phân giải của ảnh được đo từ số điểm ảnh trong một inch vuông gọi là dots per inch, viết tắt là dpi. Độ phân giải càng lớn thì hình càng rõ nét. Nhưng dpi lớn thì kích thước của hồ sơ cũng lớn. Vì quá lớn nên hình ảnh trên mạng hay bị thu nhỏ lại, cho nên khi tải xuống thường không được đẹp.

Màu sắc trên hình tùy thuộc vào số bít trong mỗi điểm ảnh. Càng có nhiều bít thì càng có thể có nhiều màu. Thường máy tính hay máy ảnh dùng 24 bít. Như vậy có thể có tới trên 16 triệu màu khác nhau.

Hồ sơ của hình ảnh rất là lớn nên cần phải dùng những phần mềm đặc biệt để nén xuống cho nhỏ lại. Nếu bạn thấy hồ sơ nào có đuôi là .jpg hay .jpeg hay .gif hay .png thì đó là hình ảnh theo dạng nhị phân và đã được nén.

Ô nhiễm cả khúc sông Nghệ An vì xác heo chết
————————————-
Nguồn tài liệu: www.unicode.org

CÓ THỂ BẠN QUAN TÂM

MỚI CẬP NHẬT