Bài 11: Tổ chức thông tin trong máy tính

Fa Châu

các từ dc sap xep nhu the nao ttrog tu dien

lê trần văn minh
29 tháng 1 2018 lúc 20:42
Sắp xếp tiếng Việt
1. Các mục từ (đơn vị từ vựng) trong từ điển được xếp theo thứ tự các chữ cái:

a ă â b c d đ e ê f g h i j k l m n o ô ơ p q r s t u ư v w x y z



2. Theo các dấu giọng: không dấu, huyền, hỏi, ngã, sắc, nặng. Có thể cụ thể hoá hai quy tắc trên bằng trật tự như sau:

a à ả ã á ạ ă ằ ẳ ẵ ắ ặ â ầ ẩ ẫ ấ ậ b c d đ e è ẻ ẽ é ẹ ê ề ể ễ ế ệ
f g h i ì ỉ ĩ í ***** j k l m n o ò ỏ õ ó ọ ô ồ ổ ỗ ố ộ ơ ờ ở ỡ ớ ợ
p q r s t u ù ủ ũ ú ụ ư ừ ử ữ ứ ự v w x y ỳ ỷ ỹ ý ỵ z

3. Đơn vị căn cứ để xếp là từng khối viết liền (tổ hợp các con chữ), đơn tiết hoặc đa tiết, tính từ trái sang phải, khối chữ viết thường xếp trước khối chữ viết hoa, khối chữ nào có ít con chữ hơn (thường là âm tiết) luôn xếp trước khối chữ (có phần trùng với khối chữ có ít con chữ) có nhiều chữ hơn. Ví dụ a (đơn vị đo diện tích) xếp trước A (kí hiệu viết tắt của Ampere); cha xếp trước chan.

4. Ưu tiên trật tự chữ cái trước, sau mới đến thanh điệu trong khi sắp xếp

4.1. Đối với từ đơn tiết, nếu âm tiết[1] (phân biệt bằng khoảng trống - space) nào có dấu hiệu khu biệt về khối chữ thì dựa vào trật tự của khối chữ để sắp xếp, bất luận mang thanh điệu gì. Ví dụ:

ang xếp trước anh trong mọi trường hợp, bất luận chúng mang thanh điệu gì, vì ở ang có g xếp trước h ở anh; ác xếp trước ách vì ac+zero[2] xếp trước ac+h, bất luận chúng mang thanh điệu gì; apatit xếp trước apxe vì apa- xếp trước apx-; v.v.

4.2. Đối với từ đơn tiết, nếu âm tiết nào không có dấu hiệu khu biệt về khối chữ thì căn cứ vào thanh điệu để sắp xếp. Ví dụ: ba, bà, bả; hai, hài, hại, v.v.

4.3. Đối với từ đa tiết, căn cứ vào thứ tự của từng âm tiết từ trái sang phải để sắp xếp, sau mới căn cứ vào thanh điệu (kết hợp cả hai cách 4.1 và 4.2). Ví dụ:

ba bể xếp trước ba gác vì bể xếp trước gác; ba bể, ba gác, ba que... xếp trước bà cô vì ba ở các mục từ trên xếp trước bà ở bà cô. Như vậy, bất cứ âm tiết nào kết hợp với ba (ba đứng đầu) để tạo nên đơn vị từ vựng mới (đa âm tiết) cũng luôn luôn xếp trước bất cứ đơn vị từ vựng nào có mặt âm tiết bà (bà đứng đầu).

Lưu ý:

1) Đối với những hình thức ghi cách phát âm phổ biến của mục từ vay mượn tiếng nước ngoài kiểu như cu-lông, a-xpi-rin..., thì dấu gạch ngang xem như zero, và xếp bình thường như một từ đa tiết khác. Ví dụ: a-xpi-rin xếp sau a tòng vì a+zero+x xếp sau a+zero+t; và a-xpi-rin xếp trên à, à ơi vì a (không dấu) xếp trước à (dấu huyền), v.v.

2) Các kí hiệu (symbol) và kí số (number) thì xếp trước kí tự (character). Ví dụ: !, #, $, %, &, @..., 0, 1, 2, 3, ...9 luôn luôn đứng trước a, b, c; B1 xếp trước B40 và ba, v.v.

3) Với việc dùng dấu gạch ngang (-) trong khi phiên âm các đơn vị từ vựng nước ngoài, về nguyên tắc chúng ta quy ước nó như là kí hiệu khoảng trắng, nhưng theo luận lí thì nó vẫn phải xếp sau đơn vị từ vựng có cùng khối chữ nhưng cách nhau bằng khoảng trắng thực sự. Ví dụ:
a lô
a-lô

4) Tương tự, các kí hiệu như dấu nháy kép hoặc ngoặc đơn cũng phải được xử lí như trường hợp nêu trên. Tức là tuy ta coi nó là vị trí zero ở đầu và cuối một đơn vị từ vựng, nhưng vẫn phải ưu tiên xếp từ vựng có vị trí zero thực sự lên trên. Các từ vựng giống nhau về khối chữ, nhưng khác nhau về kí hiệu quy ước zero sẽ xếp theo trật tự của các kí hiệu phụ này. Cụ thể là: a xít xếp trước “a-xít”. Về dấu () thì có từ điển thu thập kiểu: ba chìm bảy nổi (chín lênh đênh), hiểu là có 2 đơn vị có nội dung ý nghĩa như nhau: ba chìm bảy nổi hoặc ba chìm bảy nổi chín lênh đênh, và ba chìm bảy nổi được dùng nhiều hơn là ba chìm bảy nổi chín lênh đênh. Với từ điển dạng sách, chỉ cần để một kiểu ba chìm bảy nổi (chín lênh đênh) thì đã chứa đựng cái ý nêu trên, còn với người dùng từ điển điện tử thì hình thức trên không chỉ ra rõ ràng cách hiểu như trong từ điển dạng sách. Vì lí do đó người ta phải thêm một mục “ba chìm bảy nổi chín lênh đênh” vào từ điển điện tử. Mục này nếu theo cách lập luận ở trên thì phải xếp trước mục ba chìm bảy nổi (chín lênh đênh). Điều này nghe ra là trái với tri thức vè nhận diện đơn vị từ vựng. Vì cái khối ở trong ngoặc (chín lênh đênh) vừa là phần chú thích thêm cho ba chìm bảy nổi, đồng thời lại vừa biểu thị là tổ hợp đi sau của đơn vị hoàn chỉnh ba chìm bảy nổi chín lênh đênh. Đây là hiện tượng cùng một hình thức biểu hiện nhưng có nhiều hơn một ý nghĩa diễn đạt. Để khắc phục tình trạng này chúng tôi đề nghị nên thu thập riêng thành hai đơn vị là ba chìm bảy nổi và ba chìm bảy nổi chín lênh đênh.

5) Tương tự, các kiểu sau đây cũng phải được xếp theo thứ tự:

ăn vóc học hay
ăn vóc, học hay
đâu... đó (đâu còn có đó)
...đâu ...đó (bạ đâu nằm đó)
đi lại
...đi ...lại (nhắc đi nhắc lại)

Kết luận: Nguyên tắc là ưu tiên khối chữ (tính toàn vẹn của khối chữ) trước, sau đến các kí hiệu nằm ngoài khối chữ (trước và sau khối chữ), sau nữa mới đến nội bộ khối chữ (tức các dấu gạch ngang, dấu phẩy, dấu ba chấm...).

___________________
[1] Đối với từ vay mượn tiếng nước ngoài, là những ngôn ngữ đa tiết tính, nên khái niệm âm tiết ở đây sẽ không chính xác. Nhưng để tiện làm việc, chúng tôi coi các khối chữ phân biệt với nhau bằng khoảng trống là một âm tiết, đồng nhất với âm tiết tiếng Việt.

[2] Khoảng trống ở sau một khối chữ (âm tiết) chúng tôi gọi là zero, nó được quy ước xếp trên chữ cái a,A trong mọi trường hợp. //Nguồn từ Vietlex.com Để đơn giản hoá các qui tắc trên, tôi tự đưa ra 1 cách sắp xếp của mình (chỉ là phương pháp của tôi!!!). 1. Định nghĩa thứ tự kí tự tiếng Việt : Tôi sử dụng định nghĩa sau : u"_0123456789aAàÀảẢãÃáÁạẠăĂằẰẳẲẵẴắẮặẶâÂầẦẩẨẫẪấẤậẬbBcCdDđĐeEèÈẻẺẽẼéÉẹẸêÊềỀểỂễỄếẾệỆfFgGhHiIìÌỉỈĩĨíÍịỊjJkKlLmMnNoOòÒỏỎõÕóÓọỌôÔồỒổỔỗỖốỐộỘơƠờỜởỞỡỠớỚợỢpPqQrRsStTuUùÙủỦũŨúÚụỤưƯừỪửỬữỮứỨựỰvVwWxXyYỳỲỷỶỹỸýÝỵỴzZ" kí tự _ thay cho khoảng trống. 2. Khi nhận được 1 chuỗi tiếng Việt, thì ánh xạ sang 1 dạng kí tự khác. Ví dụ : "_" sẽ được ánh xạ sang kí tự có ord = 0 (vị trí của kí tự "_" trong định nghĩa). kí tự "a" sẽ ánh xạ sang kí tự có ord = 11. 3. So sánh 2 chuỗi kí tự ánh xạ này 1 cách bình thường. Tôi chưa kiểm chứng độ chính xác của phương pháp này so với qui tắc sắp xếp bên trên. Nhưng phương pháp này có ưu điểm là dễ cài đặt và dễ hiểu hơn 1 loạt các qui tắc phức tạp bên trên. Tôi cũng đính kèm mã nguồn phép so sánh theo cách làm của tôi, mã nguồn dưới dạng ngôn ngữ Python.
Bình luận (0)

Các câu hỏi tương tự
PHAN MINH TÍN
Xem chi tiết
PHAN MINH TÍN
Xem chi tiết
PHAN MINH TÍN
Xem chi tiết
PHAN MINH TÍN
Xem chi tiết
sakura
Xem chi tiết
trần ngọc huyền
Xem chi tiết
Tiến Đức
Xem chi tiết
Sách Giáo Khoa
Xem chi tiết
linhnguyen
Xem chi tiết