HNMHanoi- Extract Text from Files là một tính năng của balabolka cho phép trích xuất hàng loạt phần nội dung văn bản từ các tập tin sách điện tử có định dạng pdf, prc chm... vv.thành định dạng tập tin cơ bản là txt giúp ta có thể xử lý và làm việc một cách nhẹ nhàng dễ dàng hơn.

 Trong bài này tôi sẽ hướng dẫn quý vị và các bạn cách tách phần nội dung văn bản từ các dạng e-book nói trên thành các tập tin txt bằng phần mềm balabolka.

 trước hết hãy tải và cài đặt chương trình balabolka nếu máy tính của quý vị và các bạn chưa có phần mềm này xin hãy xem lại bài hướng dẫn sử dụng balabolka trong các bài trước hoặc

tại đây.

 

Để tách nội dung văn bản từ các file e-book ta làm như sau:

 -Khởi động balabolka.

Tại cửa sổ chương trình ta nhấn tổ hợp phím ctrl+shift+f để mở hộp thoại Extract Text from Files

đây là một hộp thoại bao gồm có hai tab là file tab và text tab. ta có thể di chuyển qua lại bằng tổ hợp phím ctrl+tab hoặc nhấn tab đến tiêu đề trang rồi dùng mũi tên trái, phải để di chuyển.

về cách sử dụng thì cũng tương tự như hộp thoại Batch File Converter đã được tôi hướng dẫn trong bài trước.

-tại trang file tab ta có nút add file button. dùng để add các file nguồn như pdf, prc, chm...vv vào danh sách file chuẩn bị được tách nội dung văn bản. tại đây ta có thể add bao nhiêu file tùy thích.

-nút browse là để chọn thư mục sẽ lưu các file txt đã được trích xuất nội dung văn bản.

-Tại trang text tab ta chọn UTF-8 đối với các văn bản tiếng việt còn đối với các văn bản tiếng anh ta chỉ cần chọn ANSI là được.

nếu muốn giữ lại định dạng của văn bản ta đánh dấu chọn vào Format text check box not check. tuy nhiên đối với file txt thì cái này không cần thiết lắm.

- mục: Combine all text files into one file nếu được chọn sẽ nối tất cả các file txt sau khi được trích xuất thành một file duy nhất.

 -Và cuối cùng sau khi đã hoàn thành tất cả các lựa chọn ta chỉ việc nhấn vào nút convert để chương trình bắt đầu thực hiện việc trích xuất nội dung văn bản , chỉ việc chờ đến khi có âm thanh báo hoàn thành là xong tùy theo số lượng cũng như dung lượng của các file e-book mà thời gian có thể lâu hay nhanh.

 Chúc quý vị và các bạn thành công.

 

Phạm Sơn Hà.

This email address is being protected from spambots. You need JavaScript enabled to view it.