Cách tôi sử dụng AI để phiên âm và sắp xếp các ghi chú giọng nói của mình

Tác giả AI+, T.Sáu 10, 2024, 08:18:48 CHIỀU

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 1 Khách đang xem chủ đề.

Đừng bao giờ đánh mất những suy nghĩ tự phát ngẫu nhiên của bạn nữa.

  • Sử dụng Whisper để chép lại ghi chú giọng nói một cách chính xác và nhanh chóng miễn phí.
  • Sử dụng ChatGPT để tạo các ghi chú ngắn gọn, có cấu trúc từ bản ghi âm một cách dễ dàng.
  • Lưu các ghi chú tóm tắt của bạn trong ứng dụng ghi chú như Notion hoặc trong công cụ tất cả trong một như AudioPen.

Tôi nói nhanh hơn tôi viết. Đối với tôi, việc thốt ra một suy nghĩ cũng dễ dàng hơn là viết nó ra. Nếu bạn cũng thích suy nghĩ thành tiếng như tôi, hãy đánh cắp hệ thống của tôi để ghi lại các ghi chú giọng nói và giữ chúng ngăn nắp để bạn không bao giờ mất dấu ý tưởng của mình nữa.

1. Hệ thống miễn phí của tôi để phiên âm, tinh chỉnh và sắp xếp các ghi chú giọng nói của tôi

Tôi có một hệ thống gồm ba phần, trong đó tôi sử dụng các ứng dụng và công cụ miễn phí để chép lời, tinh chỉnh và sắp xếp các ghi chú giọng nói của mình. Đây là hướng dẫn từng bước trình bày cách tôi sử dụng nó.

Bước 1: Sử dụng Whisper để ghi lại giọng nói của bạn

Whisper là mô hình AI chuyển lời nói thành văn bản miễn phí và mã nguồn mở được phát triển bởi OpenAI. Nó vượt trội trong việc phiên âm giọng nói với độ chính xác vượt trội, ngay cả khi tệp âm thanh nguồn có nhiễu nền đáng kể.

Để sử dụng Whisper, bạn có thể sử dụng các ứng dụng được hỗ trợ bởi mô hình AI. Tuy nhiên, tôi thích sử dụng cách triển khai Whisper Jax có sẵn miễn phí trên trang web Hugging Face hơn tại đây:   Đăng nhập để xem liên kết

Công cụ này cho phép bạn ghi clip giọng nói bằng micrô, tải tệp âm thanh lên hoặc gửi video YouTube để phiên âm.


Cá nhân tôi ghi âm giọng nói của mình bằng máy ghi âm trên PC (hoặc điện thoại của tôi) rồi tải tệp đó lên trang web. Tôi làm điều này vì tôi muốn lưu trữ các bản ghi âm giọng nói của mình cùng với các ghi chú đã viết. Nếu không muốn làm điều đó, bạn chỉ cần sử dụng tính năng micrô trên trang web để ghi âm trực tiếp giọng nói của mình.

Bạn cũng có thể truy cập trang web này từ điện thoại và ghi âm giọng nói của mình khi đang di chuyển.


Nhà phát triển tuyên bố rằng bạn có thể chép lại tệp âm thanh dài 30 phút trong 30 giây và tôi đồng ý rằng tốc độ này rất nhanh. Trong ví dụ trên, bạn có thể thấy bản ghi dài 1 phút 22 giây của tôi được phiên âm trong 1,5 giây.

Vấn đề duy nhất là đây là bản demo miễn phí và các yêu cầu của người dùng được xử lý trên cơ sở ai đến trước được phục vụ trước. Vì vậy, khi trang web có nhiều người dùng, bạn có thể phải xếp hàng chờ. Đôi khi, tải có thể cao đến mức không thể đăng ký yêu cầu của bạn, trong trường hợp đó, bạn sẽ cần tiếp tục nhấp vào nút "Gửi" cho đến khi vào hàng đợi.



Nếu không muốn đợi lâu như vậy, bạn có thể cân nhắc việc tạo phiên bản Whisper Jax của riêng mình và chạy nó trên PC. Hướng dẫn về cách thực hiện việc này được viết rõ ràng trên trang GitHub của nó. Tuy nhiên, điều này có thể hơi quá kỹ thuật, đặc biệt nếu bạn chưa bao giờ tải xuống và cài đặt tệp từ GitHub trước đây.

Ngoài ra, bạn có thể cài đặt Whisper, do OpenAI cung cấp mà không cần triển khai Jax. Điều đó có nghĩa là, theo kinh nghiệm của tôi, phương pháp này chậm hơn nhiều, mất 1 phút để chép lại 1 phút âm thanh—nhưng việc cài đặt trên PC của bạn cũng đơn giản hơn nhiều. Đây là video YouTube về cách cài đặt Whisper mà bạn có thể sử dụng làm tài liệu tham khảo:

Tốc độ sao chép sẽ phụ thuộc vào GPU và dung lượng VRAM của bạn. Nếu không có GPU chuyên dụng, bạn vẫn có thể chạy Whisper bằng CPU của mình, nhưng nó chậm đến mức tốt hơn hết bạn nên sử dụng bản demo miễn phí Whisper Jax trên Ôm mặt, ngay cả khi bạn phải xếp hàng chờ.

Bước 2: Sử dụng ChatGPT để tóm tắt bản phiên âm thành ghi chú ngắn gọn

Sau khi chép lại tệp âm thanh của mình bằng Whisper, bạn sẽ nhận được bản giới thiệu văn bản không có cấu trúc làm đầu ra. Nó sẽ lộn xộn, dài dòng và trông giống như một bức tường văn bản khổng lồ. Chúng ta cần làm sạch văn bản bằng cách loại bỏ tất cả những thứ thừa thãi, cấu trúc nó và trình bày tất cả các ý tưởng với định dạng rõ ràng, dễ hiểu. Để thực hiện việc này, chúng tôi sẽ sử dụng ChatGPT—ngay cả phiên bản miễn phí cũng đủ.

Chỉ cần mở chatbot AI và nhập lời nhắc sau:

Mã nguồn [Chọn]
Tôi có một văn bản được chép lại dài từ bản ghi âm giọng nói và tôi cần sự giúp đỡ của bạn để tạo các ghi chú ngắn gọn từ đó. Vui lòng xác định và tóm tắt các điểm chính, quyết định, hành động và bất kỳ thông tin liên quan nào khác từ văn bản. Sắp xếp các ghi chú theo định dạng có cấu trúc để dễ dàng tham khảo. Đây là văn bản:

{Chèn văn bản được phiên âm vào đây}

Và thế là xong! ChatGPT sẽ xử lý văn bản và cung cấp cho bạn đầu ra được định dạng gọn gàng để bạn dễ dàng tham khảo trong tương lai.

Theo trải nghiệm cá nhân của tôi, ChatGPT hoạt động tốt nhất khi văn bản đầu vào của bạn có độ dài 1500 từ trở xuống. Do đó, nếu bản phiên âm dài hơn 1500 từ, tôi khuyên bạn nên chia nó thành nhiều phần rồi đưa vào ChatGPT. Sau đó, bạn sẽ kết thúc với nhiều ghi chú tóm tắt. Sau đó, bạn có thể hướng dẫn ChatGPT kết hợp tất cả các ghi chú thành một ghi chú duy nhất và sử dụng ghi chú đó làm đầu ra cuối cùng.

Bước 3: Lưu ghi chú bên trong ứng dụng ghi chú

Sau khi bạn có bản phiên âm ở dạng ghi chú tóm tắt, bước cuối cùng là lưu nó vào ứng dụng ghi chú mà bạn chọn. Bạn có thể giữ nó bên trong Apple Notes hoặc Google Keep. Cá nhân tôi thích sử dụng Notion hơn vì các tính năng nâng cao hơn của nó.

Và thế là xong! Bây giờ bạn đã biết cách biến những gì bạn nói thành tiếng thành những ghi chú ngắn gọn, dễ đọc và lưu chúng để truy xuất nhanh chóng và tham khảo trong tương lai.

2. Vấn đề chính với hệ thống của tôi

Mặc dù giải pháp miễn phí mà tôi chia sẻ ở trên rất mạnh mẽ nhưng vẫn có một số hạn chế. Điều khiến tôi khó chịu nhất là tôi cần chuyển qua ba đến bốn ứng dụng khác nhau, bao gồm ứng dụng ghi âm giọng nói của tôi (mặc định trên điện thoại của bạn là như vậy), ứng dụng web Whisper-Jax, ChatGPT và cuối cùng là Notion để hoàn thành. quá trình.

Một vấn đề khác là toàn bộ hệ thống phụ thuộc vào việc sử dụng Whisper. Vì vậy, nếu bạn đang sử dụng bản demo miễn phí Whisper Jax trực tuyến, bạn có thể chấp nhận chờ đợi trong giờ cao điểm. Trong khi đó, nếu bạn quyết định cài đặt Whisper cục bộ, quá trình này có thể hơi khó khăn về mặt kỹ thuật và bạn vẫn cần có một hệ thống mạnh mẽ để đảm bảo tốc độ sao chép tốt.

Tôi có thể hiểu những nhược điểm này đang là vấn đề đối với một số người dùng, vì vậy đây là một giải pháp thay thế siêu thân thiện với người dùng— AudioPen.

Tôi thực sự đã phát triển hệ thống ba phần miễn phí của mình để đảo ngược kỹ thuật AudioPen vì tôi rất thích nó!

3. AudioPen — Một ứng dụng để chép lại, tinh chỉnh và sắp xếp các ghi chú giọng nói của bạn

AudioPen là một công cụ tất cả trong một có thể phiên âm giọng nói của bạn, tinh chỉnh, tạo cấu trúc và lưu trữ dưới dạng ghi chú để bạn có thể truy cập chúng bất cứ khi nào cần thiết. Hơn nữa, đây là một ứng dụng web không phụ thuộc vào thông số kỹ thuật hệ thống của bạn để hoạt động tối ưu.


Nó có phiên bản miễn phí nhưng hơi đơn giản. Nó chỉ cho phép bạn ghi lại (không tải lên) ghi chú giọng nói và mỗi lần ghi được giới hạn trong 3 phút.

Để sử dụng nó, chỉ cần nhấp vào nút Microphone và bắt đầu nói chuyện. Sau khi hoàn tất, nhấn nút dừng để gửi bản ghi của bạn. AudioPen sẽ mất vài giây đến một phút để ghi lại những gì bạn nói và trình bày tất cả các điểm chính trong một ghi chú rõ ràng và có cấu trúc. Tài khoản miễn phí có giới hạn 10 ghi chú, vì vậy bạn sẽ cần xóa ghi chú cũ hơn để tạo ghi chú mới nếu đạt đến giới hạn.

Tôi thấy tài khoản miễn phí hoạt động với nhiều người, đặc biệt nếu bạn đồng ý với việc ghi âm giọng nói nhỏ hơn và sao chép dán ghi chú sang một ứng dụng ghi chú khác để giải phóng dung lượng trên AudioPen.

Tuy nhiên, nếu bạn muốn có thêm không gian cho ghi chú của mình và chép lại các bản ghi dài hơn, bạn có thể nâng cấp lên phiên bản trả phí—AudioPen Prime, phiên bản này có rất nhiều tính năng tuyệt vời. Với $99/năm (hoặc $159 trong 2 năm), đây là những gì bạn nhận được:

  • Ghi âm ghi chú thoại dài tối đa 15 phút hoặc tải lên tệp âm thanh có dung lượng lên tới 25MB.
  • Lưu ghi chú giọng nói không giới hạn.
  • Tạo thư mục và thêm thẻ để sắp xếp các ghi chú thoại của bạn.
  • Tính năng tìm kiếm theo ngữ cảnh cho phép bạn dễ dàng tìm kiếm trong tất cả các ghi chú của mình.
  • Tùy chọn chỉ định kiểu viết và độ dài cho các ghi chú được tinh chỉnh.
  • Xuất ghi chú của bạn, xuất bản chúng trực tuyến dưới dạng thẻ nhớ hoặc biến chúng thành hình ảnh có thương hiệu và chia sẻ chúng trên mạng xã hội.

Nói nhanh hơn và tự nhiên hơn viết, cho phép bạn nắm bắt những ý tưởng tự phát trong thời gian thực. Với các công cụ như Whisper để sao chép chính xác và ChatGPT để tinh chỉnh phần văn bản được chép lại, bạn có thể biến những suy nghĩ hỗn loạn thành những hiểu biết rõ ràng, có thể hành động. AudioPen còn đơn giản hóa việc này hơn nữa bằng cách kết hợp phiên âm, sàng lọc và sắp xếp trong một ứng dụng. Siêu năng lực này đảm bảo bạn không bao giờ mất ý tưởng, duy trì khả năng sáng tạo và năng suất của bạn ở mức cao nhất.