I use the code above, but the results returned are missing. Although, when I used it on regex101.com, regexr.com and RegexBuddy, it works correctly. it is missing text:
- "[6]Thái Thượng Lão Quân (太上老君) là tôn hiệu một vị thần tiên tối cao trong Đạo giáo Trung Quốc, một trong Tam Thanh. Cõi của Thái Thượng Lão Quân ngự gọi là Thanh Cảnh."
- "Chương ba: Mới nhập phàm trần đã gặp xui xẻo, làm trò cười cho thiên hạ! ...[7] Nam Thiên Môn là giao giới giữa trời và người."
public static string ReadHTMLCode(string URL)
{
WebClient webClient = new WebClient();
byte[] reqHTML;
reqHTML = webClient.DownloadData(URL);
UTF8Encoding objUTF8 = new UTF8Encoding();
return objUTF8.GetString(reqHTML);
}//method read HTMLcode
public static string get_story_ttv(string url)
{
string source = Class_test.ReadHTMLCode(url);
string pattern = @"[\w \”\.ÀÁÂÃÈÉÊÌÍÒÓÔÕÙÚĂĐÐĨŨƠàáâãèéêìíòóôõùúăđĩũơƯĂẠẢẤẦẨẪẬẮẰẲẴẶẸẺẼỀỀỂưăạảấầẩẫậắằẳẵặẹẻẽềềểỄỆỈỊỌỎỐỒỔỖỘỚỜỞỠỢỤỦỨỪễệỉịọỏốồổỗộớờởỡợụủứừỬỮỰỲỴÝỶỸửữựỳỵỷỹếý\n\,\“\]\[\(\)\!\…\?\:\-\—\–]+(?=<br \/>\n<br \/>)|^[\w \”\.ÀÁÂÃÈÉÊÌÍÒÓÔÕÙÚĂĐÐĨŨƠàáâãèéêìíòóôõùúăđĩũơƯĂẠẢẤẦẨẪẬẮẰẲẴẶẸẺẼỀỀỂưăạảấầẩẫậắằẳẵặẹẻẽềềểỄỆỈỊỌỎỐỒỔỖỘỚỜỞỠỢỤỦỨỪễệỉịọỏốồổỗộớờởỡợụủứừỬỮỰỲỴÝỶỸửữựỳỵỷỹếý\n\,\“\]\[\(\)\!\…\?\:\-\—\–]+$";
Match m = Regex.Match(source, pattern);
string S_rt = "";
int kt = 0;
while (m.Success)
{
S_rt += m.Groups[0].Value.Trim() + "\r\n";
m = m.NextMatch();
}
return S_rt;
}//method get text regex
private void button1_Click(object sender, EventArgs e)
{
string url = "http://www.tangthuvien.vn/forum/showthread.php?t=94781";
richTextBox1.Text = Class_test.get_story_ttv(url);
MessageBox.Show("DONE");
}//event buttonClick